Alignment 算力小记

2025-01-24 #misc #rl

当前的 Alignment 算法基本还是地主的赛场，需要显著的计算资源。譬如 PPO 算法的计算流中，需要同时有四个模型进行复杂的交互。如果用 405B 的模型同时充当这四个模型的 base，在不进行优化的情况下，动用的资源可以简单算一算。

70B 模型用 FP16：140GB
4 个彼此交互的模型：140GB * 4 = 560GB

Adam：每个参数需要 8 个字节（两个动量）：70B * 8bytes = 560GB
Critic 和 Policy 同时都需要训练，所以需要两个优化器 = 1120GB

激活值和梯度：保守估计是模型大小的 1.5 倍，大概 210GB

KL 散度和其他各类开销：保守估计 200GB

大概 2100GB，也即 3 台 80G A100 ？？？