Alignment 算力小记
#misc
#rl


当前的 Alignment 算法基本还是地主的赛场,需要显著的计算资源。譬如 PPO 算法的计算流中,需要同时有四个模型进行复杂的交互。如果用 405B 的模型同时充当这四个模型的 base,在不进行优化的情况下,动用的资源可以简单算一算。
70B 模型用 FP16:140GB
4 个彼此交互的模型:140GB * 4 = 560GB
Adam:每个参数需要 8 个字节(两个动量):70B * 8bytes = 560GB
Critic 和 Policy 同时都需要训练,所以需要两个优化器 = 1120GB
激活值和梯度:保守估计是模型大小的 1.5 倍,大概 210GB
KL 散度和其他各类开销:保守估计 200GB
大概 2100GB,也即 3 台 80G A100 ???