Generative Verifiers: Reward Modeling as Next-Token Prediction

2024-09-14 #reward-model

RM 训练方式

常规 RM 是在 LLM 后面接一个 Value Head，把 output embedding 打成一个标量，这样浪费了模型语言能力
PRM 做法是给出 step-level solution，看模型预测正例 label 的概率
GenRM 做法是让模型直接输出 CoT，然后补一句 Is the answer correct，通过 Yes / No 的概率来判断正误

核心实验

Chain-of-Thought Verifiers (GenRM-CoT)

加入 CoT 一起训练，发现效果会好

Inference-time Compute for CoT Verifier

对 CoT-RM 使用 MajVote@32，效果会好一些，也不本质

Unifying Generation and Verification

sft 时给出 verification data 和正例 sft data，他们发现

对于 Reward Model，融入正例解题数据效果会好
对于 Policy Model，融入 Verification 数据效果更好

Synthetic Verification Rationales for CoT Verifier

CoT 数据合成方式：用 LLM 使用 Let’s verify step by step 加上 Reference Solution 合成 CoT Verifier 数据

反思

之前想过类似事情，最大层是在 RM 层面利用语言能力

有人发表过类似工作，比如

Let’s verify step by step / shepherd，直接判断当前 step 对不对
先 sft 一轮 critique 然后接 value head 训练
拿 critique 作为 sft数据，和正常解题数据一起训