Generative Verifiers: Reward Modeling as Next-Token Prediction
#reward-model
RM 训练方式
-
常规 RM 是在 LLM 后面接一个 Value Head,把 output embedding 打成一个标量,这样浪费了模型语言能力
-
PRM 做法是给出 step-level solution,看模型预测正例 label 的概率
-
GenRM 做法是让模型直接输出 CoT,然后补一句 Is the answer correct,通过 Yes / No 的概率来判断正误

核心实验
Chain-of-Thought Verifiers (GenRM-CoT)
加入 CoT 一起训练,发现效果会好
Inference-time Compute for CoT Verifier
对 CoT-RM 使用 MajVote@32,效果会好一些,也不本质
Unifying Generation and Verification
sft 时给出 verification data 和 正例 sft data,他们发现
- 对于 Reward Model,融入正例解题数据效果会好
- 对于 Policy Model,融入 Verification 数据效果更好
Synthetic Verification Rationales for CoT Verifier
CoT 数据合成方式:用 LLM 使用 Let’s verify step by step 加上 Reference Solution 合成 CoT Verifier 数据
反思
之前想过类似事情,最大层是在 RM 层面利用语言能力
有人发表过类似工作,比如
-
Let’s verify step by step / shepherd,直接判断当前 step 对不对
-
先 sft 一轮 critique 然后接 value head 训练
-
拿 critique 作为 sft数据,和正常解题数据一起训
