Generative Verifiers: Reward Modeling as Next-Token Prediction

#reward-model

RM 训练方式

image-20240914144109046

核心实验

Chain-of-Thought Verifiers (GenRM-CoT)

加入 CoT 一起训练,发现效果会好

Inference-time Compute for CoT Verifier

对 CoT-RM 使用 MajVote@32,效果会好一些,也不本质

Unifying Generation and Verification

sft 时给出 verification data 和 正例 sft data,他们发现

Synthetic Verification Rationales for CoT Verifier

CoT 数据合成方式:用 LLM 使用 Let’s verify step by step 加上 Reference Solution 合成 CoT Verifier 数据

反思

之前想过类似事情,最大层是在 RM 层面利用语言能力

有人发表过类似工作,比如

image-20240914154040592