Critique-out-Loud Reward Models
\begin{align*} h_k &= P(t_k = 1 \mid \mathbf{x}) = \frac{\exp(x_k)}{\sum_{j=1}^{K} \exp(x_j)} \\ E &= \frac{1}{N} \sum_{n=1}^{N} E^{(n)} = \frac{1}{N} \sum_{n=1}^{N} \sum_{k=1}^{K} t_k^{(n)} \left( \ln t_k^{(n)} - \ln h_k^{(n)} \right) \end{align*}
前言
论文名字叫 CLoud,经典 A+B,比较好奇
- 他们是固定 critique 和 rm 的输入格式吗?
- 怎么保证训 RM Head 和 LM Head 互不影响?把前面的结构参数 froze 掉么
目的
目前,RM 只是简单由 LLM + MLP 构成,也并没有用到模型的 LM Head,这样可能有不足。
- 没有 CoT-like manner
- 不可解释
方法
训练
搞一个 base model,用 Oracle Critiques (其他模型打的)跑一轮 sft,然后用 conditioned critique 训练 RM,最后再用自己生成的 Critique 训一波 RM Head。作者团队认为用 Self-Critique 可以减少 domain shift
训练 Loss
传统的 RM Loss 如下
为了体现 Critique,他们改了一下
这里的 chosen 和 reject 指的并非 critique 好坏,而是指 solution 好坏,所以 loss 是相加的!
推理
给定 User Prompt, Assistant Response,让模型先过 LM Head 生成 Self-Critique,然后过 RM Head 生成 reward。感觉 Critique 一般也都是上百 tokens 的,比较耗时间
结果
首先比大点,他们的方法相比于 LLama3-8B, 70B 分别涨了 4.65, 5.84 个点(这个数不是非常高);以及他们的模型在 ArenaHard 的测试 BoN 性能时规律很像帕累托曲线(为什么要强调 ArenaHard 呢?因为他们在其他数据集上没有这个规律)
预期
- 希望看到训 RM 对原本 LM 的影响
- 希望看到加入 critique 训练 RM
- Related Paper 北大 minos: https://arxiv.org/html/2406.14024v1