LLM Critics Help Catch LLM Bugs

#reward-model #reasoning

搞 (question, answer) -> critique 训了 rm,拿 rm 训 ppo 写 critique(但这不是重点)

重点在于说明了 llm 找 bug 比人强,

类似 CoT?

这也是我之前思考的问题:考虑以下两个 critique,一个描述准确但漏了大错,一个漏了大错但描述准确,如何评价 critic 好坏?看上去二者各有优劣,但实际中训出性能肯定有差异,因为二者对应的数据分布就不同

OpenAI 给出了四条判断 critique 好坏的指标

其中前两条很好避免,只要我让模型尽可能多说,那遗漏的点就会很少。但是言多必失,模型说多了之后就会胡言乱语。

实验方法

数据集构造

OpenAI 先从 ChatGPT 数据里面找到一些代码片段,然后人为制造 bug,最后拿这些 bug 让标注师们操作。

image-20240702093620433

image-20240702093519660

结果分析

CriticGPT答的比人好

即使 OpenAI 选了五年以上 python 经验的专家,结果仍然不好。他们认为原因有三点,

image-20240702100618582

image-20240702100633011