To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning
#reasoning
结论
- Finding 1: CoT only helps substantially on problems requiring mathematical, logical, or algorithmic reasoning.
- As much as 95% of the total performance gain from CoT on MMLU is attributed to questions containing “=” in the question or generated output.
- Finding 2: CoT primarily helps with the execution step that performs computation and symbolic manipulation, but falls short of what LLMs with tool augmentation can do.

- CoT的应用和效果:CoT是一种通过提示来引导语言模型进行推理的方法,它在数学和符号推理任务上表现出显著的性能提升,但在其他类型的任务上效果较小。
- 定量元分析:作者对超过100篇使用CoT的论文进行了分析,并在14个模型上的20个数据集上进行了评估。结果显示,CoT主要在涉及数学或逻辑的任务上提供显著的性能提升,其他没啥收益。
- MMLU数据集分析:在MMLU数据集上,直接生成答案而不使用CoT的方法与使用CoT的方法在准确性上几乎相同,除非问题或模型的响应中包含等号(=),这表明需要符号操作和推理。
- CoT的行为分析:通过将规划和执行分开,并与工具辅助的LLMs进行比较,作者发现CoT的大部分增益来自于改进符号执行,但在使用符号求解器时,CoT的表现相对较差。
- 选择性应用CoT:研究结果表明,CoT可以被选择性地应用,在保持性能的同时节省推理成本。
- 超越基于提示的CoT:作者认为,需要超越基于提示的CoT,探索新的范式,更好地利用中间计算来解决更广泛的LLM应用中的挑战性问题,还是回去猜 o1 技术路线吧。
总结
- CoT在数学和逻辑任务上特别有用,但在常识推理等“软推理”问题上帮助有限。
- 存在更有效的提示策略,可以在更低的推理成本下获得类似性能。
- 未来的研究应该探索如何更好地利用中间计算来解决数学和符号推理领域之外的难题。