To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning

#reasoning

结论

image-20240923114734270

  1. CoT的应用和效果:CoT是一种通过提示来引导语言模型进行推理的方法,它在数学和符号推理任务上表现出显著的性能提升,但在其他类型的任务上效果较小。
  2. 定量元分析:作者对超过100篇使用CoT的论文进行了分析,并在14个模型上的20个数据集上进行了评估。结果显示,CoT主要在涉及数学或逻辑的任务上提供显著的性能提升,其他没啥收益。
  3. MMLU数据集分析:在MMLU数据集上,直接生成答案而不使用CoT的方法与使用CoT的方法在准确性上几乎相同,除非问题或模型的响应中包含等号(=),这表明需要符号操作和推理。
  4. CoT的行为分析:通过将规划和执行分开,并与工具辅助的LLMs进行比较,作者发现CoT的大部分增益来自于改进符号执行,但在使用符号求解器时,CoT的表现相对较差。
  5. 选择性应用CoT:研究结果表明,CoT可以被选择性地应用,在保持性能的同时节省推理成本。
  6. 超越基于提示的CoT:作者认为,需要超越基于提示的CoT,探索新的范式,更好地利用中间计算来解决更广泛的LLM应用中的挑战性问题,还是回去猜 o1 技术路线吧。

总结