To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning

2024-09-23 #reasoning

结论

Finding 1: CoT only helps substantially on problems requiring mathematical, logical, or algorithmic reasoning.
As much as 95% of the total performance gain from CoT on MMLU is attributed to questions containing “=” in the question or generated output.
Finding 2: CoT primarily helps with the execution step that performs computation and symbolic manipulation, but falls short of what LLMs with tool augmentation can do.

CoT的应用和效果：CoT是一种通过提示来引导语言模型进行推理的方法，它在数学和符号推理任务上表现出显著的性能提升，但在其他类型的任务上效果较小。
定量元分析：作者对超过100篇使用CoT的论文进行了分析，并在14个模型上的20个数据集上进行了评估。结果显示，CoT主要在涉及数学或逻辑的任务上提供显著的性能提升，其他没啥收益。
MMLU数据集分析：在MMLU数据集上，直接生成答案而不使用CoT的方法与使用CoT的方法在准确性上几乎相同，除非问题或模型的响应中包含等号（=），这表明需要符号操作和推理。
CoT的行为分析：通过将规划和执行分开，并与工具辅助的LLMs进行比较，作者发现CoT的大部分增益来自于改进符号执行，但在使用符号求解器时，CoT的表现相对较差。
选择性应用CoT：研究结果表明，CoT可以被选择性地应用，在保持性能的同时节省推理成本。
超越基于提示的CoT：作者认为，需要超越基于提示的CoT，探索新的范式，更好地利用中间计算来解决更广泛的LLM应用中的挑战性问题，还是回去猜 o1 技术路线吧。