When More is Less:探索LLM中CoT长度的影响

大模型机器学习算法

picture.image

关注我们,一起学习

题目:When More is Less: Understanding Chain-of-Thought Length in LLMs

地址:https://arxiv.org/pdf/2502.07266

学校:北大,MIT

一、主要探究的问题

论文核心围绕大模型思维链(CoT)推理的“长度适配性”展开,直指传统认知的核心漏洞,具体探究以下四大关键问题:

  1. 长期以来“CoT越长,推理性能越好”的直觉是否成立?CoT长度与推理准确性的量化关系究竟是什么?
  2. 是否存在“最优CoT长度”?若存在,其如何随 模型能力 (参数规模、层数)和 任务难度 (问题复杂度、运算量)动态变化?
  3. 强化学习(RL)训练对CoT长度有何影响?传统“RL会让模型生成更长输出”的认知是否准确?
  4. 如何通过优化CoT长度,解决大模型推理中的“过度思考”(长CoT误差累积)和“思考不足”(短CoT分解不充分)问题,提升推理效率与准确性?

二、得出的结论

  1. CoT长度与性能呈“倒U形曲线”,最优长度普遍存在 :短CoT因无法充分分解问题导致“思考不足”,长CoT因步骤误差累积导致“过度思考”,两者均降低性能;存在唯一最优CoT长度,能平衡“分解充分性”与“误差风险”。

picture.image 2. 最优CoT长度的两大缩放定律

  • 随任务难度递增:任务越难(如MATH高难度题、T=80的算术题),最优长度越长(需更多步骤拆分复杂问题),且统计显著正相关;
  • 随模型能力递减:模型越强(参数越大、层数越多),最优长度越短(强模型单步可处理更复杂子任务,无需过多步骤),体现“简洁偏好(Simplicity Bias)”——如Qwen2.5-72B最优长度仅4步,1.5B模型则需14步。

picture.image

  • RL训练会强化“简洁偏好”,引导模型逼近最优长度 :反驳“RL让输出更长”的认知,实验中RL训练收敛后,模型CoT平均长度下降41%,准确率提升28%,证明RL能通过优化奖励,让模型规避“过度思考”。

  • 理论层面证实最优长度的必然性 :通过构建包含“子问题生成误差σ(T)”和“子问题求解误差E(N,M,T)”的数学模型,推导得出准确率公式

,并通过兰伯特W函数证明:最优长度

是推理机制的必然结果,而非经验观察。

  • 最优长度优化策略能显著提升性能
  • 最优长度训练:6层GPT-2用最优长度数据训练后,性能超过9层GPT-2(混合数据训练),任务难度越高,优势越明显;
  • 长度过滤投票:在GPQA数据集上,比传统投票准确率提升10%,且采样数量增加时性能无衰减。

三、怎么做

  1. 打破“越长越好”的认知误区 :CoT的核心价值不是“长度”而是“适配性”,盲目增加推理步骤只会导致误差累积和效率下降,需从“追求长CoT”转向“精准匹配最优CoT”。
  2. 大模型推理存在“能力-长度”适配规律 :强模型无需复杂冗长的推理路径,弱模型则需通过更多步骤拆分任务,这为不同能力模型的CoT策略设计提供了明确方向。
  3. RL训练的价值不止于“提升准确率” :RL能隐性校准CoT长度,即使初始训练数据的CoT长度不最优,RL也能引导模型逼近最优区间,为CoT优化提供了新的训练思路。
  4. CoT优化需“分场景定制” :不同难度的任务需要不同长度的CoT,简单任务忌“过度拆分”,复杂任务需“充分拆分”,无统一的CoT长度标准。

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

什么是熵坍塌?为什么会出现熵坍塌现象?此问题如何解决?

蚂蚁社招|算法工程师

快手 | 基于条件去噪扩散的自适应用户兴趣建模用于点击率预测

美团社招 | 算法工程师

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论