为什么让模型"一步步思考"能显著提升推理能力?

大模型向量数据库云通信

大模型运作机理一直是从业者感兴趣的话题,科学哲学层面的探讨不断。

GPT-5将揭示人类的"创造力"其实就是模式识别?

OpenAI o3系统提示词泄漏!Hinton的观点再次被印证!

最近,国内大学有一项研究《How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation》回答了一个困扰AI研究者很久的问题:为什么让模型"一步步思考"会显著提升推理能力?它们拆解了Chain-of-Thought(思维链)提示的内部机制。过去大家都知道它有效,但没人说得清楚具体原因。

picture.image

研究团队选了6个不同规模的模型(LLaMA3.2-3B,LLaMA3.1 (8B, 70B),Gemma2 (2B, 9B, 27B) ),在9个数据集上做了全面测试,涵盖算术推理、常识推理和符号推理。重点是,他们从解码、概率投影和神经元激活的过程中的信息流动分析了CoT的内部机制。

picture.image

核心发现

1. CoT本质是结构化剪枝器

研究发现CoT并非什么神奇的推理能力,而是通过模板匹配来约束输出空间。当你说"让我们一步步分析"时,模型实际上在执行一套精巧的模仿策略:从提示中学习结构性关键词,从问题中提取具体内容,然后按照固定的推理模板生成答案。

picture.image

论文量化了这种"模仿"程度,发现结构遵循度与准确率呈强正相关**,准确率可从0.3提升到0.9** 。

picture.image

有趣的是,模型对不同类型关键词的模仿策略截然不同:时间和动作词汇主要从CoT提示中学习,数字关键词则主要从输入问题中提取。而在需要常识推理的任务中,模型对问题关键词的模仿显著降低,因为它需要更多依赖内部知识。

picture.image

2. 概率分布的收敛效应

通过分析概率分布,研究者发现了CoT提升性能的核心机制:它让模型的选择变得更加确定,就像一个漏斗,把生成下一个词的概率集中到正确的词上。这样正确答案的不确定性可以降低50-80%,CoT生成的概率分布更加集中,密度峰值提升了数倍,熵更低。这解释了为什么CoT能提高准确性——不是推理变强了,而是选择变准了。

picture.image

3. 与任务相关的神经元激活

最令人意外的发现是CoT对神经元激活的影响完全取决于任务类型。在开放域任务(如数学题)中,CoT会减少约4%的神经元激活,主要影响网络后三分之一的层次,像"剪枝器"一样聚焦相关特征。但在封闭域任务(如选择题)中,情况完全相反:CoT会增加3-5%的神经元激活,更全面地评估各种选项,像"放大器"一样增强判别能力。

picture.image

性能提升显著

这种机制带来的性能提升是显著的:数学推理任务的准确率提升了200-300%,选择题任务提升25-60%,符号推理任务提升超过100%。所有测试模型都显示出相同的机制模式,证明这些发现具有普遍性。

picture.image

实际应用启示

这些发现对提示工程有重要指导意义:

  1. 结构比内容更重要 :与其纠结推理步骤的逻辑正确性,不如确保格式的一致性
  2. 模板迁移有效 :相似结构的CoT提示可以跨任务使用,关键是保持推理模板的完整性
  3. 任务匹配很关键 :开放性问题用引导收敛的提示,选择性问题用鼓励全面考虑的提示z

小结

论文也指出,在LLM这个"黑箱"中建立因果链条极其困难。他们的发现更多是"强相关"而非"确定因果",这样的的结论构建在实证分析而非原理推演。但无论如何,它用实测数据揭示了CoT的可能工作原理:它通过结构化模板引导、token生成概率分布收敛和任务相关的神经元激活,将模型的"猜测"变成"有根据的推断"。

它不是在模拟人类推理,而是在执行一套精巧的概率优化策略。理解这一点,或许能帮我们设计出更有效的提示,更好的发挥LLM的能力。

论文 :https: //arxiv.org/ pdf/2507.20758

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论