- 引言 =====
今天我们来探讨一个在强化学习领域常被提及的话题:模型的推理和思考过程真的存在吗?
相信经常使用Qwen3、ChatGPT、Deepseek-R1等大模型的小伙伴,在与它们对话时,常常会看到诸如「Hmm…」、「Wait, let me think」、「Therefore…」这样的语气词,仿佛模型真的在“思考”。那么,不妨让我们来灵魂拷问一下大模型:你的思考,真的存在吗?
我们尝试提问ChatGPT-o1-mini,我们得到了上图这个比较“俏皮”的回答。但是我们也可以知晓,其“思考”过程,其实是基于LLM过往知识的快速组合和推理,在很大程度上是瞬时完成的。为了更好地模拟人类的对话风格,LLM会生成带有思考语气的表达,从而增强与用户之间的互动感。
那么,深度学习模型背后的**“思考”** 过程究竟是怎样的?推理模型在给出答案时,真的只是瞬间完成的吗?今天,我们将结合中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学联合研究团队的最新成果,来深入解析大模型推理与“思考”的全过程。
- 论文标题:
Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
- 揭秘大模型推理出现的 「信息高峰」现象 ======================
首先,为了揭开LLM推理过程中的“黑匣子”,研究人员追踪了如DeepSeek-R1、Qwen-QAQ等大型推理模型(LRM)的“脑电波”——也就是模型内部的信息流动,以分析其推理时的具体表现。
从信息论的角度出发,研究团队采用互信息(MI)指标来量化模型在推理每一步时的信息关联。令人有趣的是,每当模型得出最佳推理结果时,MI指标都会出现一次“MI-Peak”(互信息高峰),如下图所示。
更值得注意的是,这些MI-Peak的分布是稀疏的,并非均匀出现,而是集中在推理过程中的逻辑转折点。这意味着,信息高峰往往出现在模型给出关键答案的节点上 。就像人类在思考过程中,只有在反复推敲后,才会在某个不确定的时刻迎来“灵光乍现”的瞬间。
研究者们也进一步通过理论分析证明了出现信息高峰与推理最佳“黄金”答案出现的关系并给出了上下界的定理,如下图所示。
推理过程中积累的MI越高,模型最终回答错误概率的上界和下界就越小。
其中:
- Theorem 1(下界):累积MI越高,预测错误率就会越低。
- Theorem 2(上界):同样的,更多的信息意味着更小的不确定性。
那么,基础版的LLM是否也会出现MI-Peak现象呢?研究人员选取了原始的非推理模型(如LLaMA-3.1-8B)进行对比。正如下图所示,LLaMA-3.1-8B基础模型的MI波动更加平缓,缺乏明显的“思考高峰”,整体互信息数值也更低。因此,这一结果进一步证明,MI-Peak现象与推理模型经过Reasoning-Specialized training(推理专用训练)密切相关。
- 揭示“思考词”与信息高峰出现的必然关系 ======================
根据上述推理,研究人员尝试对MI 峰值所对应进行高频token分析。通过对MI 高点对应的 hidden state 解码成 token,我们发现在MI-PEAK出现的top token包括“So”, “Let”, “Hmm”, “Wait”, “Therefore”等,这些词多为自省式、转折性、结构性表达 ,常作为思考、重审、逻辑过渡,如下图所示。
同时,为了验证MI-PEAK的出现与模型推理词是否有必然的联系,研究人员也尝试对LRM屏蔽“Therefore”、“Emmm”、“Wait”这类思考词的token的实验组与屏蔽任意其他非指定token的实验进行比对测试。结果发现,在相同数学推理数据集(如GSM8K、MATH、AIME)下,相比屏蔽普通词token,屏蔽了这些“Thinking token” 思考词会使得模型推理能力显著降低,该现象也证明了对LRM的推理能力至关重要,如下图所示。
因此,这些token是模型推理中不可或缺的“触发点”。
- MI-PEAK 对增强推理的启发 ===================
在了解了“MI-Peak”现象及其成因之后,我们是否能够从中获得启发,进一步提升模型的推理能力呢?基于对这一现象的研究,研究人员提出了两种无需额外训练即可提升推理性能的方法。
3.1 表示循环再用 Representation Recycling(RR)
实践 :
在模型遇到MI PEAK 的时候, 将该表征重新再送入Transformer层再处理一次。
解释 :
当模型推理阶段位于MI PEAK时,并检测到了思考词汇时,我们不急于让模型直接输出结果,让对应的Embedding重新投入模型额外推理计算新的结果,基于现有知识与思考路径反复“推敲”得出答案。
结果 :
在GSM8K、MATH500、AIME24的数据集上,可以发现通过RR方法模型的推理准确度得到了10-20% 相对性能提升,这证明了RR方法的有效性。
3.2 思考词元触发的推理延续 Thinking Token based Test-time Scaling ( TTTS)
实践 :
当模型的即将输出完结果,生成即将结束时,我们尝试插入“Therefore”,“Hmm”等的思考型token,引导模型继续思考。
解释 :
根据之前的研究思路,模型推理出现MI PEAK的时候往往会输出思考词汇用于表示其推理过程,那么我们尝试通过在文本的开头或者即将结束生成的输出中间插入思考型token,是否可以引导模型进入更深入的推理阶段。
结果 :
当token预算持续增加时,TTTS能持续稳定地提高模型的推理性能。对比同 token 数下的原始输出,TTTS 能有效延长并增强推理质量,尤其在复杂题上提升明显。
- 小结 =====
本文通过对互信息指标的动态追踪,首次清晰地记录了模型在推理过程中出现的互信息高峰(MI Peaks)现象,并探讨了模型在某些关键节点实现“认知觉醒”背后的原因。同时,研究团队还深入分析了MI Peak出现时对应的token,发现这些token往往与表达思考、反思等含义的词汇(即“Thinking token”)相关,并通过多组对比实验,论证了思考词在模型推理中的重要作用。
在此基础上,研究者提出了两种无需对LRM进行额外训练、同样能够提升模型推理性能的方法:一是表示循环再用(RR),二是基于思考词元触发的推理延续(TTTS)。这项研究表明,大模型的推理过程并非完全黑盒。通过分析这些“思考信号”,我们不仅能够理解模型的推理机制,还能在不修改模型结构的前提下,让其推理能力进一步提升。
展望未来,研究者希望进一步探究MI峰值的产生机制,持续探索不同模型是否存在各自独特的“思考风格”,并开发更多基于“思考结构”的模型优化方法。