本文将介绍构建推理模型(Reasoning LLMs)的四种主要方法,即如何为大语言模型(LLMs)增强推理能力。希望这些内容能为你在快速发展的AI之路上提供一些有价值的参考。
在 2024 年,LLM 领域出现了愈加明显的专业化趋势 。除了常规的预训练(pre-training) 与微调(fine-tuning) ,我们见证了许多专门化应用的兴起,从 RAG(检索增强生成) 到 代码助手 。我预计这一趋势在 2025 年会进一步加速,尤其会强调领域与应用的专门化 。
阶段 1–3:LLM 的通用开发步骤 。阶段 4:为特定应用场景专门化
推理模型的发展正是这种专门化的一个方向 。它的目标是让 LLM 在需要中间推理步骤 的复杂任务中表现优异,例如解谜题、处理高阶数学问题或应对编程挑战。
不过需要注意,推理模型的专门化并不会取代其他 LLM 应用。因为将 LLM 转化为推理模型也会带来一些潜在缺点 ,我将在后文讨论。
希望本文能在 2025 年 AI 持续高速发展之际,为你理解和实践推理模型提供帮助!
如果你从事 AI(或更广泛的机器学习)工作,你可能已经对各种模糊且争议不断的定义 习以为常。“推理模型”(reasoning models)这个术语也不例外。某篇论文可能会尝试给出一个定义,而下一篇论文又会重新定义它,如此往复。
本文中的定义
在本文中,我将 “推理” 定义为:
回答需要复杂、多步生成过程的问题 ,且该过程包含中间步骤 。
举例:
•不需要推理 :回答“法国的首都是哪里?”(只需直接检索事实)。•需要推理 :回答“如果一列火车以 60 英里/小时的速度行驶 3 小时,它会行驶多远?”•这需要识别 路程、速度、时间 之间的关系,才能得出最终答案。
常规 LLM vs 推理模型
•常规 LLM :往往只输出一个简短答案。•推理模型 :通常会在答案中包含中间步骤 ,展示部分推理过程。
注:即使没有专门为推理任务训练,许多现代 LLM 也能生成一定的中间推理步骤。
目前大多数 LLM 都能处理类似火车行驶路程的基础推理问题 。 因此,当今所说的“推理模型”,通常指的是那些在更复杂的推理任务 上表现优异的模型,例如:•解谜题•逻辑难题•数学证明
“思维过程”的呈现
如今大多数被标为“推理模型”的 LLM,其回答里会体现某种形式的 “思维过程” :
•有时,这些中间步骤会显式展示 给用户(例如链式推理步骤)。•另一些模型(如 OpenAI 的 o1 )则会在内部运行多次迭代,产生中间步骤,但不直接展示 给用户。
至于 LLM 是否真的在“思考”、以及这种“思考”到底意味着什么,这是另一个更大的讨论话题。
推理的两个层次
在当下语境中,“推理” 一般包含两个层面:1)模型内部过程:在处理输入与生成输出时,经历多个中间步骤。2)用户可见输出:在最终回答中显式或隐式地包含一定的推理痕迹。
在前文我们已经定义了“推理模型”。接下来,在进入如何构建和改进推理型 LLM 的技术细节之前,先思考一个关键问题:我们究竟何时需要使用推理模型?
适用场景
推理模型的设计目标是擅长处理复杂任务,例如:
•解谜题(puzzles)•高等数学问题(advanced math problems)•困难的编程任务(challenging coding tasks)
而在一些相对简单的任务中,比如:
•文本摘要(summarization)•翻译(translation)•基于知识的问答(knowledge-based QA)
我们并不需要动用推理模型。
事实上,在所有任务中都使用推理模型可能既低效又昂贵 。原因包括:
•推理模型通常调用成本更高 ;•输出结果更冗长;•有时会因为“想太多”而更容易出错(overthinking)。
因此,这里依然适用一个简单的原则:
用对工具,匹配任务。
推理模型的优势与局限
推理模型的关键优势与限制 可总结如下(见原文图表):
•优势 :擅长复杂、多步骤问题,能展现推理过程,适合需要透明性与中间步骤的场景。•局限 :运行成本高、响应更冗长,在简单任务上并不经济,且可能因过度生成导致错误。
在介绍构建与改进推理模型的四种主要方法之前,先简要回顾一下 DeepSeek R1 技术报告 中描述的训练流程。这既是一个有趣的案例研究,也是构建推理型 LLM 的参考蓝图。
需要注意的是,DeepSeek 并未只发布单一的 R1 推理模型,而是推出了三种变体:
1.DeepSeek-R1-Zero 2.DeepSeek-R1 3.DeepSeek-R1-Distill
三种模型的开发流程
根据技术报告,三种 R1 系列推理模型的开发流程可以概括如下:
1.DeepSeek-R1-Zero •基于 671B 参数的 DeepSeek-V3 基础模型 (2024 年 12 月发布)。•使用强化学习(RL) 训练,并采用两种奖励信号。•这一方法被称为 “冷启动”训练(cold start) ,因为它跳过了常见的监督微调(SFT) 步骤,而 RLHF 通常包含这一环节。2.DeepSeek-R1 •这是 DeepSeek 的旗舰推理模型 ,在 R1-Zero 基础上进一步改进。•通过额外的 SFT 阶段 和更深入的 RL 训练 ,显著提升了性能。3.DeepSeek-R1-Distill* •使用前两个步骤产生的 SFT 数据 ,对 Qwen 和 Llama 模型进行微调,增强其推理能力。•尽管不属于严格意义上的“蒸馏”,但其方法类似:•用更大规模的 DeepSeek-R1 671B 生成输出;•再用这些结果来训练较小的模型(如 Llama 8B、70B 以及 Qwen 1.5B–30B )。
本节概述当前用于增强 LLM 推理能力 并构建专用推理模型 (如 DeepSeek-R1、OpenAI 的 o1 与 o3 等)的关键技术。
注:o1 和 o3 的具体实现细节在 OpenAI 之外尚不公开,但坊间普遍认为它们综合采用了推理阶段(inference)技巧 与训练阶段 的方法。
1) 推理时计算扩展
一种提升 LLM 推理能力(乃至其它能力)的方式,是在推理阶段增加计算 以提高输出质量。
类比而言,人类面对复杂问题时,多给一点思考时间 往往能得到更好答案。对 LLM,我们也可以采用一些策略促使其“多想几步”(是否真的“思考”是另一个话题)。
•思维链提示(Chain-of-Thought, CoT)
通过提示词工程(prompt engineering),在输入中加入类似“step by step ”的指引,让模型显式输出中间推理步骤 ,而不是直接给出最终答案。
这通常有助于复杂问题的准确性提升(并非总是 )。对于诸如“法国首都是什么?”这类知识检索型 问题,启用 CoT 并无意义——这也是判断是否需要“推理模型”的一个经验法则。
由于会产生更多中间 token,CoT 本质上也让推理阶段变得更昂贵 ,因而被视作推理时扩展的一种形式。
2022 年《Large Language Models are Zero-Shot Reasoners》中 CoT 经典示例
•投票与搜索策略
例如 多数投票(majority voting) :生成多条答案,按多数选择;
或使用 束搜索(beam search) 等搜索算法生成并筛选更优解。
一些方法结合 过程奖励模型(Process Reward Model, PRM) 来评估并选出最佳答案;也有基于 蒙特卡罗树搜索(MCTS) 的流程。
建议参考论文 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(“测试时计算扩展”),了解不同策略的细节与对比。
依赖过程奖励选择最佳答案的搜索方法示意
•与 DeepSeek R1 的关系
DeepSeek R1 技术报告将诸如 PRM/MCTS 在内的常见推理时扩展方法归为“未成功的尝试 ”,暗示 R1 并未显式 采用这些技巧(除 R1 输出更长、相较 V3 隐式 增加了推理时计算这一点)。
不过,显式的推理时扩展 也常在应用层 实现,而非模型内部,DeepSeek 在应用侧仍可能使用这些技巧。
我个人推测 OpenAI 的 o1 / o3 采用了推理时扩展,这也可解释其相较 GPT-4o 使用成本更高 。此外,o1/o3 很可能也使用了与 DeepSeek R1 相似的 RL 管线 (强化学习),见下文。
2) 纯强化学习(Pure RL)
DeepSeek R1 论文的一个亮点在于:他们发现**“仅用强化学习”** 也能让推理能力涌现 。
•R1-Zero 的“冷启动”RL
DeepSeek-R1-Zero 基于 2024 年 12 月发布的 DeepSeek-V3(671B) 基座模型。与常见“先 SFT 再 RL ”的 RLHF 管线不同,R1-Zero 跳过了监督微调(SFT) ,只使用 RL 进行训练,因此称为“纯 RL /冷启动”。
R1-Zero 的开发流程示意
•奖励设计(不依赖人类偏好 Reward Model)
使用两类奖励:
- 准确性奖励(accuracy reward) :用 LeetCode 编译器 验证代码题答案,用确定性规则 评估数学题结果;
- 格式奖励(format reward) :由 LLM 评审(LLM judge) 检查回答是否遵循预期格式,例如将推理步骤放入
<think>标签。•“Aha 时刻”
令人惊讶的是,这样的设置足以让模型自发产生 基础推理能力:研究者观察到模型开始在回答中生成推理痕迹 (即使并未显式要求)。
DeepSeek R1 技术报告展示的 “Aha” 时刻
•结论与定位
R1-Zero 并非性能最佳的推理模型,但它确实 展现了中间“思考”步骤 ,证明了仅用 RL 也能得到推理模型 。DeepSeek 团队是首批展示(或至少公开发表)这种路径的团队之一。
3) 监督微调 + 强化学习(SFT + RL)
接着看 DeepSeek-R1 (旗舰推理模型):
它在 R1-Zero 的基础上,进一步加入监督微调(SFT) 与强化学习(RL) ,作为构建推理模型的“蓝图 ”。
•在标准 RLHF 管线中,SFT 在前、RL 在后 本就常见;•OpenAI 的 o1 很可能也采用了类似路径。
如上图所示,DeepSeek 团队首先利用 DeepSeek-R1-Zero 生成所谓的“冷启动”SFT 数据。
这里的“冷启动”指的是:这些数据来自 未经过任何监督微调(SFT) 的 R1-Zero 模型。
R1 模型训练流程
1.冷启动 SFT 数据生成 •使用 R1-Zero 输出作为“冷启动”SFT 数据。•这类数据相较传统 RLHF 中由人工标注或预训练数据产生的 SFT 数据更具实验性质。2.指令微调(Instruction Finetuning) •在冷启动数据上进行指令微调。3.强化学习阶段(RL) •延续 R1-Zero 中的 准确性奖励 和 格式奖励 。•新增 一致性奖励(consistency reward) :用于防止模型在回答中出现语言混杂(比如中英文切换)。4.再一轮 SFT 数据收集 •使用最新的模型 checkpoint 生成 60 万条链式思维(CoT)SFT 样本 ;•另外,用 DeepSeek-V3 基座模型生成 20 万条知识型 SFT 样本 。5.进一步微调与 RL •利用上述 80 万条 SFT 样本再训练 DeepSeek-V3 基座;•随后进行最后一轮 RL:•数学与代码问题:使用基于规则的准确性奖励;•其他问题:使用人工偏好标签。
最终,DeepSeek-R1 的性能相比 R1-Zero 有了显著提升。
OpenAI o1 与 DeepSeek-R1 的基准测试对比,见 R1 技术报告
4) 纯监督微调(SFT)与蒸馏(Distillation)
到目前为止,我们已经介绍了三条主要路径:
1.推理时计算扩展(Inference-time scaling) :无需训练即可提升推理性能。2.纯 RL(Pure RL) :如 R1-Zero,展示了无需 SFT 也能涌现推理能力。3.SFT + RL :如 R1,是 DeepSeek 的旗舰推理模型。
接下来是第四条路径:模型蒸馏(distillation) 。
DeepSeek 的蒸馏做法
与传统深度学习中的知识蒸馏不同,DeepSeek 所谓的蒸馏并非基于 教师模型 logits 的训练。
在这里,蒸馏指的是:
•将较小的 LLM(如 Llama 8B/70B 与 Qwen 2.5 系列(0.5B–32B) )•在由更大模型(DeepSeek-V3 与 R1 中间版本)生成的 SFT 数据集 上进行微调。
事实上,这些用于蒸馏的 SFT 数据就是上一节训练 R1 时所用的同一数据集。
(图示:DeepSeek-R1-Distill 模型开发流程)
为什么要开发蒸馏模型?
作者认为有两个主要原因:
1.效率 •小模型运行成本更低,能在硬件要求较低的环境中运行;•对研究人员和开发者更具吸引力。2.案例研究 •这些蒸馏模型是一个“纯 SFT”的实验性基准,展示了不依赖 RL,仅靠高质量 SFT 能让模型达到什么水平。
性能对比
技术报告中的表格显示:
•蒸馏模型明显弱于 DeepSeek-R1;•但相较 R1-Zero,它们表现出乎意料地强劲——即便参数量小了几个数量级;•与 OpenAI o1-mini 的性能对比也相当有趣(作者猜测 o1-mini 可能本身就是类似的蒸馏版本 )。
小模型上的 RL vs SFT
DeepSeek 团队还测试了:R1-Zero 中“纯 RL 的推理涌现”现象能否在更小的模型中出现。
为此,他们将同样的纯 RL 方法应用于 Qwen-32B 。
•对比模型:QwQ-32B-Preview(由 Qwen 团队开发的参考推理模型,训练细节未公开)。•实验结果表明:在小模型中,纯 RL 远不如高质量 SFT 有效 。
结论:
对小模型而言,蒸馏(高质量 SFT)往往比单纯 RL 更能有效提升推理能力。
这与常识相符:在小规模模型上,单靠 RL 不足以诱导强推理能力,而高质量的推理数据监督 往往是更可行的路径。
为了完整性,表格中还可以加入的对比
1.Qwen-32B 的 SFT + RL 训练
方式与 DeepSeek-R1 的开发路径相似。加入这一项有助于评估:当 RL 与 SFT 结合 时,相较于纯 RL 与纯 SFT ,实际能获得多大提升。2.DeepSeek-V3 的纯 SFT 训练
做法类似蒸馏模型的构建路径。加入这一项可直接对比 RL + SFT 相对于 纯 SFT 的增益幅度。
本文小节梳理了构建与改进推理模型的四种策略:
1.推理时计算扩展(Inference-time scaling)
无需额外训练,但会提高推理成本 ,随着用户量或查询量增长,大规模部署更昂贵 。尽管如此,它仍是增强强模型 性能的“低门槛”手段。作者强烈怀疑 o1 采用了推理时扩展,因此其单位 token 成本 高于 DeepSeek-R1。2.纯强化学习(Pure RL)
对研究很有价值,可帮助理解推理能力作为一种涌现行为 。但在实务开发中,RL + SFT 通常更优,能训练出更强的推理模型。作者推测 o1 也是 RL + SFT 训练而成;更具体地说,o1 可能起始于比 DeepSeek-R1 更弱、更小的基座模型 ,再通过 RL + SFT 与推理时扩展 来补足。3.SFT + RL(监督微调 + 强化学习)
是打造高性能推理模型 的关键路径。DeepSeek-R1 提供了清晰的“蓝图式”范例。4.蒸馏(Distillation)/ 纯 SFT
对于构建更小、更高效 的模型很有吸引力。但它不推动范式创新 ,也无法直接产出下一代 推理模型——蒸馏始终依赖已有的更强模型 来生成 SFT 数据。
展望:预计将 3)SFT + RL 与 1)推理时扩展结合 会成为下一步方向。o1 很可能已在这么做;同时,它大概基于较弱的基座 ,这也能解释为何 DeepSeek-R1 在保持相对低推理成本 的同时仍有很强表现。
https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
