怎么理解与构建推理型大模型 - 文章 - 开发者社区

本文将介绍构建推理模型（Reasoning LLMs）的四种主要方法，即如何为大语言模型（LLMs）增强推理能力。希望这些内容能为你在快速发展的AI之路上提供一些有价值的参考。

在 2024 年，LLM 领域出现了愈加明显的专业化趋势 。除了常规的预训练（pre-training） 与微调（fine-tuning） ，我们见证了许多专门化应用的兴起，从 RAG（检索增强生成） 到 代码助手 。我预计这一趋势在 2025 年会进一步加速，尤其会强调领域与应用的专门化 。

picture.image

阶段 1–3：LLM 的通用开发步骤。阶段 4：为特定应用场景专门化

推理模型的发展正是这种专门化的一个方向 。它的目标是让 LLM 在需要中间推理步骤 的复杂任务中表现优异，例如解谜题、处理高阶数学问题或应对编程挑战。
不过需要注意，推理模型的专门化并不会取代其他 LLM 应用。因为将 LLM 转化为推理模型也会带来一些潜在缺点 ，我将在后文讨论。

希望本文能在 2025 年 AI 持续高速发展之际，为你理解和实践推理模型提供帮助！

我们如何定义“推理模型”？

如果你从事 AI（或更广泛的机器学习）工作，你可能已经对各种模糊且争议不断的定义 习以为常。“推理模型”（reasoning models）这个术语也不例外。某篇论文可能会尝试给出一个定义，而下一篇论文又会重新定义它，如此往复。

本文中的定义

在本文中，我将 “推理” 定义为：

回答需要复杂、多步生成过程的问题 ，且该过程包含中间步骤 。

举例：

•不需要推理 ：回答“法国的首都是哪里？”（只需直接检索事实）。•需要推理 ：回答“如果一列火车以 60 英里/小时的速度行驶 3 小时，它会行驶多远？”•这需要识别 路程、速度、时间 之间的关系，才能得出最终答案。

常规 LLM vs 推理模型

picture.image

•常规 LLM ：往往只输出一个简短答案。•推理模型 ：通常会在答案中包含中间步骤 ，展示部分推理过程。

注：即使没有专门为推理任务训练，许多现代 LLM 也能生成一定的中间推理步骤。
目前大多数 LLM 都能处理类似火车行驶路程的基础推理问题 。因此，当今所说的“推理模型”，通常指的是那些在更复杂的推理任务 上表现优异的模型，例如：

•解谜题•逻辑难题•数学证明

“思维过程”的呈现

如今大多数被标为“推理模型”的 LLM，其回答里会体现某种形式的 “思维过程” ：

•有时，这些中间步骤会显式展示 给用户（例如链式推理步骤）。•另一些模型（如 OpenAI 的 o1 ）则会在内部运行多次迭代，产生中间步骤，但不直接展示 给用户。

至于 LLM 是否真的在“思考”、以及这种“思考”到底意味着什么，这是另一个更大的讨论话题。

推理的两个层次

picture.image

在当下语境中，“推理” 一般包含两个层面：1)模型内部过程：在处理输入与生成输出时，经历多个中间步骤。2)用户可见输出：在最终回答中显式或隐式地包含一定的推理痕迹。

什么时候需要使用推理模型？

在前文我们已经定义了“推理模型”。接下来，在进入如何构建和改进推理型 LLM 的技术细节之前，先思考一个关键问题：我们究竟何时需要使用推理模型？

适用场景

推理模型的设计目标是擅长处理复杂任务，例如：

•解谜题（puzzles）•高等数学问题（advanced math problems）•困难的编程任务（challenging coding tasks）

而在一些相对简单的任务中，比如：

•文本摘要（summarization）•翻译（translation）•基于知识的问答（knowledge-based QA）

我们并不需要动用推理模型。

事实上，在所有任务中都使用推理模型可能既低效又昂贵 。原因包括：

•推理模型通常调用成本更高 ；•输出结果更冗长；•有时会因为“想太多”而更容易出错（overthinking）。

因此，这里依然适用一个简单的原则：

用对工具，匹配任务。

推理模型的优势与局限

推理模型的关键优势与限制 可总结如下（见原文图表）：

picture.image

•优势：擅长复杂、多步骤问题，能展现推理过程，适合需要透明性与中间步骤的场景。•局限：运行成本高、响应更冗长，在简单任务上并不经济，且可能因过度生成导致错误。

DeepSeek R1 训练流水线简述

在介绍构建与改进推理模型的四种主要方法之前，先简要回顾一下 DeepSeek R1 技术报告 中描述的训练流程。这既是一个有趣的案例研究，也是构建推理型 LLM 的参考蓝图。

需要注意的是，DeepSeek 并未只发布单一的 R1 推理模型，而是推出了三种变体：

1.DeepSeek-R1-Zero 2.DeepSeek-R1 3.DeepSeek-R1-Distill

三种模型的开发流程

根据技术报告，三种 R1 系列推理模型的开发流程可以概括如下：

picture.image

1.DeepSeek-R1-Zero •基于 671B 参数的 DeepSeek-V3 基础模型 （2024 年 12 月发布）。•使用强化学习（RL） 训练，并采用两种奖励信号。•这一方法被称为 “冷启动”训练（cold start） ，因为它跳过了常见的监督微调（SFT） 步骤，而 RLHF 通常包含这一环节。2.DeepSeek-R1 •这是 DeepSeek 的旗舰推理模型 ，在 R1-Zero 基础上进一步改进。•通过额外的 SFT 阶段 和更深入的 RL 训练 ，显著提升了性能。3.DeepSeek-R1-Distill* •使用前两个步骤产生的 SFT 数据 ，对 Qwen 和 Llama 模型进行微调，增强其推理能力。•尽管不属于严格意义上的“蒸馏”，但其方法类似：•用更大规模的 DeepSeek-R1 671B 生成输出；•再用这些结果来训练较小的模型（如 Llama 8B、70B 以及 Qwen 1.5B–30B ）。

构建与改进推理模型的四种主要路径

本节概述当前用于增强 LLM 推理能力 并构建专用推理模型 （如 DeepSeek-R1、OpenAI 的 o1 与 o3 等）的关键技术。

注：o1 和 o3 的具体实现细节在 OpenAI 之外尚不公开，但坊间普遍认为它们综合采用了推理阶段（inference）技巧 与训练阶段 的方法。

1) 推理时计算扩展

一种提升 LLM 推理能力（乃至其它能力）的方式，是在推理阶段增加计算 以提高输出质量。
类比而言，人类面对复杂问题时，多给一点思考时间 往往能得到更好答案。对 LLM，我们也可以采用一些策略促使其“多想几步”（是否真的“思考”是另一个话题）。

•思维链提示（Chain-of-Thought, CoT）
通过提示词工程（prompt engineering），在输入中加入类似“step by step ”的指引，让模型显式输出中间推理步骤 ，而不是直接给出最终答案。
这通常有助于复杂问题的准确性提升（并非总是 ）。对于诸如“法国首都是什么？”这类知识检索型 问题，启用 CoT 并无意义——这也是判断是否需要“推理模型”的一个经验法则。

由于会产生更多中间 token，CoT 本质上也让推理阶段变得更昂贵 ，因而被视作推理时扩展的一种形式。

picture.image

2022 年《Large Language Models are Zero-Shot Reasoners》中 CoT 经典示例

•投票与搜索策略
例如 多数投票（majority voting） ：生成多条答案，按多数选择；
或使用 束搜索（beam search） 等搜索算法生成并筛选更优解。
一些方法结合 过程奖励模型（Process Reward Model, PRM） 来评估并选出最佳答案；也有基于 蒙特卡罗树搜索（MCTS） 的流程。

建议参考论文 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters（“测试时计算扩展”），了解不同策略的细节与对比。

picture.image

依赖过程奖励选择最佳答案的搜索方法示意

•与 DeepSeek R1 的关系
DeepSeek R1 技术报告将诸如 PRM/MCTS 在内的常见推理时扩展方法归为“未成功的尝试 ”，暗示 R1 并未显式 采用这些技巧（除 R1 输出更长、相较 V3 隐式增加了推理时计算这一点）。
不过，显式的推理时扩展 也常在应用层 实现，而非模型内部，DeepSeek 在应用侧仍可能使用这些技巧。
我个人推测 OpenAI 的 o1 / o3 采用了推理时扩展，这也可解释其相较 GPT-4o 使用成本更高 。此外，o1/o3 很可能也使用了与 DeepSeek R1 相似的 RL 管线 （强化学习），见下文。

2) 纯强化学习（Pure RL）

DeepSeek R1 论文的一个亮点在于：他们发现**“仅用强化学习”** 也能让推理能力涌现。

•R1-Zero 的“冷启动”RL
DeepSeek-R1-Zero 基于 2024 年 12 月发布的 DeepSeek-V3（671B） 基座模型。与常见“先 SFT 再 RL ”的 RLHF 管线不同，R1-Zero 跳过了监督微调（SFT） ，只使用 RL 进行训练，因此称为“纯 RL /冷启动”。

picture.image

R1-Zero 的开发流程示意

•奖励设计（不依赖人类偏好 Reward Model）
使用两类奖励：

准确性奖励（accuracy reward） ：用 LeetCode 编译器 验证代码题答案，用确定性规则 评估数学题结果；
格式奖励（format reward） ：由 LLM 评审（LLM judge） 检查回答是否遵循预期格式，例如将推理步骤放入 <think> 标签。•“Aha 时刻”
令人惊讶的是，这样的设置足以让模型自发产生 基础推理能力：研究者观察到模型开始在回答中生成推理痕迹 （即使并未显式要求）。

picture.image

DeepSeek R1 技术报告展示的 “Aha” 时刻

•结论与定位
R1-Zero 并非性能最佳的推理模型，但它确实展现了中间“思考”步骤 ，证明了仅用 RL 也能得到推理模型 。DeepSeek 团队是首批展示（或至少公开发表）这种路径的团队之一。

3) 监督微调 + 强化学习（SFT + RL）

接着看 DeepSeek-R1 （旗舰推理模型）：
它在 R1-Zero 的基础上，进一步加入监督微调（SFT） 与强化学习（RL） ，作为构建推理模型的“蓝图 ”。

•在标准 RLHF 管线中，SFT 在前、RL 在后 本就常见；•OpenAI 的 o1 很可能也采用了类似路径。

picture.image

如上图所示，DeepSeek 团队首先利用 DeepSeek-R1-Zero 生成所谓的“冷启动”SFT 数据。
这里的“冷启动”指的是：这些数据来自 未经过任何监督微调（SFT） 的 R1-Zero 模型。

R1 模型训练流程

1.冷启动 SFT 数据生成 •使用 R1-Zero 输出作为“冷启动”SFT 数据。•这类数据相较传统 RLHF 中由人工标注或预训练数据产生的 SFT 数据更具实验性质。2.指令微调（Instruction Finetuning） •在冷启动数据上进行指令微调。3.强化学习阶段（RL） •延续 R1-Zero 中的 准确性奖励 和 格式奖励 。•新增 一致性奖励（consistency reward） ：用于防止模型在回答中出现语言混杂（比如中英文切换）。4.再一轮 SFT 数据收集 •使用最新的模型 checkpoint 生成 60 万条链式思维（CoT）SFT 样本 ；•另外，用 DeepSeek-V3 基座模型生成 20 万条知识型 SFT 样本 。5.进一步微调与 RL •利用上述 80 万条 SFT 样本再训练 DeepSeek-V3 基座；•随后进行最后一轮 RL：•数学与代码问题：使用基于规则的准确性奖励；•其他问题：使用人工偏好标签。

最终，DeepSeek-R1 的性能相比 R1-Zero 有了显著提升。

picture.image

OpenAI o1 与 DeepSeek-R1 的基准测试对比，见 R1 技术报告

4) 纯监督微调（SFT）与蒸馏（Distillation）

到目前为止，我们已经介绍了三条主要路径：

1.推理时计算扩展（Inference-time scaling）：无需训练即可提升推理性能。2.纯 RL（Pure RL）：如 R1-Zero，展示了无需 SFT 也能涌现推理能力。3.SFT + RL ：如 R1，是 DeepSeek 的旗舰推理模型。

接下来是第四条路径：模型蒸馏（distillation） 。

DeepSeek 的蒸馏做法

与传统深度学习中的知识蒸馏不同，DeepSeek 所谓的蒸馏并非基于 教师模型 logits 的训练。
在这里，蒸馏指的是：

•将较小的 LLM（如 Llama 8B/70B 与 Qwen 2.5 系列（0.5B–32B） ）•在由更大模型（DeepSeek-V3 与 R1 中间版本）生成的 SFT 数据集 上进行微调。

事实上，这些用于蒸馏的 SFT 数据就是上一节训练 R1 时所用的同一数据集。

picture.image

（图示：DeepSeek-R1-Distill 模型开发流程）

为什么要开发蒸馏模型？

作者认为有两个主要原因：

1.效率 •小模型运行成本更低，能在硬件要求较低的环境中运行；•对研究人员和开发者更具吸引力。2.案例研究 •这些蒸馏模型是一个“纯 SFT”的实验性基准，展示了不依赖 RL，仅靠高质量 SFT 能让模型达到什么水平。

性能对比

技术报告中的表格显示：

•蒸馏模型明显弱于 DeepSeek-R1；•但相较 R1-Zero，它们表现出乎意料地强劲——即便参数量小了几个数量级；•与 OpenAI o1-mini 的性能对比也相当有趣（作者猜测 o1-mini 可能本身就是类似的蒸馏版本 ）。

小模型上的 RL vs SFT

DeepSeek 团队还测试了：R1-Zero 中“纯 RL 的推理涌现”现象能否在更小的模型中出现。
为此，他们将同样的纯 RL 方法应用于 Qwen-32B 。

picture.image

•对比模型：QwQ-32B-Preview（由 Qwen 团队开发的参考推理模型，训练细节未公开）。•实验结果表明：在小模型中，纯 RL 远不如高质量 SFT 有效 。

结论：

对小模型而言，蒸馏（高质量 SFT）往往比单纯 RL 更能有效提升推理能力。

这与常识相符：在小规模模型上，单靠 RL 不足以诱导强推理能力，而高质量的推理数据监督 往往是更可行的路径。

为了完整性，表格中还可以加入的对比

1.Qwen-32B 的 SFT + RL 训练
方式与 DeepSeek-R1 的开发路径相似。加入这一项有助于评估：当 RL 与 SFT 结合 时，相较于纯 RL 与纯 SFT ，实际能获得多大提升。2.DeepSeek-V3 的纯 SFT 训练
做法类似蒸馏模型的构建路径。加入这一项可直接对比 RL + SFT 相对于 纯 SFT 的增益幅度。

结论

本文小节梳理了构建与改进推理模型的四种策略：

1.推理时计算扩展（Inference-time scaling）
无需额外训练，但会提高推理成本 ，随着用户量或查询量增长，大规模部署更昂贵 。尽管如此，它仍是增强强模型 性能的“低门槛”手段。作者强烈怀疑 o1 采用了推理时扩展，因此其单位 token 成本 高于 DeepSeek-R1。2.纯强化学习（Pure RL）
对研究很有价值，可帮助理解推理能力作为一种涌现行为 。但在实务开发中，RL + SFT 通常更优，能训练出更强的推理模型。作者推测 o1 也是 RL + SFT 训练而成；更具体地说，o1 可能起始于比 DeepSeek-R1 更弱、更小的基座模型 ，再通过 RL + SFT 与推理时扩展 来补足。3.SFT + RL（监督微调 + 强化学习）
是打造高性能推理模型 的关键路径。DeepSeek-R1 提供了清晰的“蓝图式”范例。4.蒸馏（Distillation）/ 纯 SFT
对于构建更小、更高效 的模型很有吸引力。但它不推动范式创新 ，也无法直接产出下一代 推理模型——蒸馏始终依赖已有的更强模型 来生成 SFT 数据。

展望：预计将 3）SFT + RL 与 1）推理时扩展结合 会成为下一步方向。o1 很可能已在这么做；同时，它大概基于较弱的基座 ，这也能解释为何 DeepSeek-R1 在保持相对低推理成本 的同时仍有很强表现。

  
https://magazine.sebastianraschka.com/p/understanding-reasoning-llms