DeepSeek-R1：通过强化学习激励大语言模型的推理能力 - 文章 - 开发者社区

点击下方卡片，关注“ 慢慢学AIGC ”

picture.image

内容来源： DeepSeek R1 论文

摘要

我们介绍了我们第一代推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型，在没有监督微调(SFT)作为初步步骤的情况下，展现出了显著的推理能力。通过强化学习，DeepSeek-R1-Zero 自然地形成了许多强大而有趣的推理行为。然而，它也面临一些挑战，比如可读性差和语言混杂等问题。

为了解决这些问题并进一步提升推理性能，我们推出了 DeepSeek-R1，它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上达到了与 OpenAI-o1-1217 相当的性能。

为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1，以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏得到的六个稠密模型（1.5B、7B、8B、14B、32B、70B）。

picture.image

1. 引言

近年来，大语言模型(LLMs)一直在快速迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, 2024a)，逐步缩小了与人工通用智能(AGI)的差距。

最近， 后训练已成为完整训练流程中的一个重要组成部分 。相比预训练，它在使用相对较少的计算资源的同时，已被证明可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好。在推理能力方面， OpenAI 的 o1 系列模型 (OpenAI, 2024b)首次通过 增加思维链推理过程的长度来引入推理时间扩展 。这种方法在数学、编程和科学推理等各种推理任务中取得了显著的改进。然而，如何有效地进行测试时扩展仍然是研究界的一个开放性问题。之前的一些研究探索了各种方法，包括 基于过程的奖励模型 (Lightman 等, 2023; Uesato 等, 2022; Wang 等, 2023)、 强化学习 (Kumar 等, 2024)，以及 蒙特卡洛树搜索 和 束搜索（Beam Search）等搜索算法 (Feng 等, 2024; Trinh 等, 2024; Xin 等, 2024)。然而，这些方法都没有达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

在本文中，我们迈出了使用 纯强化学习(RL)提高语言模型推理能力 的第一步。 我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力 ， 专注于它们通过纯 RL 过程的自我进化 。具体来说，我们 使用 DeepSeek-V3-Base 作为基础模型，采用 GRPO (Shao等, 2024) 作为 RL 框架来提高模型在推理方面的性能 。在训练过程中，DeepSeek-R1-Zero 自然形成了许多强大而有趣的推理行为。经过数千次 RL 步骤后，DeepSeek-R1-Zero 在推理基准测试上表现出色。例如，在 AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%，通过多数投票，分数进一步提高到 86.7%，与 OpenAI-o1-0912 的性能相当。

然而， DeepSeek-R1-Zero 面临可读性差和语言混杂等挑战 。为了解决这些问题并进一步提高推理性能，我们推出了 DeepSeek-R1，它引入了少量冷启动数据和多阶段训练流程 。具体来说，我们首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型。随后，我们像 DeepSeek-R1-Zero 一样执行面向推理的 RL。在 RL 过程接近收敛时，我们通过对 RL 检查点进行拒绝采样，结合 DeepSeek-V3 在写作、事实 QA 和自我认知等领域的监督数据，创建新的 SFT 数据，然后重新训练 DeepSeek-V3-Base 模型。在使用新数据微调后，检查点经历了额外的 RL 过程，考虑了所有场景的提示。经过这些步骤，我们获得了一个称为 DeepSeek-R1 的检查点，它达到了与 OpenAI-o1-1217 相当的性能。

我们进一步探索了从 DeepSeek-R1 到更小的稠密模型的蒸馏。使用 Qwen2.5-32B (Qwen, 2024b)作为基础模型， 直接从 DeepSeek-R1 蒸馏的效果优于对其应用 RL 。这表明 较大基础模型发现的推理模式对于提高推理能力至关重要 。我们开源了蒸馏的 Qwen 和 Llama (Dubey 等, 2024)系列。值得注意的是，我们 蒸馏的 14B 模型大幅超越了最先进的开源 QwQ-32B-Preview (Qwen, 2024a)，而蒸馏的 32B 和 70B 模型在稠密模型中的推理基准测试上创下了新记录。

1.1 贡献

后训练：对基础模型进行大规模强化学习

• 我们直接对基础模型应用强化学习(RL)，无需依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)来解决复杂问题，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长链式思维等能力，这是研究界的一个重要里程碑。值得注意的是，这是首个验证 LLMs 的推理能力可以纯粹通过 RL 激励而无需 SFT 的开放研究。这一突破为该领域的未来进展铺平了道路。

• 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的基础。我们相信这个流程将通过创建更好的模型来惠及产业界。

蒸馏：小型模型也可以很强大

• 我们证明了大型模型的推理模式可以被蒸馏到小型模型中，与在小型模型上通过 RL 发现的推理模式相比，这种方法可以获得更好的性能。开源的 DeepSeek-R1 及其 API 将有助于研究界在未来蒸馏出更好的小型模型。

• 使用 DeepSeek-R1 生成的推理数据，我们微调了研究界广泛使用的几个稠密模型。评估结果表明，蒸馏后的小型稠密模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%，超越了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%，在 MATH-500 上得分 94.3%，在 LiveCodeBench 上得分 57.2%。这些结果显著超越了之前的开源模型，可与 o1-mini 相媲美。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 蒸馏检查点。

1.2 评估结果总结

• 推理任务：(1) DeepSeek-R1 在 AIME 2024 上达到 79.8% 的 Pass@1 分数，略微超过 OpenAI-o1-1217。在 MATH-500 上，它取得了 97.3%的惊人成绩，与 OpenAI-o1-1217 旗鼓相当，并显著超越其他模型。(2)在编码相关任务中，DeepSeek-R1 在代码竞赛任务中展现出专家水平，在 Codeforces 上获得 2,029 的 Elo 评分，超过 96.3% 的人类参赛者。对于工程相关任务，DeepSeek-R1 的表现略好于 DeepSeek-V3，这可以帮助开发者完成现实世界的任务。

• 知识：在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中，DeepSeek-R1 取得了出色的成绩，显著超越 DeepSeek-V3，在 MMLU上得分 90.8%，MMLU-Pro 上得分 84.0%，GPQA Diamond 上得分 71.5%。虽然在这些基准测试上的表现略低于 OpenAI-o1-1217，但 DeepSeek-R1 超越了其他闭源模型，展示了其在教育任务中的竞争优势。在事实基准 SimpleQA上，DeepSeek-R1 优于 DeepSeek-V3，展示了其处理基于事实查询的能力。在这个基准测试上，OpenAI-o1 也超越了 4o，呈现类似的趋势。

• 其他：DeepSeek-R1 在创意写作、通用问答、编辑、摘要等广泛任务中也表现出色。它在 AlpacaEval 2.0 上实现了 87.6% 的长度控制胜率，在 ArenaHard 上实现了 92.3% 的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务中表现出色，在长上下文基准测试中显著优于 DeepSeek-V3。

2. 方法

2.1 概述

以前的工作严重依赖大量监督数据来提升模型性能。在本研究中，我们证明 即使不使用监督微调(SFT)作为冷启动，通过大规模强化学习(RL)也可以显著提高推理能力 。此外， 加入少量冷启动数据可以进一步提升性能 。在接下来的章节中，我们将介绍：

DeepSeek-R1-Zero，它直接对基础模型应用 RL 而不使用任何 SFT 数据；
DeepSeek-R1，它从一个用数千个长链式思维(CoT)示例微调的检查点开始应用 RL；
将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中。

2.2 DeepSeek-R1-Zero：对基础模型进行强化学习

正如我们之前的工作(Shao 等, 2024; Wang 等, 2023)所证明的那样，强化学习在推理任务中表现出显著的效果。然而，这些工作严重依赖需要花费大量时间收集的监督数据。在本节中，我们 探索 LLMs 在不使用任何监督数据的情况下发展推理能力的潜力 ，专注于它们 通过纯强化学习过程的自我进化 。我们首先简要概述我们的强化学习算法，然后展示一些令人兴奋的结果，希望这能为社区提供有价值的见解。

2.2.1 强化学习算法

picture.image

2.2.2. 奖励建模

奖励是训练信号的核心来源，决定了强化学习的优化方向。为训练 DeepSeek-R1-Zero，我们采用了一种基于规则的奖励系统，主要包括两类奖励：

准确性奖励（Accuracy rewards） ：准确性奖励模型用于评估回答是否正确。例如，在结果具有确定性的数学问题中，模型需按指定格式（如框内标注）提供最终答案，从而支持基于规则的可靠性验证。类似地，对于 LeetCode 编程问题，可通过编译器基于预定义测试用例生成反馈。
格式奖励（Format rewards） ：除准确性奖励模型外，我们引入了格式奖励模型，强制要求模型将其思考过程置于 <think> 和 </think> 标签之间。

在开发 DeepSeek-R1-Zero 时，我们未使用基于结果或过程的神经奖励模型（neural reward model），原因如下：我们发现神经奖励模型在大规模强化学习过程中可能受到**奖励攻击（reward hacking）**的影响，且重新训练奖励模型需要额外资源并会显著增加训练流程的复杂度。

2.2.3. 训练模板

为训练 DeepSeek-R1-Zero，我们首先设计了一个简洁的模板，引导基础模型遵循指定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 首先生成推理过程，再输出最终答案。我们有意将约束限定为 结构格式 ，避免引入 内容特定偏向 （如强制要求反思性推理或推广特定问题解决策略），以确保在强化学习（RL）过程中能够准确观察模型的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自我进化过程与顿悟时刻

DeepSeek-R1-Zero 的性能表现

图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试上的性能轨迹，涵盖了整个强化学习（RL）训练过程。如图所示，随着 RL 训练的推进，DeepSeek-R1-Zero 的性能呈现出稳定且持续的提升。值得注意的是，其在 AIME 2024 上的平均 pass@1 分数从初始的 15.6% 显著跃升至 71.0%，达到与 OpenAI-o1-0912 相当的水平。这一显著改进凸显了我们的 RL 算法在长期优化模型性能方面的有效性。

picture.image

表 2 提供了 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在多项推理相关基准测试中的对比分析。结果显示，RL 使 DeepSeek-R1-Zero 无需任何监督微调数据即可获得强大的推理能力。这一成就尤为突出，因为它证明了模型仅通过 RL 即可高效学习与泛化。此外，通过应用 多数投票（majority voting） ，DeepSeek-R1-Zero 的性能可进一步提升。例如，在 AIME 基准测试中使用多数投票后，其性能从 71.0% 提升至 86.7%，从而超越 OpenAI-o1-0912 的表现。无论是否使用多数投票，DeepSeek-R1-Zero 均展现出极具竞争力的性能，这彰显了其扎实的基础能力以及在推理任务中持续优化的潜力。

picture.image

DeepSeek-R1-Zero 的自我进化过程

DeepSeek-R1-Zero 的自我进化过程生动展示了 RL 如何驱动模型自主提升推理能力。通过直接从基础模型启动 RL 训练，我们能够在不受监督微调阶段干扰的情况下，密切观察模型的演进过程。这一方法清晰地揭示了模型如何随时间发展其处理复杂推理任务的能力。

如图 3 所示，DeepSeek-R1-Zero 的**思考时间（thinking time）**在训练过程中持续缩短。这种改进并非源于外部调整，而是模型内部的固有进化。通过扩展测试时计算（从生成数百到数千个推理标记），DeepSeek-R1-Zero 自然地获得了解决日益复杂推理任务的能力，从而更深入地探索并优化其思维过程。

picture.image

自我进化最引人注目的特点之一，是随着测试时计算的增加，模型中涌现出复杂行为。例如，反思（reflection）——模型重新审视并评估其先前的推理步骤，以及探索替代性问题解决策略等行为，均自发产生。这些行为未被显式编程，而是模型与 RL 环境交互的自然结果。这种自发的进化显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高效率和准确率应对更具挑战性的任务。

DeepSeek-R1-Zero 的顿悟时刻

在训练过程中，我们观察到一个特别有趣的现象——顿悟时刻（aha moment）。如表 3 所示，这一现象出现在模型的中间版本中。在此阶段，DeepSeek-R1-Zero 学会通过重新评估初始策略，为问题分配更多思考时间。这种行为不仅证明了模型推理能力的成长，更生动体现了 RL 如何催生意想不到的复杂结果。

picture.image

这一时刻不仅是模型的“顿悟”，也是研究者的“顿悟”。它凸显了强化学习的魅力与力量：我们无需显式指导模型如何解决问题，只需提供恰当的激励，模型便能自主发展出高级问题解决策略。顿悟时刻深刻提醒我们，RL 具备解锁人工智能系统新层级的潜力，为未来更自主、更自适应的模型铺平道路。

2.2.5. DeepSeek-R1-Zero 的缺陷

尽管 DeepSeek-R1-Zero 展现出强大的推理能力并自主发展出意外且高效的行为，但它仍面临一些问题。例如，该模型在可读性差和语言混杂等挑战上表现不佳。为了让推理过程更易读并向开源社区共享，我们进一步探索了 DeepSeek-R1——一种结合强化学习与人类友好型冷启动数据的方法。

2.3. DeepSeek-R1：冷启动强化学习

DeepSeek-R1-Zero 的成功启发我们思考两个问题：

能否通过引入少量高质量冷启动数据进一步提升推理性能或加速收敛？
如何训练一个用户友好型模型，既能生成清晰连贯的思维链（CoT），又具备强大的通用能力？

为解决这些问题，我们设计了 DeepSeek-R1 的训练流程，包含以下四个阶段：

2.3.1. 冷启动

与 DeepSeek-R1-Zero 不同，为避免从基础模型直接启动 RL 训练时的早期不稳定问题，我们为 DeepSeek-R1 构建并收集了少量长格式思维链数据，用于微调模型作为初始 RL 策略（actor）。数据收集方法包括：

少样本提示法：以长格式 CoT 为例进行提示；
直接引导法：要求模型生成包含反思与验证的详细答案；
格式优化法：提取 DeepSeek-R1-Zero 的输出并转换为可读格式；
人工后处理法：通过标注员对结果进行筛选与优化。

本研究共收集数千条冷启动数据用于微调 DeepSeek-V3-Base，作为 RL 的起点。相比 DeepSeek-R1-Zero，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的响应常混杂多语言或缺乏 Markdown 格式，而冷启动数据设计了易读模式，如输出格式为 |special\_token|<reasoning\_process>|special\_token|<summary>，其中 summary 用于总结推理结果，并过滤非友好内容。
潜力提升：通过融入人类先验设计的冷启动数据，模型性能优于 DeepSeek-R1-Zero，表明迭代训练对推理模型更有效。

2.3.2. 面向推理的强化学习

在冷启动数据上微调 DeepSeek-V3-Base 后，我们采用与 DeepSeek-R1-Zero 相同的大规模 RL 训练流程，专注于提升模型在编程、数学、科学及逻辑推理等任务中的表现。为解决 CoT 中的语言混杂问题，我们引入了语言一致性奖励（目标语言词汇在 CoT 中的占比）。消融实验表明，虽然对齐会导致性能轻微下降，但该奖励符合人类偏好，显著提升可读性。最终，通过直接加总推理任务准确率与语言一致性奖励形成综合奖励函数，并在微调后的模型上执行 RL 训练直至收敛。

2.3.3. 拒绝采样与监督微调

当面向推理的 RL 收敛后，我们利用其检查点收集监督微调（SFT）数据，用于下一轮训练。与初始冷启动数据（聚焦推理）不同，此阶段纳入其他领域数据以增强模型的写作、角色扮演等通用能力。具体流程如下：

推理数据：从 RL 检查点通过**拒绝采样（Rejection Sampling）**生成推理轨迹。此前阶段仅包含可通过规则奖励评估的数据，而本阶段扩展数据集，部分数据使用生成式奖励模型（将真实答案与模型预测输入 DeepSeek-V3 进行判断）。同时，过滤语言混杂、冗长段落及代码块的 CoT，并为每个提示保留多个响应中的正确答案，共收集约 60 万条推理相关样本。
非推理数据：对于非推理数据（如写作、事实问答、自我认知、翻译等），我们沿用 DeepSeek-V3 的数据流程，并复用其部分监督微调（SFT）数据集。针对部分非推理任务，我们通过提示引导 DeepSeek-V3 在回答问题前生成潜在思维链（CoT）。但对于简单查询（如“你好”），则不提供 CoT。最终，我们收集了约 20 万条与推理无关的训练样本。

使用上述约 80 万条样本的整合数据集，我们对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 全场景强化学习

为进一步对齐人类偏好，我们实施第二阶段的强化学习（RL），旨在提升模型的帮助性（helpfulness）与无害性（harmlessness），同时优化其推理能力。具体方法如下：

推理数据：沿用 DeepSeek-R1-Zero 的规则奖励方法，指导模型在数学、代码和逻辑推理领域的学习。
通用数据：通过奖励模型捕捉复杂场景中的人类偏好。基于 DeepSeek-V3 的流程，采用类似的偏好对分布与训练提示。
帮助性：聚焦最终总结，评估响应的实用性与相关性，避免干扰底层推理过程。
无害性：评估完整响应（含推理过程与总结），识别并消除生成中的潜在风险、偏见或有害内容。

通过整合奖励信号与多样化数据分布，我们训练出在推理任务中表现卓越且符合人类价值观的模型。

2.4. 蒸馏：为小模型赋予推理能力

为使高效小模型（如 Qwen、Llama）具备类似 DeepSeek-R1 的推理能力，我们直接使用 §2.3.3 中收集的 80 万条样本对开源模型进行监督微调。实验表明，这种简单蒸馏方法显著提升了小模型的推理能力。具体使用的基础模型包括：

Qwen 系列：Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B
Llama 系列：Llama-3.1-8B、Llama-3.3-70B-Instruct（选择 Llama-3.3 因其推理能力略优于 Llama-3.1）

蒸馏模型仅应用 SFT，未引入 RL 阶段（尽管 RL 可显著提升性能）。此举旨在验证蒸馏技术的有效性，RL 的探索留给更广泛的研究社区。

3. 实验

基准测试

我们在以下数据集上评估模型性能：
MMLU（Hendrycks 等，2020）、
MMLU-Redux（Gema 等，2024）、
MMLU-Pro（Wang 等，2024）、
C-Eval（Huang 等，2023）、
CMMLU（Li 等，2023）、
IFEval（Zhou 等，2023）、
FRAMES（Krishna 等，2024）、
GPQA Diamond（Rein 等，2023）、
SimpleQA（OpenAI，2024c）、
C-SimpleQA（He 等，2024）、
SWE-Bench Verified（OpenAI，2024d）、
Aider 1、
LiveCodeBench（Jain 等，2024）（2024年8月至2025年1月）、Codeforces 2、
中国全国高中数学奥林匹克竞赛（CNMO 2024）、
美国邀请数学考试 2024（AIME 2024）（MAA，2024）。

除了标准基准测试外，我们还在开放式生成任务中使用大语言模型（LLMs）作为评审进行评估。具体来说，我们遵循 AlpacaEval 2.0（Dubois 等，2024）和 Arena-Hard（Li 等，2024）的原始配置，它们利用 GPT-4-Turbo-1106 作为评审模型进行两两比较。在评估过程中，我们仅输入最终摘要以避免因长度偏差导致的影响。

对于蒸馏模型，我们报告了在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。

评估提示（Evaluation Prompts）

照 DeepSeek-V3 的设置，对于诸如 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准，我们使用 simple-evals 框架中的提示进行评估。对于 MMLU-Redux，我们在零样本（zero-shot）设置下采用了 Zero-Eval 提示格式（Lin，2024）。

对于 MMLU-Pro、C-Eval 和 CLUE-WSC，由于原始提示为少样本（few-shot），我们稍微修改了提示以适应零样本设置。在少样本情况下的推理链（CoT）可能会削弱 DeepSeek-R1 的性能。

其他数据集则遵循其创建者提供的默认评估协议。

对于代码和数学基准测试，HumanEval-Mul 数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）。

LiveCodeBench 的模型性能使用推理链（CoT）格式进行评估，数据收集时间为 2024 年 8 月至 2025 年 1 月。

Codeforces 数据集使用来自 10 场 Division 2 比赛的问题以及专家设计的测试用例进行评估，随后计算参赛者的预期评分和百分比。

SWE-Bench 验证结果通过无代理框架（agentless framework）（Xia 等，2024）获得。

AIDER 相关的基准测试通过“diff”格式进行测量。

DeepSeek-R1 在每个基准测试中的输出被限制为最多 32,768 个 tokens。

基线模型（Baselines）

我们对比多个强大的基线模型进行全面评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 存在困难，我们根据官方报告中的结果来汇报其性能。对于蒸馏模型，我们还对比了开源模型 QwQ-32B-Preview（Qwen，2024a）。

生成设置（Generation Setup）

对于我们所有的模型，生成文本的最大长度设置为 32,768 个 tokens。对于需要采样的基准测试，我们采用温度参数 0.6 和 top-p 值 0.95，并为每个查询生成 64 个响应以估算 pass@1 的表现。

picture.image

3.1 DeepSeek-R1 评估（Evaluation）

在面向教育知识的基准测试中（如 MMLU、MMLU-Pro 和 GPQA Diamond），DeepSeek-R1 相较于 DeepSeek-V3 展现出卓越的性能。这一提升主要归功于其在 STEM 相关问题上准确性的显著提高，而这种进步则是通过大规模强化学习（RL）实现的。此外，在 FRAMES 这一依赖长上下文的问答任务中，DeepSeek-R1 同样表现优异，展现了其强大的文档分析能力。这进一步突显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。

在事实性基准测试 SimpleQA 上，DeepSeek-R1 的表现优于 DeepSeek-V3，显示了其处理基于事实的查询的能力。在这一基准测试中，同样观察到 OpenAI-o1 的表现超过了 GPT-4o。然而，在中文 SimpleQA 基准测试上，DeepSeek-R1 的表现不如 DeepSeek-V3，主要原因是经过安全强化学习（safety RL）后，DeepSeek-R1 更倾向于拒绝回答某些查询。如果不进行安全 RL，DeepSeek-R1 的准确率可以超过 70%。

DeepSeek-R1 在 IF-Eval 基准测试中也取得了令人印象深刻的结果。该测试旨在评估模型遵循格式指令的能力。这些改进可以归因于在监督微调（SFT）和强化学习（RL）训练的最后阶段引入了指令跟随数据。此外，DeepSeek-R1 在 AlpacaEval 2.0 和 ArenaHard 基准测试中表现出色，表明其在写作任务和开放领域问答中的优势。DeepSeek-R1 显著超越 DeepSeek-V3，进一步证明了大规模强化学习的泛化优势。这不仅提升了推理能力，还改进了其在多个领域的表现。

DeepSeek-R1 生成的摘要长度适中，平均在 ArenaHard 上为 689 个 tokens，在 AlpacaEval 2.0 上为 2,218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了长度偏差，进一步巩固了其在多种任务上的稳健性。

在数学任务中，DeepSeek-R1 的表现与 OpenAI-o1-1217 相当，并远远超越其他模型。类似的趋势也出现在代码算法任务上，例如 LiveCodeBench 和 Codeforces ，这些基准测试中以推理为重点的模型占据主导地位。在面向工程的编程任务上，OpenAI-o1-1217 在 Aider 基准测试中优于 DeepSeek-R1，但在 SWE Verified 上表现相当。我们认为，DeepSeek-R1 的工程性能将在下一版本中进一步提升，因为目前相关强化学习训练数据的规模仍然非常有限。

3.2 蒸馏模型评估

如表 5 所示，仅通过蒸馏 DeepSeek-R1 的输出即可实现高效的 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，下文使用类似缩写），并在各方面超越非推理模型，例如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上均优于 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中显著超越 o1-mini。这些结果表明蒸馏方法具有巨大的潜力。

picture.image

此外，我们发现对这些蒸馏模型应用强化学习（RL）可以带来显著的进一步提升。鉴于此，我们认为这一方向值得进一步探索，因此本文仅展示了简单监督微调（SFT）蒸馏模型的结果。

4. 讨论

4.1. 蒸馏与强化学习

在 3.2 节中，我们观察到通过蒸馏 DeepSeek-R1，小模型可以取得令人印象深刻的结果。但仍有一个问题：小模型是否可以通过大规模强化学习（RL）训练获得同等性能？

我们对 Qwen-32B-Base 使用数学、编程和 STEM 数据进行大规模 RL 训练，训练超过 10K 步，得到 DeepSeek-R1-Zero-Qwen-32B。

picture.image

实验结果显示，32B 基础模型经过大规模 RL 训练后，性能与 QwQ-32B-Preview 相当。然而，从 DeepSeek-R1 蒸馏而来的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中表现显著更好。

两个关键结论：首先， 将更强大的模型蒸馏到小模型中能取得出色效果，而依赖大规模 RL 的小模型需要巨大计算资源，且可能无法达到蒸馏的性能 。其次， 尽管蒸馏策略经济有效，但突破智能边界可能仍需要更强大的基础模型和更大规模的强化学习 。

4.2. 未成功的尝试

在 DeepSeek-R1 早期开发中，我们遇到了失败和挫折。我们分享这些经验以提供洞察，并不意味着这些方法不能开发有效的推理模型。

过程奖励模型（PRM）

PRM 是引导模型找到更好的推理任务解决方案的方法。但它有三个主要局限：

定义细粒度推理步骤 很困难；
确定中间步骤的正确性 很具挑战性。自动标注可能无法得到满意结果，手动标注又不利于扩展；
基于模型的 PRM 会导致奖励劫持，重新训练奖励模型需要额外资源，并使训练流程复杂化；

虽然 PRM 可以重新排序前 N 个响应或辅助引导搜索，但与大规模强化学习中引入的计算开销相比，其优势有限。

蒙特卡洛树搜索（MCTS）

受 AlphaGo 和 AlphaZero 启发，我们探索了 MCTS 以提升测试时计算可扩展性。这种方法将答案分解为更小的部分，以系统地探索解决方案空间。

方法包括：

提示模型为特定推理步骤生成标签；
使用收集的提示通过预训练价值模型引导的 MCTS 找到答案；
使用生成的问答对训练动作模型和价值模型；

然而，扩展训练遇到挑战：

相比国际象棋，标记生成呈指数级更大的搜索空间；
设置节点扩展限制可能使模型陷入局部最优；
训练细粒度价值模型本质上很困难；

尽管 MCTS 可以在预训练价值模型下提升推理性能，但通过自我搜索迭代提升模型性能仍是一个重大挑战。

5. 结论、局限性和未来工作

在本研究中，我们分享了通过强化学习(RL)提升模型推理能力的历程。DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯 RL 方法，在各种任务中都取得了强大的性能。DeepSeek-R1 更为强大，它利用冷启动数据配合迭代 RL 微调。最终，DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。

我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成了 80 万条数据，并微调了几个小型稠密模型。结果很有希望：DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试上超越了 GPT-4o 和 Claude-3.5-Sonnet，在 AIME 上达到 28.9%，在 MATH 上达到 83.9%。其他密集模型也取得了令人印象深刻的结果，显著优于基于相同底层检查点的其他指令微调模型。

未来，我们计划在以下方向上对 DeepSeek-R1 进行研究投入：

• 通用能力 ：目前， DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 json 输出等任务中的能力不及 DeepSeek-V3 。展望未来，我们计划探索如何利用长链式思维来增强这些领域的任务表现。

• 语言混杂 ：DeepSeek-R1 目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混杂的问题。例如，即使查询使用的是非英语或非中文的语言，DeepSeek-R1 也可能使用英语进行推理和回应。我们计划在未来的更新中解决这个限制。

• 提示工程 ：在评估 DeepSeek-R1 时，我们观察到它对提示很敏感。少样本提示会持续降低其性能。因此，我们建议用户直接描述问题并使用零样本设置指定输出格式，以获得最佳结果。

• 软件工程任务 ：由于评估时间长，影响 RL 过程的效率，大规模 RL 尚未在软件工程任务中广泛应用。因此，DeepSeek-R1 在软件工程基准测试上相比 DeepSeek-V3 并未表现出巨大的改进。未来版本将通过对软件工程数据实施拒绝采样，或在 RL 过程中引入异步评估来提高效率，从而解决这个问题。

扫描下方二维码，关注“ 慢慢学AIGC ”

picture.image