推理模型专题 | DeepSeek开源版o1比肩OpenAI满血版o1(技术报告解读) - 文章 - 开发者社区

引言 ========

昭昭若日月之明，离离如星辰之行。小伙伴们好，我是玩冲天炮的小男孩。今天这篇小作文主要介绍DeepSeek刚发布的O1类模型：DeepSeek-R1。

简介 ========

这篇论文介绍了一系列名为DeepSeek-R1-Zero和DeepSeek-R1的推理模型，着重探讨了强化学习（RL）在提升大型语言模型（LLMs）推理能力上的应用。DeepSeek-R1-Zero是一个直接通过大规模RL训练，没有经过监督微调（SFT）的初始模型，展示了强大的推理能力和有趣的涌现行为。为了解决DeepSeek-R1-Zero存在的不足，并进一步提升推理性能，论文提出了DeepSeek-R1，该模型在RL之前采用了多阶段训练和冷启动数据。实验结果表明，DeepSeek-R1在推理任务上取得了与OpenAI-o1-1217相媲美的性能。此外，为了支持研究社区，论文开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1中提炼出的多个密集模型（1.5B至70B）。

Q1: 这篇文章想要解决什么问题？

A1: 这篇文章主要研究如何在不依赖大量监督数据的情况下，通过强化学习（RL）来提升大型语言模型的推理能力。具体来说，文章探讨了以下问题：

（1）仅使用RL能否使LLMs发展出强大的推理能力，而无需监督微调；
（2）引入少量高质量冷启动数据是否能进一步提升推理性能；
（3）如何训练一个用户友好且通用能力强的模型。

Q2: 这篇文章如何解决这些问题？

A2: 文章提出了两种主要的模型训练方法：

(1) DeepSeek-R1-Zero：直接在基础模型上应用大规模RL，不使用任何SFT数据，并通过基于规则的奖励（准确性和格式奖励）来驱动模型的自我演化。
(2) DeepSeek-R1：在RL训练前引入多阶段训练和冷启动数据。首先，使用少量长链推理（CoT）数据对基础模型进行微调；然后，进行与推理相关的RL训练；接着，通过拒绝采样生成新的SFT数据，并与原有数据合并，再次微调模型；最后，进行第二阶段的RL训练，同时考虑模型的有用性和无害性。此外，文章还探索了如何将DeepSeek-R1的推理能力蒸馏到更小的密集模型中。

Q3: 文章所提出方法的效果如何？

A3: DeepSeek-R1-Zero在AIME 2024基准测试中，pass@1得分从15.6%提升至71.0%，通过多数投票可进一步提升至86.7%，达到与OpenAI-o1-0912相当的水平。DeepSeek-R1在多种基准测试中表现优异，包括在AIME 2024上略超OpenAI-o1-1217，在MATH-500上与OpenAI-o1-1217相当，且显著超越其他模型。同时，DeepSeek-R1在代码竞赛（Codeforces）中也表现出色，并展现了强大的通用能力（如MMLU、MMLU-Pro等）。蒸馏出的模型在推理任务上的表现也大幅超越了之前的开源模型，例如DeepSeek-R1-Distill-Qwen-14B在推理基准上大幅超越了最先进的开源QwQ-32B-Preview。

Q4: 文章所提方法还有哪些不足？

A4: DeepSeek-R1-Zero存在可读性差和语言混杂等问题。DeepSeek-R1虽然在推理任务上表现出色，但在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力仍不及DeepSeek-V3。此外，DeepSeek-R1对提示非常敏感，并且在处理非中英文查询时可能出现语言混合问题。同时，在软件工程任务中，由于评估时间较长，DeepSeek-R1相较于DeepSeek-V3的改进不明显。

论文地址：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek\_R1.pdf

模型下载： https://huggingface.co/deepseek-ai

更多o1类模型解读可以留意该专题：o1专题订阅

方法 ========

2.1 DeepSeek-R1-Zero：纯强化学习

DeepSeek-R1-Zero的核心创新在于直接使用强化学习（RL）训练基础模型，而不经过任何监督微调（SFT）。具体方法如下：

RL算法： 采用组相对策略优化（GRPO）算法，该算法通过从一组输出中估计基线，从而省略了通常与策略模型大小相当的评论模型，节省了RL训练的成本。
奖励建模： 使用基于规则的奖励系统，包括准确性奖励和格式奖励。准确性奖励评估答案是否正确，格式奖励则强制模型将思维过程置于 <think> 和 </think> 标签之间。论文指出，没有使用神经奖励模型，因为其在大规模RL过程中可能会遭遇奖励操控，并且重新训练奖励模型需要额外的训练资源。
训练模板： 使用一个简单的模板，要求模型先产生推理过程，再给出最终答案，避免引入内容特定的偏见。
训练过程： 模型在RL训练过程中不断自我演化，在处理复杂推理任务的能力上逐步提升，其表现为思考时间的增加以及反思、探索等复杂行为的出现。

2.2 DeepSeek-R1：冷启动与多阶段训练

DeepSeek-R1在DeepSeek-R1-Zero的基础上进行了改进，采用多阶段训练流程，包括：

冷启动： 为了防止基础模型的RL训练早期不稳定，DeepSeek-R1首先收集数千条长CoT数据，并使用这些数据微调DeepSeek-V3-Base，作为初始RL模型。这些冷启动数据具有可读性高，模式清晰的特点。
以推理为导向的强化学习： 在冷启动微调的模型上应用大规模RL训练，专注于提高模型在编码、数学、科学和逻辑推理等任务上的能力。同时，引入语言一致性奖励以减少语言混合问题。
拒绝采样与监督微调： 当推理导向的RL收敛时，通过拒绝采样收集新的SFT数据，并与来自DeepSeek-V3的SFT数据合并，再次微调模型。此阶段的数据包括推理数据和非推理数据，用于提升模型在各领域的通用能力。
针对所有场景的强化学习： 进行第二阶段RL训练，使用奖励信号和多样化的提示分布，旨在提高模型的有用性和无害性。其中，推理数据仍然采用基于规则的奖励，而一般数据则采用奖励模型。

2.3 蒸馏：小型密集模型

为了将DeepSeek-R1的推理能力赋予小型模型，论文采用了一种简单的蒸馏方法：直接使用DeepSeek-R1生成的80万条样本对开源模型（如Qwen和Llama系列）进行微调。蒸馏模型没有使用RL训练，仅进行了SFT。

实验结果 ==========

基准测试： 论文在多个基准测试上评估了模型的性能，包括MMLU、MMLU-Pro、GPQA Diamond、SimpleQA、LiveCodeBench、Codeforces以及AIME 2024等。
DeepSeek-R1评估： DeepSeek-R1在教育导向知识基准测试中超越了DeepSeek-V3，在数学任务上与OpenAI-o1-1217相当。同时，DeepSeek-R1在代码算法任务和长上下文依赖的问答任务中也表现出色，还展现了优秀的写作能力和开放领域问答能力。
蒸馏模型评估： 蒸馏得到的小型密集模型（如DeepSeek-R1-Distill-Qwen-7B）在各项指标上超越了像GPT-4o-0513这样的非推理模型。DeepSeek-R1-14B 在所有评估指标上均超过 QwQ-32B-Preview。DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中显著超越了 o1-mini，展示了蒸馏技术的有效性。

总结 ========

这篇论文深入探索了使用强化学习提升大型语言模型推理能力的方法，提出了DeepSeek-R1-Zero和DeepSeek-R1两个模型。DeepSeek-R1-Zero验证了纯强化学习在模型推理能力提升方面的潜力，而DeepSeek-R1通过多阶段训练和冷启动数据，取得了与OpenAI-o1-1217相媲美的性能。此外，论文还成功将DeepSeek-R1的推理能力蒸馏到了小型密集模型中，展示了蒸馏的有效性。

未来可改进的方向或要点：

通用能力： DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力仍有提升空间，未来可以探索如何利用长链推理增强这些领域的任务表现。
语言混合： DeepSeek-R1在处理非中英文查询时可能出现语言混合问题，需要在未来的更新中解决。
提示工程： 论文观察到DeepSeek-R1对提示非常敏感，未来需要探索更鲁棒的提示方法。
软件工程任务： 未来可以探索更高效的强化学习方法，以提升DeepSeek-R1在软件工程任务中的性能。
蒸馏模型： 虽然论文展示了SFT蒸馏模型的效果，但可以进一步探索RL训练在蒸馏模型上的潜力。
奖励模型： 虽然论文避免使用神经奖励模型，未来可以尝试更稳定可靠的神经奖励模型，并研究奖励操纵问题。
搜索算法： 可以重新审视并改进蒙特卡罗树搜索等搜索算法在推理任务中的应用，以进一步提高推理性能。

总的来说，这篇论文为大型语言模型的推理能力提升提供了有价值的见解，并为未来的研究奠定了基础。