推理模型专题|DeepSeek-R1如何用强化学习、冷启动和蒸馏,开启大模型训练新思路?

大模型向量数据库机器学习

爆竹声中一岁除,春风送暖入屠苏。大家新年好,我是卖热干面的小女孩。很高兴能与小伙伴们分享人工智能领域的前沿技术和思考。picture.image

在大语言模型(LLMs)蓬勃发展的当下,推理能力成为衡量模型优劣的关键指标。DeepSeek-R1 系列模型凭借强化学习在这一领域取得了令人瞩目的成果。

承接之前DeepSeek R1的粗浅解读:

推理模型专题 | DeepSeek开源版o1比肩OpenAI满血o1

,小编继续

深度阅读了DeepSeek-R1的论文,今天和大家一起深入剖析 DeepSeek-R1 系列模型在纯强化学习、纯SFT蒸馏等方面的创新与突破,以及冷启动数据和多阶段训练策略的效果提升,看看它们为大语言模型的发展带来了哪些新思路。

DeepSeek-R1关键贡献

  • 1.开源DeepSeek-R1-Zero:通过大规模强化学习(RL)训练的模型,无需经过监督微调(SFT)作为初始步骤,展现出卓越的推理能力,在AIME上,与 OpenAI-o1-0912 的性能相当。
  • 2.开源DeepSeek-R1:采用了多阶段训练和强化学习前的冷启动数据。DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。
  • 3.DeepSeek-R1蒸馏模型:基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个密集模型(15 亿、70 亿、80 亿、140 亿、320 亿、700 亿参数),并显著提升小模型的推理能力。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是通过大规模强化学习训练的推理模型,不依赖监督微调,旨在探索大语言模型在纯强化学习下发展推理能力的潜力。

舍弃SFT的纯强化学习方案

采用 GRPO 强化学习算法

GRPO可参考论文:https://arxiv.org/pdf/2402.03300 为降低训练成本,采用分组相对策略优化(GRPO)算法。该算法舍弃了与策略模型同样大小的价值网络,而是通过组得分来估计基线。具体是通过从旧策略中采样一组输出,计算组内奖励的均值和标准差来标准化优势,进而优化策略模型,避免了传统强化学习中价值网络带来的高成本问题。 GRPO 在训练过程中,不需要 Value Model,因此也能够减少 RL 训练过程中的资源消耗。picture.imageGRPO解释如下: 对于每个问题 q,GRPO 从旧策略

中采样一组输出

,然后通过最大化以下目标来优化策略模型:

其中,

, \beta 是超参数,A_{i}是优势,通过每组输出对应的一组奖励{r_{1}, r_{2}}得到:

关于GRPO强化学习的进化的详细介绍,请关注公众号后续文章。

基于规则的奖励系统

采用基于规则的奖励系统,包括准确率奖励和格式奖励。对于有确定性答案的任务,如数学题,要求模型按指定格式给出答案,以便验证正确性来给予准确率奖励;同时,利用格式奖励促使模型将推理过程放在特定标签内,保证输出结构规范。

  • 准确率奖励: 准确率奖励模型评估模型的回答是否正确。例如,对于有确定答案的数学问题,要求模型以指定格式(如在方框内)给出最终答案,以便基于规则可靠地验证答案的正确性。类似地,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励: 除了准确率奖励模型,我们还采用格式奖励模型,强制模型将其思考过程放在‘

’和‘

’标签之间。

  • 结果或过程神经奖励未应用: DeepSeek-R1-Zero 没有应用结果或过程神经奖励模型,因为神经奖励模型在大规模强化学习过程中可能会受到奖励作弊的影响,并且重新训练奖励模型需要额外的训练资源,还会使整个训练流程变得复杂。

使用简单训练模板

设计简单训练模板,要求模型先产生推理过程,再给出最终答案。这种模板仅对结构进行约束,避免特定内容偏差,例如强制要求反思性推理或推广特定的问题解决策略,确保能观察模型在强化学习过程中的自然发展。

DeepSeek-R1-Zero的模版形式 :用户与助手进行对话。用户提出问题,助手进行解答。助手先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案分别包含在DeepSerek的和标签中,即推理过程在此处答案在此处。

评测效果

推理性能显著提升

在 AIME 2024 基准测试中,DeepSeek-R1-Zero 的平均单次预测准确率(pass@1)从初始的 15.6% 大幅提升至 71.0%,达到与 OpenAI-o1-0912 相当的水平;若采用多数投票,成绩可进一步提升至 86.7%,超越 OpenAI-o1-0912。在 MATH-500、GPQA Diamond 等其他推理相关基准测试中,也展现出强大的推理能力,如在 MATH-500 上单次预测准确率达 95.9% 。

自主进化出复杂推理行为

随着训练推进,模型的思考时间不断增加,能够自发探索并生成数百到数千个推理令牌,以解决复杂推理任务。同时,还出现了反思、探索多种解题方法等复杂行为,这些行为并非预先编程,而是在与强化学习环境的交互中自然涌现,显著增强了模型的推理能力。

picture.imageDeepSeek-R1-Zero 在强化学习过程中对训练集的平均响应长度。DeepSeek-R1-Zero 自然地学会了在有更多思考时间的情况下解决推理任务。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

出现 “顿悟时刻”

在训练过程中,模型出现了 “顿悟时刻”。例如在处理数学问题时,模型学会重新评估初始解题方法,分配更多思考时间,这种行为不仅体现了模型推理能力的提升,也展示了强化学习可带来意想不到的成果,为模型的发展提供了新的思路和方向。

顿悟时刻示例:picture.image上图是DeepSeek-R1-Zero 的一个中间版本的有趣 “顿悟时刻”。该模型学会以拟人化的语气进行反思。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量和美丽。

DeepSeek-R1-Zero的缺点

  • 1.可读性差
  • 2.语言混合等方面存在挑战

DeepSeek-R1

冷启动数据、多阶段训练策略方案

DeepSeek-R1 是为解决 DeepSeek-R1-Zero 存在的问题并进一步提升推理性能而开发的模型,它在训练过程中融入了 冷启动数据多阶段训练策略

冷启动阶段

收集数千条长思维链(CoT)冷启动数据,对 DeepSeek-V3-Base 模型进行微调。这些数据通过少样本提示、模型生成、人工标注后处理等方式获得,具有良好的可读性,以解决 DeepSeek-R1-Zero 内容不适合阅读、语言混杂等问题,为后续强化学习提供更稳定的起始点。

推理导向的强化学习

在冷启动微调后的模型基础上,采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。针对训练中思维链出现语言混杂的问题,引入语言一致性奖励,计算思维链中目标语言单词的比例,并将其与推理任务的准确率奖励直接相加,形成最终奖励,以引导模型生成更符合人类偏好的结果,同时增强模型在编码、数学、科学和逻辑推理等任务上的推理能力。

拒绝采样和监督微调

当推理导向的强化学习收敛后,利用此时的检查点进行拒绝采样,收集推理数据。这些推理数据不仅包含可基于规则奖励评估的数据,还通过生成式奖励模型扩展了数据集,并过滤掉语言混杂、过长段落和代码块等不理想的思维链。同时,收集写作、事实性问答、自我认知等非推理数据,使用约 80 万样本对 DeepSeek-V3-Base 模型进行两个 epoch 的微调,以增强模型在多种任务上的能力。

全场景强化学习

实施二次强化学习,结合多种奖励信号和多样的提示分布,使模型在提升推理能力的同时,更符合人类偏好,提高模型的实用性和安全性。对于推理数据,采用基于规则的奖励引导学习;对于一般数据,使用奖励模型捕捉人类偏好。评估时分别关注最终总结的实用性和整个回复的无害性,确保模型生成内容的质量。

评测效果

实验表明:DeepSeek R1在推理类、知识类、综合能力等方面效果突出。 推理任务表现优异 : 在 AIME 2024 上,DeepSeek-R1 的单次预测准确率(Pass@1)达到 79.8%,略高于 OpenAI-o1-1217;在 MATH-500 上,得分高达 97.3%,与 OpenAI-o1-1217 相当,远超其他模型。在编码相关的 Codeforces 竞赛任务中,获得 2029 的 Elo 评级,超过 96.3% 的人类参与者,展现出专家级水平。

知识类任务成果突出

在 MMLU、MMLU-Pro 和 GPQA Diamond 等知识基准测试中,DeepSeek-R1 成绩出色,大幅超越 DeepSeek-V3。尽管在这些基准测试中略逊于 OpenAI-o1-1217,但超越了其他闭源模型,在教育任务中具有竞争优势。在 SimpleQA 事实性基准测试中,也优于 DeepSeek-V3,证明其处理事实查询的能力 。

综合能力提升显著

在 AlpacaEval 2.0 和 ArenaHard 等测试中,DeepSeek-R1 分别取得 87.6% 的长度控制胜率和 92.3% 的胜率,在创意写作、通用问答等多任务上表现出色。在长上下文理解任务方面,DeepSeek-R1 大幅超越 DeepSeek-V3,能够更好地处理长文本信息 。

DeepSeek-R1蒸馏模型系列

为赋予小模型推理能力,DeepSeek-R1 采用直接微调开源模型的蒸馏方案,取得了优于同类模型的效果,推动了小模型在推理任务中的应用与发展。

方案:

基础模型:

以 Qwen 和 Llama 系列中的多个开源模型为基础,是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.514B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略优于 Llama-3.1。

微调数据:

利用 DeepSeek-R1 训练过程中收集和整理的 800k 样本,前文的 拒绝采样和监督微调 提及。对这些基础模型进行监督微调(SFT)。

蒸馏方法:

在蒸馏过程中,仅应用监督微调(SFT),未纳入强化学习阶段,以便集中展示蒸馏技术本身对小模型推理能力提升的有效性,将强化学习阶段的探索留给研究社区。

评测效果:

蒸馏后的小模型在推理任务上性能出色。

  • 以 AIME 2024 基准测试为例,DeepSeek-R1-Distill-Qwen-7B 的单次预测准确率达到 55.5%,超越了 QwQ-32B-Preview;DeepSeek-R1-Distill-Qwen-14B 的准确率为 69.7% ,在多项指标上表现优异。
  • 在 MATH-500 测试中,DeepSeek-R1-Distill-Qwen-32B 的准确率高达 94.3%,远超同类模型。
  • 多个蒸馏模型在不同规模下均展现出强大潜力,DeepSeek-R1-Distill-Qwen-14B 在所有评估指标上超越 QwQ-32B-Preview。
  • DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B 在大多数基准测试中显著超越 o1-mini 。

失败的尝试

研究人员尝试了过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)两种方法,但都未成功。主要面临的问题包括难以定义和判断推理步骤、易出现奖励作弊现象、搜索空间过大和价值模型训练困难等。

未来工作

提升通用能力: 目前 DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的表现不如 DeepSeek-V3。后续计划探索利用长思维链(CoT)技术,增强模型在这些领域的任务处理能力,提升其通用性。

解决语言混杂问题: 模型当前主要针对中文和英文进行了优化,在处理其他语言的查询时,可能出现语言混杂现象,如用英文进行推理和回复非中英语言的查询。未来的更新版本将重点解决这一问题,提高模型对多语言的处理能力。

优化提示工程: DeepSeek-R1 对提示较为敏感,少样本提示会降低其性能。为优化这一情况,团队建议用户采用零样本设置,直接描述问题并指定输出格式,后续也会围绕提示工程展开研究,降低模型对提示的敏感度,提升其性能稳定性。

强化软件工程任务处理能力: 由于大规模强化学习在软件工程任务中应用受限,导致 DeepSeek-R1 在软件工程基准测试上,相比 DeepSeek-V3 的改进不明显。后续版本将通过对软件工程数据实施拒绝采样,或在强化学习过程中引入异步评估等方式,提高评估效率,增强模型在软件工程任务方面的表现。

总结:

DeepSeek R1 在基础模型上开展了一系列极具价值的实验,涵盖纯强化学习、冷启动预训练与多阶段微调,以及运用纯 SFT 进行小模型蒸馏。实验结果表明,即使是相对单纯的算法,在合适的场景下也能展现出卓越成效。这一成果对于实际场景中的技术选型而言,无疑具有重要的参考价值。

DeepSeek R1 为我们开启了创新训练方式的新思路。以强化学习为主导的训练模式,突破了传统训练的局限;冷启动与多阶段训练相结合,为模型训练提供了更稳定、高效的起始点与优化路径;模型蒸馏技术则显著提升了小模型的能力,拓展了小模型在推理任务中的应用空间。此外,DeepSeek 低成本的训练方式,降低了技术应用门槛,有利于推动相关技术的广泛普及。同时,其可拓展的应用场景和生态建设,也为未来的技术发展与应用提供了广阔的想象空间。

可以预见,在不久的将来,基于 DeepSeek R1 的创新训练方式将在各个场景中引发一系列相关实验。这些实验不仅有望解决 DeepSeek R1 目前存在的局限,还可能催生出更多创新性的技术应用,为人工智能领域的发展注入新的活力。究竟会碰撞出怎样的火花,让我们共同拭目以待。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论