奇虎360+人大开源 Light-R1 | 性能与QwQ-32B和DeepSeek-R1相当

更多内容,点击下方关注【 AGI之门 】公众号

获取更多实时AGI相关解读

扫描下方二维码,添加小助手微信

picture.image

picture.image

导读

首先,作者关注从头开始训练长COT模型,特别是从最初缺乏长COT能力的模型开始。作者使用包含两阶段SFT和半策略DPO的课程训练方法,从Qwen2.5-32B-Instruct模型中训练出Light-R1-32B模型,其数学性能优于DeepSeek-R1-Distill-Qwen-32B。尽管Light-R1-32B仅在数学数据上训练,但它在其他领域表现出强大的泛化能力。在本工作的后续阶段,作者强调了为第二阶段SFT构建的

数据集对增强其他模型的显著益处。通过使用此数据集微调DeepSeek-R1-Distilled模型,作者在7B和14B模型中获得了新的SOTA模型,而32B模型Light-R1-32B-DS的表现与QwQ-32B和DeepSeek-R1相当。

此外,作者通过将强化学习,特别是GRPO,应用于长COT模型,进一步提升了推理性能。作者成功使用强化学习训练了最终的Light-R1-14B-DS模型,在数学领域实现了14B模型中的SOTA性能。其AIME24和AIME25的分数分别为74.0和60.2,Light-R1-14B-DS甚至超越了众多32B模型和DeepSeek-R1-Distill-Llama-7B模型。其强化学习训练也表现出预期的良好行为,响应长度和奖励分数同时增加。

Light-R1系列工作验证了从头开始训练长COT模型,展示了SFT数据的艺术,并发布了基于RL的SOTA模型。

1 引言

自DeepSeek-R1发布以来,长链式思维推理在基础AI模型和各种工业AI应用中获得了广泛流行。然而,部署完全功能的R1级模型(通常参数量超过70B,DeepSeek-R1参数量为671B)需要承受巨大的计算成本。训练和部署巨型模型的资源障碍使得它们在边缘设备和实时应用中不切实际。这种限制引发了人们对于开发在10B参数以下既紧凑又强大的模型的日益兴趣,这些模型能够执行扩展的长COT——这对于数学问题求解、算法规划和科学分析是一个关键要求。

为此,作者对Light-R1系列进行了这项研究。从一切的开始,作者建立了稳定可靠的评估协议,能够精确重现DeepSeek-AI中报告的评估结果。

基于可靠的评估,作者的研究通过系统性的架构和算法创新,针对该方向的三项基本挑战进行了探讨。

第一个挑战在于为Post-Training阶段精心构建一个高效且有效的数据集。精心设计的数据选择策略是该阶段所有潜在改进的基础。为了应对这一挑战,作者收集了一系列开源推理数据集,涵盖数学推理、逻辑推理和算法问题解决。原始数据集经过严格的预处理,以消除重复项并标准化格式。随后,作者实施了一种复杂的两阶段难度过滤方法,以识别最有价值的训练示例。具体而言,作者采用了一种顺序评估方法,利用DeepScaleR1.5B-Preview和DeepSeek-R1-Distill-Qwen-32B模型,根据通过率指标量化问题难度。

第二个挑战是如何优化数据集的利用。虽然传统方法通常采用单一的自监督预训练(SFT)阶段,但作者的初步实验揭示了这种方法在长推理问题上的显著局限性。具体来说,在作者32B模型进行初始SFT阶段之后,作者发现大约20%的训练数据在10次运行中仍然表现出低于50%的通过率,这表明单一的训练阶段不足以完全吸收具有异质难度 Level 的数据集中包含的知识。为了解决这一局限性,作者实施了一种课程学习策略以最大化数据集的价值。作者的实验表明,最佳的训练后课程取决于基础模型的特点——不具备内在长推理能力的模型通常需要比已经具备这种能力的模型更多的训练阶段。对于从零开始训练的Light-R1-32B模型,最佳性能需要两个连续的SFT阶段,难度逐渐增加,然后是DPO阶段。

第三项挑战源于实施Post-Training的最终组件——强化学习(RL),以进一步提升模型性能。作者很高兴地报告,作者成功地对Light-R1-14B-DS进行了强化学习(RL)训练。近期的研究工作已成功在基础或短-COT模型(通常在名称中带有“-zero”)上训练了RL,或在小型模型上(响应长度有趣地先显著下降后增加),或在QwQ-32B上进行了RL,而QwQ-32B的RL是在32B模型上进行的,使用了“扩展RL”方法——这可能是计算成本过高。其中,除了QwQ-32B外,其他均不能被视为DeepSeek-R1的非零RL的全规模RL再现,而QwQ-32B在32B模型上进行了RL,使用了“扩展RL”方法——这可能是计算成本过高。作者的长-COT RL Post-Training是第一个在长-COT 14B模型上同时实现响应长度和奖励分数的提升,且在开始时没有长度下降的案例。这一突破表明,精心设计的课程设计可以克服小型模型中RL已知的可扩展性限制。

本工作的主要贡献包括:

  • • 一种详细且完全开源的Post-Training方法,用于从头开始训练长COT模型。课程

在Qwen2.5-32B-Instruct上得到验证,并可以轻松迁移到Qwen2.5-7B和14B模型。总的三阶段课程

通过难度递进的数据曝光逐步构建推理能力,仅需

的训练成本(在

GPU上训练6小时)。

  • • 一个成熟的SFT阶段2数据集,包含3000道主要是数学问题,该数据集不仅能显著提升SFT阶段1的性能,还能大幅提高所有DeepSeek-R1-Distill模型的表现,从而使得作者的SOTA 7B模型Light-R1-7B-DS得以实现。
  • • 首次展示在14B模型上进行数学推理的强化学习(RL)有效性,相较于之前未使用RL的情况,实现了约2%的绝对提升,从而得到作者的SOTA(最先进的技术)14B模型Light-R1-14B-DS。

Light-R1-32B模型在AIME24上达到了76.6%,在AIME25上达到了64.6%,超越了DeepSeek-R1-Distill-Qwen-32B模型4.0%和9.7%。Light-R1-7B-DS和Light-R1-14B-DS是同等规模的SOTA数学模型。Light-R1-14B-DS在RL训练过程中表现出一致且预期的改进。

Light-R1模型系列为在资源受限的环境,如边缘计算中部署High-Level推理能力开辟了新的可能性,同时不牺牲分析深度。

2 一切之起源:对长COT模型的稳定与可信评估

根据DeepSeek-AI,长COT模型通常采用采样温度0.6。虽然长COT模型在采样方面通常比贪婪解码表现更好,但它给模型评估带来了更多负担,因为每个问题可能需要多个样本,这与之前用于评估的贪婪解码的可行方法相反。

DeepSeek-AI每次 Query 生成64个响应来估计通过率

。作者已经验证了这一选择,观察到在不同模型的相同运行中,使用16个响应或更少时,偏差超过3分。这种随机性对于比较模型性能是不可接受的。

为了稳定和可靠的评估,作者为所有评估运行采用了Luo等人[2025]的评估代码。作者的评估代码和日志均已发布。

作者可以复现DeepSeek-R1-Distil模型和QwQ在DeepSeek-AI、Qwen中报告的得分,如表2所示,每个 Query 使用64个样本,得分偏差约为1分。因此,作者可以使用相同的评估代码和协议,以可信的方式训练和评估Light-R1。

picture.image

3 Light-R1-32B:从零开始构建长COT,结合课程SFT与DPO

尽管许多工作已经开源,试图在72B或更小的模型上重现DeepSeek-R1,但没有一个在难度数学竞赛AIME24 & 25上达到与DeepSeek-R1-Distill-Qwen-32B的得分72.6 & 54.9相似的性能。

Light-R1-32B 从 Qwen2.5-32B-Instruct 开始,没有进行长COT训练(在长COT方面是从零开始),并在净化后的数学数据上进行了训练。它通过课程式微调(SFT)和动态参数优化(DPO)提炼了 DeepSeek-R1,超越了 DeepSeek-R1-Distill-Qwen-32B 在 AIME24 和 25 上的表现,并通过模型融合进一步改进,达到了 76.6 和 64.6 的成绩。

更重要的是,除了最先进的从头开始模型Light-R1-32B之外,作者还发布了作者课程SFT & DPO的所有训练数据集以及基于360-LLaMAFactory的训练代码。在

机器上的估计训练时间不超过6小时——大约

。作者认为Light-R1代表了一种从无长COT模型从头开始训练强大长COT模型的实际方法。虽然作者在14B模型上实现了RL(第4节),但课程SFT & DPO在 Pipeline 中提供了更多的控制,并且成本更低。

本节介绍了作者的数据处理和后训练流程,如图1所示。

picture.image

3.1 数据准备

整个数据准备过程涵盖了数据收集、数据去污和数据生成,具体如下所述。

3.1.1 数据收集

作者首先收集了包含正确答案的各类数学问题。通过迭代所有可能的数据来源,作者收集了大约10万个数学问题作为种子集。主要数据来源包括:

所有数据汇总在一起,形成约1000k个数学问题作为种子集。在这1000k个数据中,作者仅保留了具有真实答案的数学问题。没有真实答案的问题可以通过让多个强大的大语言模型(LLM)投票确定真实答案作为合成数据使用,但作者将其留待未来研究。

数据随后经过多样性筛选,作者使用内部标签系统对每个问题进行 Token ,并对数据过多的类别进行下采样。

3.1.2 数据净化

作者仔细评估了几个开源数据集的数据污染情况。虽然在进行预训练期间出现某些污染可能是不可避免的,但在后训练阶段在基准测试中进行比较则是不被接受的。如表3所示,作者发现MATH-500存在一定程度的损害,有数十个问题完全相同或只是数字发生了变化。AIME 24和25保持完好,但当作者整合到2023年的AIME数据时,作者必须特别留意。

picture.image

Light-R1对AIME24、AIME25、MATH-500和GPQA进行了彻底的去污处理,采用精确匹配(排除数字,以过滤掉仅数字发生变化的问答)和N-gram(N=32)匹配。

3.1.3 数据生成

利用多样化和干净的语料库,作者为SFT训练生成长文本的COT回复。然而,并非所有数据都适合且必要用于训练,并且对DeepSeek-R1进行提炼,无论是 Query API还是局部部署,都可能成本高昂。因此,作者对数据集进行了难度筛选,仅保留不太容易的问题。

作者使用Luo等人[2025]提出的DeepScaleR-1.5B-Preview模型对每个问题进行响应采样,因为该模型体积小但足够强大。仅保留通过率小于

的问题以 Query DeepSeek-R1。这导致大约70k(确切地说为76k)的数据。 Query DeepSeek-R1后,仅保留具有正确长COT答案的问题。如果采样到的两个或更多答案都是正确的,作者随机选择其中一个长COT答案进行强化学习。

因此,作者构建了一个超过70k的SFT数据集,其 Prompt 经过多样性和难度的筛选,长COT响应由DeepSeek-R1生成,并对照真实情况进行验证。

然而,直接在数据集上训练无论经过多少个epoch,都无法直接产生令人满意的结果。在检查了模型在不同问题上的表现后,作者发现模型可能需要在更难的问题上进行进一步训练。因此,作者并没有在最后阶段使用DeepScaleR-1.5B-Preview进行难度过滤,而是进行了另一阶段的难度过滤,使用了DeepSeek-R1-Distill-Qwen-32B。在这个阶段,只保留了通过率小于

的问题,以及DeepSeek-R1的采样响应无法全部正确或全部错误的问题。这导致了SFT阶段2数据集的大小为

。有趣的是,这个数据集的质量非常高,仅使用它进行训练就能在所有DeepSeek-R1-Distill模型上带来性能提升,这将在第3.4节中讨论。

3.2 课程后训练

Light-R1包括三个阶段:

    1. SFT阶段1:在76k个过滤后的数学问题上进行训练
    1. SFT Stage 2:在

高难度问题上的微调 3. 3. DPO优化:基于验证响应对的偏好优化

SFT阶段均使用第3.1.3节中讨论的两阶段数据进行训练。详细的超参数可以在作者的GitHub仓库中找到。

对于DPO,作者采用了半策略方法,使用NCA损失[Chen等,2024]。被拒绝的响应从SFT-stage-2模型中采样,其中包含验证过的错误答案。具体来说,响应过长、过短或认为正确但答案错误的选择作为DPO对中的拒绝项。选定的响应是来自DeepSeek-R1的正确答案。虽然作者长期以来一直在使用完全策略的DPO,但作者发现对于难题,来自更强大模型的选定响应更好。

3.3 结果

作者观察到,在课程每个阶段的SFT & DPO后训练中均有稳步提升,如表4所示。在DPO阶段之后,作者将SFT阶段2的模型、DPO以及另一个AIME24得分为74.7的DPO版本进行了合并。这两个DPO版本的区别在于其中一个版本的数据在拒绝响应中跳过了特殊 Token 。有趣的是,合并后的版本也表现出了改进。在GPQA评估中,作者对未进行训练的科学问题进行了评估,数学专业训练导致了一定程度的遗忘。然而,Light-R1-32B仍然展现出强大的泛化能力。

picture.image

3.4 高质量数据即是全部所需

将DeepSeek-R1-Distill-Qwen模型视为作者SFT阶段1的更强版本,作者在DeepSeek-R1-Distill-Qwen模型之上,使用

阶段2数据执行了SFT阶段2。

令人惊讶的是,如表5所示,仅使用这3k数据,作者就能在DeepSeek-R1-Distill-Qwen模型上实现普遍的改进,这证明了阶段2数据的高质量。也可能是因为这3kΩ数据在某种程度上与DeepSeek-R1-Distill-Qwen模型正交,因此能够如此容易地实现改进。800k SFT数据,因此取得了这样的简单改进。

picture.image

Light-R1-7B-DS和Light-R1-32B-DS作为直接SFT阶段2版本发布,而Light-R1-14B-DS则经过额外的RL训练以进一步改进。

GPQA对于Light-R1-32B-DS来说出人意料地高,但在作者的大部分实验中,除了数学之外的科学和编码应该通过特定训练进一步改进,而这在本技术报告中作者尚未进行。

4 Light-R1-14B-DS:在已预训练的长期COT模型上成功进行强化学习

作者在DeepSeek-R1-Distill-Qwen-14B上进行强化学习实验。据作者所知,这是第一个公开记录的工作,通过强化学习在已经非常长的COT 14B模型上实现了显著的性能提升。

先前由DeepSeek-AI [2025]、Yuan等人[2025]和张等人[2025]的研究表明,较小的模型(参数量在320亿以下)可以通过从更大的推理模型中蒸馏达到高性能水平。然而,通过强化学习(RL)对已经经过长COT微调的模型进行进一步改进,尚未被社区广泛实现,并且不像零RL(第1节)那样容易实现。虽然Luo等人[2025]成功地在较小的模型DeepSeek-R1-Distill-Qwen-1.5B上展示了有希望的RL训练,但作者使用相同的配方在较大的DeepSeek-R1-Distill-Qwen-14B模型上复制类似结果时遇到了挑战。

经过数周的调查研究,作者最终得出了作者的最终强化学习(RL)解决方案,该方案包含两个步骤,并从作者有效的课程学习(SFT)尝试以及Cui等人那里汲取灵感。具体过程如下:

    1. 离线数据选择:使用Light-R1-7B-DS对RL训练 Prompt 的结果进行采样,仅保留通过率非0或1且在一定范围内的 Prompt 。
    1. 在线强化学习:将GRPO应用于过滤后的数据集。

作者选择GRPO([Shao等])作为优化算法,并基于verl进行实现。此外,作者还采用两种技术来稳定强化学习训练过程:修改版的长度奖励[Yeo等],对短正确答案的偏好较弱,以及重要性采样权重裁剪[MiniMax等]。

作者使用基于规则的奖励机制以及去重后的Big-Math数据集。实验在由

A100 GPU组成的集群上进行。离线数据选择过程耗时4小时,而在线强化学习完成140步需要26小时,完成220步需要42小时。

picture.image

如图2所示,作者的强化学习(RL)训练表现出预期的行为:响应长度和奖励分数同时增加。在开始时没有出现有趣的长度下降。作者在完成3个epoch的训练后,评估了第1个和第2个epoch。如表6所示,尽管前两个epoch似乎没有带来太多改进,但健康的RL训练曲线让作者有信心继续训练。Light-R1-14B-DS最终经过大约3个epoch,或220步的强化学习训练。

picture.image

5 结论

作者的Light-R1系列系统性地解决了在资源受限条件下训练长链思维(COT)数学推理模型的挑战,并做出了三项重要贡献。首先,作者利用强化学习(SFT)和深度潜在优化(DPO)建立了一个可复现且成本效益高的课程,该课程能够从零开始成功培养长-COT能力。其次,作者精心制作的3K阶段2 SFT数据集在不同模型大小和架构上展现了显著的迁移性,显著提升了DeepSeek-R1-Distill模型的表现,并为具有70亿、140亿和320亿参数的模型建立了新的性能基准。第三,作者展示了在14亿参数长-COT模型Light-R1-14B-DS上首次成功实现的强化学习训练,该模型在训练过程中保持了稳定的响应长度增长,同时实现了优异的性能。

这些进展不仅使R1级推理能力得到普及,还为课程设计、数据效率和长推理模型的RL可扩展性提供了宝贵见解。作者的开源模型、数据集和代码(可在GitHub:Qihoo360/Light-R1找到)旨在加速开发紧凑而强大的推理系统的研究,特别是针对资源受限的应用。未来的工作将探索为长推理模型集成增强的泛化能力以及进一步优化RL训练效率。

参考

[1]. Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

0
0
0
0
评论
未登录
暂无评论