DeepSeek-R1复现之集大成者 - 文章 - 开发者社区

为什么大家热衷复现 DeepSeek-R1 呢？

首先从影响力来看，把近几年的AI发展浓缩为3个里程碑， DeepSeek-R1必占其一。如果说 ChatGPT 第一次让大模型火出AI圈， DeepSeek-R1则更上一层楼，第一次让顶级大模型普及到全世界，尤其是中国的中小企业及千行百业。因为 DeepSeek-R1可以说从三个维度破了三大圈：

第一破了闭源圈。之前遥遥领先的ChatGPT是闭源的，别家无法部署，无法参与，只能使用它的服务。虽然后面涌现很多开源模型，比如Llama、Qwen等，但和同时期的ChatGPT SOTA模型相比，都有肉眼可见的巨大差距。而 DeepSeek-R1的横空出世，第一次让开源模型达到了和顶尖闭源模型一样甚至更好的能力，普惠世界范围内的所有企业及个人。
第二破了对中国的AI封锁圈。之前最强大的 ChatGPT一直对中国是封锁的，国内再热也还是圈内更热，普通国人使用有门槛，普及有掣肘。而 DeepSeek-R1 第一次让普通国人畅通无阻地享受到了顶级大模型带来的革命性震撼。
第三破了大厂圈。之前最火热的大模型赛道，只有资金充足的大厂及AI明星创业公司玩得起，训练一次烧钱无数。其他中小企业只能望成本而兴叹。而 DeepSeek 第一次让训练成本有了数量级的下降，让世界范围内更普遍的中小企业都有可能参与其中。

其次从实用性来看，DeepSeek-R1从学术研究到工程应用都把大家一把拉到了一个更高的起点。

学术研究方面，之前复现gpt-4o/o1等都比较困难，因为闭源嘛。突然一个顶级的开源模型冒出来，公开详尽的训练细节，不同于之前的训练思路，这种思路下训练成本大幅下降且效果又能比肩顶级模型，这就引发了学术圈浓厚的兴趣。各高校和研究机构争相基于 DeepSeek-R1 引领的方向，进行各种尝试探索。到目前为止已经发表了很多论文了。这些都可以看做对 DeepSeek-R1 的某种复现。

工程应用方面，业界普遍存在一个诉求，就是如何基于开源大模型，结合自己领域的专有数据，训练出在本专业领域更先进的模型，同时又保持模型的通用能力不下降。

因为开源基础大模型是用海量公开通用数据训练出来的，虽然能够在所有领域比如都能取得8、90分，但是真要应用到某些专业领域，比如医疗或教育领域，8、90分显然是不够的。就像一个接受了通识教育的毕业生，具有各方面的潜力。将来可以从事任何行业。但是这个高潜力毕业生，到任何一个专业领域后，还需要在工作中，进一步深入学习这个领域的专业知识和技能，才能胜任。

很多专业领域的知识和技能是通用大模型没有的，并且也是很多企业不愿意公开，并且不愿意投喂给公共AI服务的。因为这里有多年的行业积淀，是企业的竞争力所在。企业想保留自己的专业壁垒并借助AI技术充分发挥其价值，就必然要训练自己的专有模型。

之前开源模型的基础能力不足，且训练成本高昂，造成基模加专有数据训练出商用级专有模型这个诉求很难被满足。而 DeepSeek-R1的出现，很好的解决了这2个问题，让大家都看到了希望，并且其引发的千行百业对专业领域垂直大模型的需求，推动了这一浪潮。

这些也是复现 DeepSeek-R1的意义所在。

截至目前的主要复现项目及成果有：

通过数据筛选（s1k数据集）和预算强制技术，以50美元成本在Qwen2.5-32B基座上复现了高性能推理模型，验证了小样本微调的潜力

主导机构：斯坦福李飞飞团队
论文：s1: Simple test-time scaling - arxiv：https://arxiv.org/abs/2501.19393
源码： https://github.com/simplescaling/s1
s1.1-32B

模型地址：https://huggingface.co/simplescaling/s1.1-32B 新模型，在25年2月份基于 Deepseek-R1 蒸馏的数据重新训练的模型
数据集：用 Deepseek-R1 蒸馏的数据集： https://huggingface.co/datasets/simplescaling/s1K-1.1 训练 s1.1-32B 对应的数据集
训练日志：https://wandb.ai/hashimoto-group/o1/runs/m1ilia77/overview

s1-32B

模型地址： https://huggingface.co/simplescaling/s1-32B 旧模型，发论文时的模型
数据集：用 Gemini Thining 蒸馏的数据集：https://huggingface.co/datasets/simplescaling/s1K 发论文时的数据集，训练 s1-32B 对应的数据集
训练日志：未公开

评估工具：GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.：https://github.com/EleutherAI/lm-evaluation-harness

OpenR1

系统性复现DeepSeek-R1全流程，开源了220k数学推理数据集和代码生成框架OlympicCoder，推动了透明化RL训练与多领域泛化

主导机构：HuggingFace
源码：Open R1 - A fully open reproduction of DeepSeek-R1 ：https://github.com/huggingface/open-r1
数据：https://huggingface.co/datasets/bespokelabs/Bespoke-Stratos-17k
模型：

OpenR1-Qwen-7B： https://huggingface.co/open-r1/OpenR1-Qwen-7B
Bespoke-Stratos-32B：https://huggingface.co/bespokelabs/Bespoke-Stratos-32B
Bespoke-Stratos-7B：https://huggingface.co/bespokelabs/Bespoke-Stratos-7B

评估工具：https://github.com/huggingface/lighteval

OpenThoughts

OpenThoughts的首要目标是精心整理一个推理数据集，用于训练最先进的小型推理模型，使其在数学和代码推理基准测试中超越 “DeepSeek-R1-Distill-Qwen-32B” 和 “DeepSeek-R1-Distill-Qwen-7B” 模型。用其训练的OpenThinker-32B模型，在AIME24数学竞赛等基准测试中得分接近DeepSeek-R1-Distill-32B（仅用1/8数据量），验证了其有效性

主导机构：斯坦福、UC伯克利
源码：https://github.com/open-thoughts/open-thoughts
数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
模型：

OpenThinker-32B：https://huggingface.co/open-thoughts/OpenThinker-32B
OpenThinker-7B：https://huggingface.co/open-thoughts/OpenThinker-7B

LIMO

通过仅 817 条高质量训练样本激活大语言模型预训练阶段编码的数学与逻辑知识，在 AIME（57.1%）和 MATH（94.8%）等基准上实现显著性能提升，并验证了“少即是多”假设——复杂推理能力可通过少量精准设计的“认知模板”高效激发，而非依赖大规模数据堆叠。

主导机构：上海交大
源码： https://github.com/GAIR-NLP/LIMO 里面给出了完整的训练过程以及评估工具
论文：https://arxiv.org/abs/2502.03387
模型：https://huggingface.co/GAIR/LIMO
数据集：https://huggingface.co/datasets/GAIR/LIMO

DeepScaleR

提出了迭代式上下文扩展策略，用4500美元在1.5B小模型上复现了RL训练效果，超越o1-preview并开源了全流程代码

主导机构：UC伯克利
主页：Notion – The all-in-one workspace for your notes, tasks, wikis, and databases：https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
源码: https://github.com/agentica-project/deepscaler
模型：https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
数据：

huggingface 上的 DeepScaleR-Preview-Dataset: https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
github中的数据：https://github.com/agentica-project/deepscaler/tree/main/deepscaler/data

训练日志：https://wandb.ai/mluo/deepscaler-1.5b
团队主页：https://agentica-project.com/

Light-R1

尽管许多开源工作尝试在 72B 或更小规模的模型上复现 DeepSeek-R1，但没有一款模型能在高难度数学竞赛 AIME24 上达到与 DeepSeek-R1-Distill-Qwen-32B（72.6 分）相当的性能。但 Light-R1-32B 做到了这一点。该模型从 Qwen2.5-32B-Instruct 训练而来，在 AIME24 上取得了 76.6 分的成绩。

主导机构：奇虎360
源码：https://github.com/Qihoo360/Light-R1
模型地址：https://huggingface.co/qihoo360/Light-R1-32B
论文：Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond：https://arxiv.org/abs/2503.10460
数据集：

SFTData：https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
DPOData：https://huggingface.co/datasets/qihoo360/Light-R1-DPOData

评估：基于DeepScaleR的评估代码
训练工具：https://github.com/Qihoo360/360-LLaMA-Factory

DAPO

DAPO算法（Decoupled Clip and Dynamic sAmpling Policy Optimization）是字节跳动与清华大学联合研发的强化学习框架，核心创新包括：

Clip-Higher策略：解耦裁剪范围，缓解策略熵坍缩问题；
动态采样机制：根据奖励分布动态调整采样数量，提升效率；
Token级策略梯度损失：细化长思维链的关键步骤优化；
过载奖励调整：过滤冗余推理路径。

成果：基于Qwen2.5-32B模型，DAPO在AIME 2024测试中以50分超越DeepSeek GRPO（47分），训练步数减少50%，开源代码与数据集推动RL训练透明化。

基本信息：

主导机构：字节跳动与清华大学
主页：https://dapo-sia.github.io/
论文：DAPO: An Open-Source LLM Reinforcement Learning System at Scale：https://arxiv.org/abs/2503.14476
源码：https://github.com/bytedtsinghua-sia/dapo 目前只放了报告和论文
训练源码：https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
数据集：

训练集：https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
验证集：https://huggingface.co/datasets/BytedTsinghua-SIA/AIME-2024

之前360资深算法专家的这篇知乎文章介绍了其中的4个项目 https://zhuanlan.zhihu.com/p/24906803874 ，后来他们就有了自己的项目 Light-R1，这个项目可以说是目前为止DeepSeek-R1复现的集大成者。因为他们将之前项目的数据集成果，包括 OpenR1项目的 OpenR1-Math-220k, OpenThoughts项目的 OpenThoughts-114k，LIMO项目的 LIMO、S1项目的s1K-1.1以及 OpenMathInstruct-2、Omni-MATH、hendrycks_math等数据集，和截至2023年的AIME数据全部合并到了一起用R1做蒸馏，用DeepScaleR筛选。然后进行了去污染清洗，避免与常见推理能力测试基准，如AIME24/25、MATH-500和GPQA Diamond 的重复。合并后的数据集就是 Light-R1-SFTData 和 Light-R1-DPOData

Light-R1 使用这2个数据集，将不具备 COT长思维链的基础模型，通过课程式监督微调（Curriculum SFT）和直接偏好优化（DPO）蒸馏 DeepSeek-R1，得到的模型在 AIME24 和 AIME25 上超越了 DeepSeek-R1-Distill-Qwen-32B，并通过模型融合进一步提升了性能。

picture.image

从这个结果看， Light-R1 的分数超过了 DeepSeek-R1 官方的蒸馏模型，并超过了李飞飞的S1，UC伯克利的 OpenThoughts和上海交大的LIMO，成为32B尺寸的SOTA模型。

并且 Light-R1这个项目非常Open，数据集、训练工具、训练命令全部是开源的。且数据集是整合了前面几乎所有的知名复现项目的成果。可以说是饭都喂到嘴边了。于是我也尝试了一下，只修改了很少的配置和一点点儿代码适配，就能在8卡H20上跑起来了：

picture.image

这里必须感谢下老周和 Light-R1团队，Good Job！

Light-R1 最后一个训练阶段是用的DPO，并没有用R1使用的 GRPO方法，反而绕开了一个坑。这个坑是字节复现过程发现的。字节在复现R1的过程中，发现按公开的GRPO方法达不到AIME那个分数，于是一通研究和优化，整出了一个更好的算法DAPO，反超了DeepSeek-R1一丢丢，也发了论文，开源了代码。直接补上了社区GRPO训练的短板。

到此复现过程算比较完满了，从数据集到训练方法都完备了，只要有算力和时间，以及自己的专有数据，就可以打造自己专业领域的SOTA级垂直大模型了！