挺好的一个工作,帮大家梳理了r1发布以来,开源社区的努力,包括数据、算法、心得。 100 DAYS AFTER DEEPSEEK-R1: A SURVEY ON REPLICATION STUDIES AND MORE DIRECTIONS FOR REASONING LANGUAGE MODELS
SFT 数据
很多研究基于 DeepSeek-R1 生成的推理示例构建了自己的数据集,常见的有下面这些,数据量,领域分布如下:
这些数据的构造方式一般都是 搜集->筛选->强调难度和多样性->答案和推理过程必须靠谱
汇总了,这些数据级的长度分布。长一点的代表包含了更多复杂问题,自然也就需要更长的推理过程。
有一些数据集还混了常见的推理测试题,比如OpenThoughts、Open-R1、Bespoke Stratos 等等。
数据集间的交叉引用图如下,避免后续大家使用重复用了一份数据。
数据集训练出来的效果
RL
有这么多数据集可以用了。
复现研究,也出来了一些RL的变种,论文里边也梳理了。 还有奖励设计,基本上就是长度、格式、准确率。
训练样本怎么选?
- 循序渐进法 -> 逐渐增加任务难度,让模型更有效地利用那些难题。
- 优中选优法 -> 如,Light-R1 采用了一种双向权重裁剪机制,限制极端值的影响。
- 动态调整法 -> DAPO 和 Skywork-OR1 都采用了动态采样,它们会过滤掉那些“advantage”为零(即模型生成的回答没有明显好坏之分)的样本组,来提高采样效率和训练稳定性。
大家复现出来的结果:
关键发现与心得
数据 :
训练数据的数量和多样性非常关键、难度要适中、数据得干净、去重和去污染、根据数据难度循序渐进地学
算法 :
算法上目前大家主要还是用 REINFORCE、PPO、GRPO 这些算法或者它们的改进版。有的说ppo好。有的说REINFORCE++比grpo好。有的说grpo也不是一无是处。
GRPO 及其变体也并非一无是处。Light-R1 说他也还行。
参数量
在参数量从 15 亿到 320 亿的各种大小的模型上都管用。
模型类型
在不同类型的模型中都有效,包括base model 和 long CoT models,比如 R1 蒸馏模型及其微调变体
上下文长度
逐步增加回答长度限制、最大响应长度设置(收敛基本在1w以内)、被截断的回答还是可以算adavantage,不用mask
KL 正则化可能并非必需。
最后还有一些扩展,展望未来的。
可以看看原文。 地址:https://arxiv.org/pdf/2505.00551