deepseek r1 开源100天,开源社区的所有努力梳理~

大模型向量数据库算法

挺好的一个工作,帮大家梳理了r1发布以来,开源社区的努力,包括数据、算法、心得。 100 DAYS AFTER DEEPSEEK-R1: A SURVEY ON REPLICATION STUDIES AND MORE DIRECTIONS FOR REASONING LANGUAGE MODELS

SFT 数据

很多研究基于 DeepSeek-R1 生成的推理示例构建了自己的数据集,常见的有下面这些,数据量,领域分布如下:

picture.image

这些数据的构造方式一般都是 搜集->筛选->强调难度和多样性->答案和推理过程必须靠谱

汇总了,这些数据级的长度分布。长一点的代表包含了更多复杂问题,自然也就需要更长的推理过程。

picture.image

有一些数据集还混了常见的推理测试题,比如OpenThoughts、Open-R1、Bespoke Stratos 等等。

数据集间的交叉引用图如下,避免后续大家使用重复用了一份数据。

picture.image

数据集训练出来的效果

picture.image

RL

有这么多数据集可以用了。

picture.image

复现研究,也出来了一些RL的变种,论文里边也梳理了。 还有奖励设计,基本上就是长度、格式、准确率。

picture.image

训练样本怎么选?

  1. 循序渐进法 -> 逐渐增加任务难度,让模型更有效地利用那些难题。
  2. 优中选优法 -> 如,Light-R1 采用了一种双向权重裁剪机制,限制极端值的影响。
  3. 动态调整法 -> DAPO 和 Skywork-OR1 都采用了动态采样,它们会过滤掉那些“advantage”为零(即模型生成的回答没有明显好坏之分)的样本组,来提高采样效率和训练稳定性。

大家复现出来的结果:

picture.image

关键发现与心得

数据

训练数据的数量和多样性非常关键、难度要适中、数据得干净、去重和去污染、根据数据难度循序渐进地学

算法

算法上目前大家主要还是用 REINFORCE、PPO、GRPO 这些算法或者它们的改进版。有的说ppo好。有的说REINFORCE++比grpo好。有的说grpo也不是一无是处。

GRPO 及其变体也并非一无是处。Light-R1 说他也还行。

参数量

在参数量从 15 亿到 320 亿的各种大小的模型上都管用。

模型类型

在不同类型的模型中都有效,包括base model 和 long CoT models,比如 R1 蒸馏模型及其微调变体

上下文长度

逐步增加回答长度限制、最大响应长度设置(收敛基本在1w以内)、被截断的回答还是可以算adavantage,不用mask

KL 正则化可能并非必需。

最后还有一些扩展,展望未来的。

可以看看原文。 地址:https://arxiv.org/pdf/2505.00551

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何利用云原生构建 AIGC 业务基石
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。而 AIGC 业务的部署也面临着异构资源管理、机器学习流程管理等问题,本次分享将和大家分享如何使用云原生技术构建 AIGC 业务。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论