deepseek-r1,论文番外篇~

大模型向量数据库数据中台

一篇对deepseek r1 论文补漏的文章,做了很多额外的实验,内容很到位,标题:Understanding R1-Zero-Like Training: A Critical Perspective。

论文地址:https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基础模型分析

验证模板对几种基础模型的影响

picture.image

观察结果如下:

picture.image

  • 模板对模型是回答question,还是补全question很重要
  • 测试的几个基础模型在RL之前已经具备数学解题能力
  • Llama和DeepSeek模型使用R1模板时回答能力显著提升
  • DeepSeek-V3-Base在无模板条件下回答率最低,说明它是相对纯粹的基础模型

特殊的Qwen模型

上面的实验发现,Qwen在不使用模板可以回答很多问题了。

所以进行了一下具体评测

picture.image

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

这可能是,这个模型在预训练阶段使用了 问题-答案 的连接文本训练

这也意味着,使用Qwen 2.5复现R1-Zero可能比较特别,因为基础模型不需要模板已经跟SFT模型类似了。

aha moment分析

picture.image

观察发现, R1-Zero训练的基础的v3模型,已经可以生成一些 aha moment的结果了。

并且,有这种自我反思的结果跟准确率之间没有明显相关性。

甚至,没有反思的结果比有反思的准确率更高。

自反思行为与模型准确率之间没有明显相关性 实际上,没有自反思的响应通常比有自反思的响应准确率更高

RL分析

GRPO 偏差分析

R1-zero论文中,提到,响应长度随着训练会出现增长的趋势。

picture.image

分析目标函数,存在2种偏差

  • 响应级别长度偏差:对于错误答案会偏好更长的响应
  • 问题级别难度偏差:由标准差归一化引起

并且许多开源PPO实现中也存在类似的长度偏差

picture.image

Dr. GRPO

移除GRPO中的长度归一化和标准差归一化项,实验比较原始GRPO和改进的Dr. GRPO

picture.image

Dr. GRPO能有效缓解优化偏差,可以防止响应长度无限增长,并且可以显著减少错误响应的长度,缓解过度思考问题。效果没啥太大差别。

模板与问题集覆盖范围的交互影响

研究了不同模板和问题集覆盖范围如何影响RL训练

picture.image

picture.image

不同的模板,只决定了初始的分值,RL到底,结果基本相当。

模型与模板不匹配时,数据的全面很重要。

模型与模板匹配时,即使数据量少,域外数据也可以诱导出推理能力。

领域特定预训练

测试了R1-Zero类训练在数学推理能力原本较弱的基础模型上的效果,使用Llama-3.2-3B及其数学预训练变体

picture.image

  • 数学领域的预训练可以显著提高RL的上限

  • 连续预训练后的Llama模型在RL后表现大幅提升

  • Dr. GRPO能有效缓解GRPO导致的响应长度和回报同时增长现象。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论