deepseek-r1，论文番外篇~ - 文章 - 开发者社区

一篇对deepseek r1 论文补漏的文章，做了很多额外的实验，内容很到位，标题：Understanding R1-Zero-Like Training: A Critical Perspective。

基础模型分析

验证模板对几种基础模型的影响

picture.image

观察结果如下：

picture.image

特殊的Qwen模型

上面的实验发现，Qwen在不使用模板可以回答很多问题了。

所以进行了一下具体评测

picture.image

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

这可能是，这个模型在预训练阶段使用了问题-答案的连接文本训练

这也意味着，使用Qwen 2.5复现R1-Zero可能比较特别，因为基础模型不需要模板已经跟SFT模型类似了。

picture.image

观察发现， R1-Zero训练的基础的v3模型，已经可以生成一些 aha moment的结果了。

并且，有这种自我反思的结果跟准确率之间没有明显相关性。

甚至，没有反思的结果比有反思的准确率更高。

自反思行为与模型准确率之间没有明显相关性实际上，没有自反思的响应通常比有自反思的响应准确率更高

GRPO 偏差分析

R1-zero论文中，提到，响应长度随着训练会出现增长的趋势。

picture.image

分析目标函数，存在2种偏差

并且许多开源PPO实现中也存在类似的长度偏差

picture.image

Dr. GRPO

移除GRPO中的长度归一化和标准差归一化项，实验比较原始GRPO和改进的Dr. GRPO

picture.image

Dr. GRPO能有效缓解优化偏差，可以防止响应长度无限增长，并且可以显著减少错误响应的长度，缓解过度思考问题。效果没啥太大差别。

模板与问题集覆盖范围的交互影响

研究了不同模板和问题集覆盖范围如何影响RL训练

picture.image

不同的模板，只决定了初始的分值，RL到底，结果基本相当。

模型与模板不匹配时，数据的全面很重要。

模型与模板匹配时，即使数据量少，域外数据也可以诱导出推理能力。

领域特定预训练

测试了R1-Zero类训练在数学推理能力原本较弱的基础模型上的效果，使用Llama-3.2-3B及其数学预训练变体

picture.image