一篇对deepseek r1 论文补漏的文章,做了很多额外的实验,内容很到位,标题:Understanding R1-Zero-Like Training: A Critical Perspective。
论文地址:https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf
基础模型分析
验证模板对几种基础模型的影响
观察结果如下:
- 模板对模型是回答question,还是补全question很重要
- 测试的几个基础模型在RL之前已经具备数学解题能力
- Llama和DeepSeek模型使用R1模板时回答能力显著提升
- DeepSeek-V3-Base在无模板条件下回答率最低,说明它是相对纯粹的基础模型
特殊的Qwen模型
上面的实验发现,Qwen在不使用模板可以回答很多问题了。
所以进行了一下具体评测
Qwen2.5-Math不使用任何模板比few-shot的效果更好。
这可能是,这个模型在预训练阶段使用了 问题-答案 的连接文本训练
这也意味着,使用Qwen 2.5复现R1-Zero可能比较特别,因为基础模型不需要模板已经跟SFT模型类似了。
aha moment分析
观察发现, R1-Zero训练的基础的v3模型,已经可以生成一些 aha moment的结果了。
并且,有这种自我反思的结果跟准确率之间没有明显相关性。
甚至,没有反思的结果比有反思的准确率更高。
自反思行为与模型准确率之间没有明显相关性 实际上,没有自反思的响应通常比有自反思的响应准确率更高
RL分析
GRPO 偏差分析
R1-zero论文中,提到,响应长度随着训练会出现增长的趋势。
分析目标函数,存在2种偏差
- 响应级别长度偏差:对于错误答案会偏好更长的响应
- 问题级别难度偏差:由标准差归一化引起
并且许多开源PPO实现中也存在类似的长度偏差
Dr. GRPO
移除GRPO中的长度归一化和标准差归一化项,实验比较原始GRPO和改进的Dr. GRPO
Dr. GRPO能有效缓解优化偏差,可以防止响应长度无限增长,并且可以显著减少错误响应的长度,缓解过度思考问题。效果没啥太大差别。
模板与问题集覆盖范围的交互影响
研究了不同模板和问题集覆盖范围如何影响RL训练
不同的模板,只决定了初始的分值,RL到底,结果基本相当。
模型与模板不匹配时,数据的全面很重要。
模型与模板匹配时,即使数据量少,域外数据也可以诱导出推理能力。
领域特定预训练
测试了R1-Zero类训练在数学推理能力原本较弱的基础模型上的效果,使用Llama-3.2-3B及其数学预训练变体
-
数学领域的预训练可以显著提高RL的上限
-
连续预训练后的Llama模型在RL后表现大幅提升
-
Dr. GRPO能有效缓解GRPO导致的响应长度和回报同时增长现象。