RL训练的反直觉发现：简单的力量 - 文章 - 开发者社区

当前改进小语言模型的默认做法是堆砌技术：多阶段训练、动态超参调整、课程学习、长度惩罚。整个流程越来越像精密仪器，需要专家团队小心翼翼维护。

但来自清华大学的JustRL研究团队的新研究《JustRL: Scaling a 1.5B LLM with a Simple RL Recipe》反其道而行。他们剥离了所有非必要组件，没有渐进式上下文扩展，没有自适应温度调度，没有训练中期的参考模型重置，没有长度惩罚。只保留基本的GRPO方法和固定超参数。

picture.image

简单方法的惊人表现

结果出人意料。JustRL-DeepSeek-1.5B在九个数学基准测试中平均准确率达到54.9%，JustRL-Nemotron-1.5B达到64.3%。最关键的是，计算量比复杂方法减少一半。

picture.image

具体数据更能说明问题。在AIME 2024测试中，JustRL-DeepSeek从基础模型的28%提升至58%，整个过程历经4000多步，曲线平稳上升。JustRL-Nemotron从基础的58.75%提升到69.69%，同样表现出色。

更令人惊讶的是训练过程本身的稳定性。模型性能平稳提升，没有出现通常需要复杂干预的崩溃或平台期。当研究人员尝试加入"标准技巧"如显式长度惩罚时，性能反而下降。模型在没有惩罚的情况下自然将响应从8000个token压缩到4000-5000个。

复杂技术的演进史

论文详细梳理了过去一年小模型RL训练技术的演进。从早期的STILL探索超参数调优，到DeepScaleR引入三阶段训练（8K→16K→24K上下文长度），再到FastCuRL的五阶段交替压缩扩展，ProRL的八阶段计划长度惩罚，每个工作都在前人基础上增加更多技术组件。

BroRL甚至将每个样本的rollout数量增加到数百个，试图穷尽搜索解空间。POLARIS采用动态数据过滤配合自适应温度调整。QuestA创新性地引入课程学习，用部分思维链解决方案作为提示来增强问题。

这种技术堆砌的趋势反映了一个一直以来的认知：复杂性是稳定性和性能的必要条件。但JustRL的结果挑战了这一思维。

训练动态的深度分析

研究团队详细分析了JustRL-DeepSeek-1.5B的训练动态，追踪了三个关键指标：

picture.image

策略熵 保持在1.2-1.4之间自然振荡，没有出现探索崩溃或过早收敛。这表明简单的"clip higher"技术足以维持大规模RL的稳定性。

平均奖励 从-0.6平稳上升到+0.4，曲线虽有噪声但趋势明确向上。没有出现需要干预的长期平台期或突然下降。

响应长度 从初始的8000个token自然压缩到4000-5000个token，并维持在这个范围。这种有机压缩可能比显式惩罚更鲁棒，后者可能创造出模型学会欺骗的对抗压力。

负面消融实验的启示

团队进行的消融实验揭示了一个反直觉现象。当他们向基础配方添加"标准技巧"时：

picture.image

添加长度惩罚后，AIME 2024性能从55%下降到50%，策略熵从健康的1.2-1.4崩溃到0.5-0.6。显式惩罚似乎创造了与学习目标冲突的压力，迫使模型在探索有效方案之前过早收敛到更短响应。

进一步添加鲁棒验证器后，性能继续下降到45%。研究人员提出两种解释：更严格的基础验证器通过减少"完美"分数创造了更丰富的学习信号谱，而鲁棒验证器的宽松性提供的指导不够细致。或者，严格验证器对精确格式的依赖可能促使模型发展更鲁棒的内部计算，这种激励在验证器外部纠错时会丢失。

计算效率的对比

picture.image

数据对比更加直观：

ProRL-V2使用2.8×10^8个token的训练预算，采用多阶段动态采样
BroRL需要6.8×10^8个token，通过大幅增加rollout数量
JustRL-DeepSeek仅使用1.4×10^8个token，单阶段固定超参数

同样的超参数配置在两个不同的模型上都有效，无需针对每个模型调优。这种可迁移性暗示了方法的真正鲁棒性，而不是针对单一模型的幸运优化。

小结

简化流程可以提升迭代速度。多阶段训练在论文里看起来很漂亮，但生产环境出问题时，工程师需要花大量的时间填坑。

同时，研究团队并不主张简单性是教条，他们承认在极端计算约束下、遇到特定失败模式时、推动超越当前性能上限时，或在奖励信号更嘈杂的领域中，额外技术可能很有价值。但他们提出了一个方法论转变：先建立简单基线，然后只在简单、稳健的基线明显失败时才增加复杂性。

论文：https://arxiv.org/abs/2512.16649

代码：https://github.com/thunlp/JustRL

模型：https://huggingface.co/collections/hbx/justrl

关注公众号回复“进群”入群讨论。