当前改进小语言模型的默认做法是堆砌技术:多阶段训练、动态超参调整、课程学习、长度惩罚。整个流程越来越像精密仪器,需要专家团队小心翼翼维护。
但来自清华大学的JustRL研究团队的新研究《JustRL: Scaling a 1.5B LLM with a Simple RL Recipe》反其道而行。他们剥离了所有非必要组件,没有渐进式上下文扩展,没有自适应温度调度,没有训练中期的参考模型重置,没有长度惩罚。只保留基本的GRPO方法和固定超参数。
简单方法的惊人表现
结果出人意料。JustRL-DeepSeek-1.5B在九个数学基准测试中平均准确率达到54.9%,JustRL-Nemotron-1.5B达到64.3%。最关键的是,计算量比复杂方法减少一半。
具体数据更能说明问题。在AIME 2024测试中,JustRL-DeepSeek从基础模型的28%提升至58%,整个过程历经4000多步,曲线平稳上升。JustRL-Nemotron从基础的58.75%提升到69.69%,同样表现出色。
更令人惊讶的是训练过程本身的稳定性。模型性能平稳提升,没有出现通常需要复杂干预的崩溃或平台期。当研究人员尝试加入"标准技巧"如显式长度惩罚时,性能反而下降。模型在没有惩罚的情况下自然将响应从8000个token压缩到4000-5000个。
复杂技术的演进史
论文详细梳理了过去一年小模型RL训练技术的演进。从早期的STILL探索超参数调优,到DeepScaleR引入三阶段训练(8K→16K→24K上下文长度),再到FastCuRL的五阶段交替压缩扩展,ProRL的八阶段计划长度惩罚,每个工作都在前人基础上增加更多技术组件。
BroRL甚至将每个样本的rollout数量增加到数百个,试图穷尽搜索解空间。POLARIS采用动态数据过滤配合自适应温度调整。QuestA创新性地引入课程学习,用部分思维链解决方案作为提示来增强问题。
这种技术堆砌的趋势反映了一个一直以来的认知:复杂性是稳定性和性能的必要条件。但JustRL的结果挑战了这一思维。
训练动态的深度分析
研究团队详细分析了JustRL-DeepSeek-1.5B的训练动态,追踪了三个关键指标:
策略熵 保持在1.2-1.4之间自然振荡,没有出现探索崩溃或过早收敛。这表明简单的"clip higher"技术足以维持大规模RL的稳定性。
平均奖励 从-0.6平稳上升到+0.4,曲线虽有噪声但趋势明确向上。没有出现需要干预的长期平台期或突然下降。
响应长度 从初始的8000个token自然压缩到4000-5000个token,并维持在这个范围。这种有机压缩可能比显式惩罚更鲁棒,后者可能创造出模型学会欺骗的对抗压力。
负面消融实验的启示
团队进行的消融实验揭示了一个反直觉现象。当他们向基础配方添加"标准技巧"时:
添加长度惩罚后,AIME 2024性能从55%下降到50%,策略熵从健康的1.2-1.4崩溃到0.5-0.6。显式惩罚似乎创造了与学习目标冲突的压力,迫使模型在探索有效方案之前过早收敛到更短响应。
进一步添加鲁棒验证器后,性能继续下降到45%。研究人员提出两种解释:更严格的基础验证器通过减少"完美"分数创造了更丰富的学习信号谱,而鲁棒验证器的宽松性提供的指导不够细致。或者,严格验证器对精确格式的依赖可能促使模型发展更鲁棒的内部计算,这种激励在验证器外部纠错时会丢失。
计算效率的对比
数据对比更加直观:
- ProRL-V2使用2.8×10^8个token的训练预算,采用多阶段动态采样
- BroRL需要6.8×10^8个token,通过大幅增加rollout数量
- JustRL-DeepSeek仅使用1.4×10^8个token,单阶段固定超参数
同样的超参数配置在两个不同的模型上都有效,无需针对每个模型调优。这种可迁移性暗示了方法的真正鲁棒性,而不是针对单一模型的幸运优化。
小结
简化流程可以提升迭代速度。多阶段训练在论文里看起来很漂亮,但生产环境出问题时,工程师需要花大量的时间填坑。
同时,研究团队并不主张简单性是教条,他们承认在极端计算约束下、遇到特定失败模式时、推动超越当前性能上限时,或在奖励信号更嘈杂的领域中,额外技术可能很有价值。但他们提出了一个方法论转变:先建立简单基线,然后只在简单、稳健的基线明显失败时才增加复杂性。
论文:https://arxiv.org/abs/2512.16649
代码:https://github.com/thunlp/JustRL
模型:https://huggingface.co/collections/hbx/justrl
关注公众号回复“进群”入群讨论。
