BiliBili大模型团队的RL实践（一） - 文章 - 开发者社区

SABER（Switchable and Balanced Training for Efficient LLM Reasoning）是由BiliBili大模型团队提出的RL训练范式，旨在解决大语言模型（LLMs）推理时存在的 “过度思考” 问题，实现 用户可控的token预算推理 ；它先通过基础模型分析训练样本的推理令牌使用量，将样本分配到不同预算层级，再结合系统提示和长度感知奖励进行微调，同时融入无思考（NoThink）样本确保模型在关闭显式推理时仍可靠；该框架支持 NoThink、FastThink、CoreThink、DeepThink 四种离散推理模式 ，在数学推理（MATH、GSM8K）、代码生成（MBPP）和逻辑推理（LiveBench-Reasoning）任务中表现优异，如 1.5B 模型的 SABER-FastThink 在 MATH 基准上推理长度减少 65.4% 且准确率提升 3.6%，还具备良好的跨规模（1.5B 到 7B 模型）和跨领域泛化能力，且无需监督微调（SFT）预热即可直接通过强化学习优化。

一、框架背景与问题提出

当前大语言模型（LLMs）借助链思推理（Chain-of-Thought）在复杂任务上准确率显著提升，但存在两大核心问题：

过度思考（Overthinking）：模型对简单问题（如 “1+1=？”）也生成冗长推理，导致推理令牌过多，推理成本增加、延迟升高，例如部分模型回答简单加法会消耗数十倍必要令牌。
推理行为僵化：现有方法（如指令微调、长度控制）多采用刚性约束或任务无关启发式，无法根据问题难度动态调整推理长度，也不能让用户主动控制推理过程。

二、SABER 框架核心设计

思考收集与预算分类（核心环节）

数据预处理逻辑：先让基础模型在全训练集上推理，记录其在标记符与之间生成的推理令牌数（t_base），再按令牌数将样本分为三个难度层级并分配目标预算

picture.image

模式提示模板：为不同推理模式设计专属系统提示，明确推理令牌约束，例如 FastThink/CoreThink 提示需包含 “推理过程严格低于 XXX 令牌”，NoThink 提示需包含 “直接输出，无需内部推理”。

稳定模式转换的保障机制

基于准确率的训练数据划分：筛选基础模型回答正确的样本（约 60%），对其执行预算降级（按上述规则分配更低目标预算），使其接受长度惩罚，学习模式切换。基础模型回答错误的样本（约 40%）：一半保留原预算（减少长度惩罚暴露），另一半无目标预算（允许自由推理），避免难样本因惩罚导致性能崩溃。
下限比例约束：为防止模型 “过度缩短推理” 以规避惩罚（即 “奖励黑客” 行为），强制生成的推理令牌数（t_gen）满足 0.2·t_base ≤ t_gen ≤ 1.2·t_base，确保推理内容充足。

用户可控的 NoThink 模式设计

需求场景：真实应用中用户可能需要无推理的直接答案，但直接关闭 LLMs 推理功能会导致准确率骤降（如基础模型NoThink模式在 MATH 准确率仅 65.5%）。
解决方案：在训练集中加入人工构造的 NoThink 样本，每个样本添加最小推理块，明确指令模型跳过推理环节直接输出答案；仅需少量 NoThink 样本（与核心样本重叠），即可让模型在该模式下保持高准确率（1.5B SABER 的 NoThink 模式在 MATH 达 76.9%）。

强化学习（RL）优化方案

无SFT预热：区别于多数需先进行监督微调（SFT）的RL方法，SABER 可直接从蒸馏基础模型开始 RL 优化，简化流程并降低计算开销。
优化算法：采用Group Relative Policy Optimization（GRPO）算法，通过结构化奖励信号微调模型（GRPO 目标函数详见文档公式）。
复合奖励函数：奖励由四部分组成，确保推理合规、准确且符合预算，具体如下：

picture.image

最后

具体细节可以查阅论文，Paper链接：https://arxiv.org/abs/2508.10026