SABER(Switchable and Balanced Training for Efficient LLM Reasoning)是由BiliBili大模型团队提出的RL训练范式,旨在解决大语言模型(LLMs)推理时存在的 “过度思考” 问题,实现 用户可控的token预算推理 ;它先通过基础模型分析训练样本的推理令牌使用量,将样本分配到不同预算层级,再结合系统提示和长度感知奖励进行微调,同时融入无思考(NoThink)样本确保模型在关闭显式推理时仍可靠;该框架支持 NoThink、FastThink、CoreThink、DeepThink 四种离散推理模式 ,在数学推理(MATH、GSM8K)、代码生成(MBPP)和逻辑推理(LiveBench-Reasoning)任务中表现优异,如 1.5B 模型的 SABER-FastThink 在 MATH 基准上推理长度减少 65.4% 且准确率提升 3.6%,还具备良好的跨规模(1.5B 到 7B 模型)和跨领域泛化能力,且无需监督微调(SFT)预热即可直接通过强化学习优化。
一、框架背景与问题提出
当前大语言模型(LLMs)借助链思推理(Chain-of-Thought)在复杂任务上准确率显著提升,但存在两大核心问题:
-
过度思考(Overthinking):模型对简单问题(如 “1+1=?”)也生成冗长推理,导致推理令牌过多,推理成本增加、延迟升高,例如部分模型回答简单加法会消耗数十倍必要令牌。
-
推理行为僵化:现有方法(如指令微调、长度控制)多采用刚性约束或任务无关启发式,无法根据问题难度动态调整推理长度,也不能让用户主动控制推理过程。
二、SABER 框架核心设计
- 思考收集与预算分类(核心环节)
- 数据预处理逻辑:先让基础模型在全训练集上推理,记录其在标记符与之间生成的推理令牌数(t_base),再按令牌数将样本分为三个难度层级并分配目标预算
-
模式提示模板:为不同推理模式设计专属系统提示,明确推理令牌约束,例如 FastThink/CoreThink 提示需包含 “推理过程严格低于 XXX 令牌”,NoThink 提示需包含 “直接输出,无需内部推理”。
- 稳定模式转换的保障机制
-
基于准确率的训练数据划分:筛选基础模型回答正确的样本(约 60%),对其执行预算降级(按上述规则分配更低目标预算),使其接受长度惩罚,学习模式切换。基础模型回答错误的样本(约 40%):一半保留原预算(减少长度惩罚暴露),另一半无目标预算(允许自由推理),避免难样本因惩罚导致性能崩溃。
-
下限比例约束:为防止模型 “过度缩短推理” 以规避惩罚(即 “奖励黑客” 行为),强制生成的推理令牌数(t_gen)满足 0.2·t_base ≤ t_gen ≤ 1.2·t_base,确保推理内容充足。
- 用户可控的 NoThink 模式设计
-
需求场景:真实应用中用户可能需要无推理的直接答案,但直接关闭 LLMs 推理功能会导致准确率骤降(如基础模型NoThink模式在 MATH 准确率仅 65.5%)。
-
解决方案:在训练集中加入人工构造的 NoThink 样本,每个样本添加最小推理块,明确指令模型跳过推理环节直接输出答案;仅需少量 NoThink 样本(与核心样本重叠),即可让模型在该模式下保持高准确率(1.5B SABER 的 NoThink 模式在 MATH 达 76.9%)。
- 强化学习(RL)优化方案
- 无SFT预热:区别于多数需先进行监督微调(SFT)的RL方法,SABER 可直接从蒸馏基础模型开始 RL 优化,简化流程并降低计算开销。
- 优化算法:采用Group Relative Policy Optimization(GRPO) 算法,通过结构化奖励信号微调模型(GRPO 目标函数详见文档公式)。
- 复合奖励函数:奖励由四部分组成,确保推理合规、准确且符合预算,具体如下:
- 最后
具体细节可以查阅论文,Paper链接:https://arxiv.org/abs/2508.10026