BiliBili大模型团队的RL实践(一)

大模型机器学习算法

SABER(Switchable and Balanced Training for Efficient LLM Reasoning)是由BiliBili大模型团队提出的RL训练范式,旨在解决大语言模型(LLMs)推理时存在的 “过度思考” 问题,实现 用户可控的token预算推理 ;它先通过基础模型分析训练样本的推理令牌使用量,将样本分配到不同预算层级,再结合系统提示和长度感知奖励进行微调,同时融入无思考(NoThink)样本确保模型在关闭显式推理时仍可靠;该框架支持 NoThink、FastThink、CoreThink、DeepThink 四种离散推理模式 ,在数学推理(MATH、GSM8K)、代码生成(MBPP)和逻辑推理(LiveBench-Reasoning)任务中表现优异,如 1.5B 模型的 SABER-FastThink 在 MATH 基准上推理长度减少 65.4% 且准确率提升 3.6%,还具备良好的跨规模(1.5B 到 7B 模型)和跨领域泛化能力,且无需监督微调(SFT)预热即可直接通过强化学习优化。

一、框架背景与问题提出

当前大语言模型(LLMs)借助链思推理(Chain-of-Thought)在复杂任务上准确率显著提升,但存在两大核心问题:

  • 过度思考(Overthinking):模型对简单问题(如 “1+1=?”)也生成冗长推理,导致推理令牌过多,推理成本增加、延迟升高,例如部分模型回答简单加法会消耗数十倍必要令牌。

  • 推理行为僵化:现有方法(如指令微调、长度控制)多采用刚性约束或任务无关启发式,无法根据问题难度动态调整推理长度,也不能让用户主动控制推理过程。

二、SABER 框架核心设计

  1. 思考收集与预算分类(核心环节)
  • 数据预处理逻辑:先让基础模型在全训练集上推理,记录其在标记符与之间生成的推理令牌数(t_base),再按令牌数将样本分为三个难度层级并分配目标预算

picture.image

  • 模式提示模板:为不同推理模式设计专属系统提示,明确推理令牌约束,例如 FastThink/CoreThink 提示需包含 “推理过程严格低于 XXX 令牌”,NoThink 提示需包含 “直接输出,无需内部推理”。

  1. 稳定模式转换的保障机制
  • 基于准确率的训练数据划分:筛选基础模型回答正确的样本(约 60%),对其执行预算降级(按上述规则分配更低目标预算),使其接受长度惩罚,学习模式切换。基础模型回答错误的样本(约 40%):一半保留原预算(减少长度惩罚暴露),另一半无目标预算(允许自由推理),避免难样本因惩罚导致性能崩溃。

  • 下限比例约束:为防止模型 “过度缩短推理” 以规避惩罚(即 “奖励黑客” 行为),强制生成的推理令牌数(t_gen)满足 0.2·t_base ≤ t_gen ≤ 1.2·t_base,确保推理内容充足。

  1. 用户可控的 NoThink 模式设计
  • 需求场景:真实应用中用户可能需要无推理的直接答案,但直接关闭 LLMs 推理功能会导致准确率骤降(如基础模型NoThink模式在 MATH 准确率仅 65.5%)。

  • 解决方案:在训练集中加入人工构造的 NoThink 样本,每个样本添加最小推理块,明确指令模型跳过推理环节直接输出答案;仅需少量 NoThink 样本(与核心样本重叠),即可让模型在该模式下保持高准确率(1.5B SABER 的 NoThink 模式在 MATH 达 76.9%)。

  1. 强化学习(RL)优化方案
  • 无SFT预热:区别于多数需先进行监督微调(SFT)的RL方法,SABER 可直接从蒸馏基础模型开始 RL 优化,简化流程并降低计算开销。
  • 优化算法:采用Group Relative Policy Optimization(GRPO) 算法,通过结构化奖励信号微调模型(GRPO 目标函数详见文档公式)。
  • 复合奖励函数:奖励由四部分组成,确保推理合规、准确且符合预算,具体如下:

picture.image

  1. 最后

具体细节可以查阅论文,Paper链接:https://arxiv.org/abs/2508.10026

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论