GSPO优势:
- GSPO 具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升;
- GSPO 能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的 RL 训练稳定性问题;
- 由于在序列层面执行优化,GSPO 原则上对精度容忍度更高,具有简化 RL 基础设施的诱人前景。
GSPO 表现出比 GRPO 显著更高的训练效率,即在同等计算开销下能够取得更优的性能。
GSPO 所裁剪的 token 比例比 GRPO 要高上两个数量级(如下图所示),但却具有更高的训练效率
引言
考虑用于大型语言模型强化学习的组序列策略优化(GSPO)目标。对于查询
,令
表示从旧策略中采样的
个响应。GSPO目标定义为
其中重要性比率
在序列级别计算如下:
归一化优势定义为
GSPO目标的有效次梯度的最终表达式为:
其中
是单个响应损失的有效次梯度,由下式给出:
是捕捉裁剪效应的指示函数:
当更新未被裁剪时,该指示函数为1,否则为0。
证明概述
GSPO目标函数梯度的推导通过以下逻辑步骤进行:
- 次梯度与期望的互换 :GSPO目标
是对从与策略参数
无关的分布中采样的数据的期望。由于“min”和“clip”操作,内部损失函数不可微。我们使用次梯度微积分,并通过调用次梯度的控制收敛定理来证明次梯度与期望算子的互换是合理的。 2. 严格证明 :为了严格应用该定理,首先证明一个界定标量损失函数次梯度的关键引理。
- 引理(次梯度界) :令
。对于任何
和任何次梯度元素
,有界
成立。我们通过对
的符号进行案例分析来提供该引理的完整证明。
- 控制函数 :利用该引理和次梯度链式法则,我们构造一个控制函数
,用于界定全损失项的次梯度集中任何元素的范数。
- 可积性证明 :我们在一组标准的形式化假设下证明
是可积的,从而验证次梯度与期望的互换。
- 特定次梯度的推导 :在证明互换合理性后,我们计算内部损失项
的有效次梯度。
- 完整案例分析 :我们基于优势
的符号进行完整的案例分析:
、
和
。
- 边界处的次梯度 :在不可微点,我们从次梯度集中选择一个特定的有效元素(单侧导数),这是优化算法的标准且理论上合理的选择。
- 指示函数 :案例分析的结果用指示函数
简洁表示,当梯度通过时为1,当梯度被裁剪或
时为0。
- 最终组合 :我们推导重要性比率的梯度
,并将所有组件代回主表达式,得到
的最终形式。
详细证明
GSPO目标函数定义为
令
表示从与
无关的数据生成分布
中采样的样本。令
,其中
。目标为
。
次梯度与期望互换的证明
由于“min”和“clip”操作,函数
不可微。因此我们使用次梯度。为了计算目标的梯度,我们必须证明次梯度与期望算子的互换是合理的:
其中
表示次梯度集。次梯度的控制收敛定理允许这种互换,如果满足以下两个条件:
- 对于每个样本
,函数
在
上是局部利普希茨的。 2. 存在一个可积函数
,满足
,且控制每个次梯度:对于所有
和所有
,有
。
条件1:局部利普希茨连续性
在策略平滑性的标准假设下,
是可微函数的组合,因此是局部利普希茨的。“clip”和“min”函数是全局利普希茨的(常数为1)。因此它们的组合是局部利普希茨的,所以
满足条件1。
条件2:控制可积函数
我们首先建立一个关键引理:
引理:标量损失的次梯度界
令
。对于任何
和任何
,有
。
证明: (概述)我们根据
的符号进行分类。
情况1:
。令
。则
且
,因此
。
情况2:
。对称的论证可得
。
情况3:
,因此
。
利用该引理和标准界(例如
,
),我们构造
它控制
,并且在通常的有限重要性比率假设下是可积的,从而确立条件2。
单样本次梯度的推导
我们通过对
的案例分析,从
中计算一个有效选择。
情况
情况
情况 梯度为零。
这三个分支组合为
其中
重要性比率的梯度
最终梯度
将
代入
并对
求平均,得到
Got help from Gemini 2.5 Pro, o3 and Opus 4. Gemini 2.5 Pro, o3 and Opus 4