先来简单看下PPO和GRPO的区别:
source@x
- PPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。
- GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。
个人理解记录,供参考。
- GRPO目标函数的数学原理
GRPO的目标函数如下:
这个函数看起来复杂,但我们可以将其拆解为几个关键部分,逐一分析其作用和意义。GRPO的目标函数由两大部分组成:策略梯度更新项和KL散度正则化项。我们分别分析它们的作用。
1.1 策略梯度更新项
策略梯度部分是目标函数的主要成分,形式为:
核心思想
这一部分的目标是通过策略梯度调整
,使策略
在有利动作(
)上提高概率,在不利动作(
)上降低概率。为了避免更新过于激进,GRPO引入了剪切机制。
概率比
这是当前策略与旧策略在动作
上的概率比。若
,表示当前策略更倾向于选择该动作;若
,则倾向于减少该动作。
剪切操作
剪切操作将
限制在
区间内:
- 如果
,则被截断为
;
- 如果
,则被截断为
。
这限制了策略更新的幅度,防止单次更新偏离旧策略太远。
最小值操作
- 当
(动作有利)时,
选择较小的值,确保更新不会过于增加概率。
- 当
(动作不利)时,
同样选择较小的值(即较大的负值),限制概率减少的幅度。
这种设计类似于PPO算法,通过剪切和最小值操作增强训练稳定性。
平均操作
- : 对单个轨迹内的所有时间步取平均。
- : 对所有
个轨迹取平均。
- : 在状态和轨迹分布上取期望。
这些平均和期望操作使目标函数能够泛化到不同的状态和轨迹。
1.2 KL散度正则化项
作用
KL散度(Kullback-Leibler divergence)衡量当前策略
与参考策略
之间的差异。负号和权重
表示这是一个惩罚项,目标是限制
偏离
过远。
意义
- 当
较大时,惩罚增加,迫使策略更新更加保守。
- 控制正则化强度:
越大,策略变化越小。
- GRPO算法的整体工作流程
source@X
GRPO是一种基于组奖励的策略优化算法,其工作流程可以分为以下几个步骤:
-
采样响应(Sample G responses)
对于每个输入问题
,从旧策略
中采样
个响应
。这些响应可以看作是对问题的多种可能回答,图示中用粉色方块表示“prompts”(输入问题),绿色方块表示“completions”(生成响应)。
-
分配奖励(Assign rewards based on rules)
根据预定义的规则为每个响应分配奖励
。奖励可能基于回答的质量(如准确性、流畅性等),图示中用蓝色方块表示“rewards”。
-
计算优势(Compute advantages)
通过比较每个响应的奖励与组内统计值,计算优势值
。具体公式为:
其中,
是组内奖励的平均值,
是标准差。优势值
反映了每个响应相对于组内平均表现的优劣,图示中用紫色方块表示“advantages”。
-
更新策略(Update the policy)
通过最大化目标函数
,调整策略参数
,以提高高优势值(
)响应的生成概率,同时降低低优势值(
)响应的概率。
-
KL散度惩罚(KL Divergence penalty)
为避免新策略
过于偏离参考模型
,引入KL散度惩罚项
。这一正则化措施确保策略更新的稳定性并保留通用推理能力,图示中用橙色方块表示“
”。
整个流程通过迭代优化实现:从输入问题到生成响应,再到奖励分配和优势计算,最后更新策略,形成一个闭环。
- 为什么GRPO算法有效?
- GRPO通过消除传统强化学习算法(如PPO)中需要的一个单独价值函数模型,显著提高了效率。这个模型通常需要额外的内存和计算资源,而GRPO的做法降低了这些需求,使其更适合处理大型语言模型。 稳健的优势估计
- GRPO采用基于群体的优势估计方法。它为每个提示生成多个响应,并使用群体的平均奖励作为基准。这种方法无需依赖另一个模型的预测,提供了一种更稳健的政策评估方式,有助于减少方差并确保学习稳定性。
- GRPO直接将Kullback-Leibler(KL)散度纳入损失函数中。这有助于控制策略更新,防止策略与参考策略偏离过多,从而保持训练的稳定性。
- 几个GRPO复现deepseek-R1-zero的流程代码repo
关于作者:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。