强化学习中的熵坍缩

大模型机器学习算法

一、什么是熵坍缩?

策略熵(Policy Entropy)衡量模型在选择动作(生成token)时的不确定性:

  • 高熵:模型生成选择多样,探索性强,可能发现更优推理路径;
  • 低熵:模型生成趋于确定,过度依赖已有策略,缺乏创新探索。

熵坍缩(Entropy Collapse):

如下图左,在RL的训练初期(无熵干预的RL训练),模型的熵会急剧下降。随着熵的下降,准确率会迎来一个快速增长期。但是,随着熵的迅速耗尽会导致模型过度自信,探索能力随之减弱。picture.image

  • 前200步(1/12训练总量):消耗73%熵,获得76%性能提升;
  • 前800步(1/3训练总量):消耗94%熵,获得93%性能提升;
  • 后续2/3训练步骤:仅带来7%性能提升,计算资源边际收益趋近于0。

特征:

  • 熵下降集中在训练早期,73%的熵消耗和76%的性能提升发生在最初200步(11模型平均结果);
  • 熵耗尽后,即使继续增加训练步数或计算量,性能也无显著提升;

二、熵坍缩定量关系建立

研究建立了策略熵

与下游任务性能

之间的定量关系(熵与性能的“此消彼长”:指数 trade-off 关系):picture.image

  • 其中

为拟合系数,反映模型和训练数据的内在特性;

  • :熵转化为性能的速率(

),越大说明模型利用熵换性能的效率越高;

  • :与模型规模强相关,大模型的

更大(可通过小模型

预测大模型性能)。

三、为什么造成熵坍缩?

对于LLM的softmax策略(生成token的概率由logit通过softmax计算),相邻训练步骤的熵变化满足:picture.image

  • :动作

在状态

下的logit变化(训练步间的参数更新导致);

  • 结论: 熵变化与“动作对数概率”和“logit变化”的协方差呈负相关

picture.image

左图:在同策略 GRPO 训练过程中,策略熵(逐步熵差)与协方差的动态变化。它们展现出与理论预期相符的相似趋势。右图:不同的提示组表现出不同的协方差行为。准确率较高的较易提示同样具有更高的协方差,而较难提示的协方差则较低。

  • 训练全程中,协方差项始终为正,导致熵持续单调下降;
  • 早期训练:模型对简单任务的高置信度动作(高概率+高优势)快速强化,协方差值大,熵下降极快;
  • 后期训练:协方差虽逐渐减小,但仍保持正值,熵继续逼近0,探索能力完全丧失。

此外,任务难度会影响协方差:简单任务(高准确率)的协方差更高,熵坍缩速度更快;复杂任务的协方差较低,熵下降相对平缓(但仍会最终坍缩)。

如何解决熵坍缩问题?

上面提到,熵坍缩的本质是“高概率+高优势”的token导致协方差持续为正,进而耗尽熵 。因此解决思路需满足:

  1. 不破坏模型正常学习(避免性能下降);
  2. 精准抑制高协方差token的更新(切断熵快速下降的源头);
  3. 维持合理熵水平(保障探索能力)。

传统方法因无法满足这些要求而失效,具体问题如下:

  • 熵损失:对超参数极度敏感,小系数无效、大系数导致熵爆炸,即使稳定熵也不提升性能;
  • 参考KL惩罚:虽能稳定熵,但会限制模型学习,导致性能下降。

Clip-Cov与KL-Cov概述

Clip-Cov与KL-Cov均基于“抑制高协方差token”的核心,仅需修改少量代码(下面伪代码),且参数易调、效果显著。

picture.image

  1. Clip-Cov:裁剪高协方差token的梯度:随机筛选少量高协方差token,冻结其梯度更新,避免其过度强化导致熵快速下降。
  1. KL-Cov:对高协方差token施加KL惩罚:对top-k比例的高协方差token施加KL惩罚(约束当前政策与历史政策的差异),减缓其更新速度,避免熵坍缩。

参考文献

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models,https://arxiv.org/pdf/2505.22617

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论