强化学习中的熵坍缩 - 文章 - 开发者社区

一、什么是熵坍缩？

策略熵（Policy Entropy）衡量模型在选择动作（生成token）时的不确定性：

熵坍缩（Entropy Collapse）：

如下图左，在RL的训练初期（无熵干预的RL训练），模型的熵会急剧下降。随着熵的下降，准确率会迎来一个快速增长期。但是，随着熵的迅速耗尽会导致模型过度自信，探索能力随之减弱。 picture.image

特征：

研究建立了策略熵

与下游任务性能

之间的定量关系（熵与性能的“此消彼长”：指数 trade-off 关系）： picture.image

、

为拟合系数，反映模型和训练数据的内在特性；

），越大说明模型利用熵换性能的效率越高；

更大（可通过小模型

预测大模型性能）。

对于LLM的softmax策略（生成token的概率由logit通过softmax计算），相邻训练步骤的熵变化满足： picture.image

在状态

下的logit变化（训练步间的参数更新导致）；

picture.image

左图：在同策略 GRPO 训练过程中，策略熵（逐步熵差）与协方差的动态变化。它们展现出与理论预期相符的相似趋势。右图：不同的提示组表现出不同的协方差行为。准确率较高的较易提示同样具有更高的协方差，而较难提示的协方差则较低。

此外，任务难度会影响协方差：简单任务（高准确率）的协方差更高，熵坍缩速度更快；复杂任务的协方差较低，熵下降相对平缓（但仍会最终坍缩）。

上面提到，熵坍缩的本质是“高概率+高优势”的token导致协方差持续为正，进而耗尽熵 。因此解决思路需满足：

传统方法因无法满足这些要求而失效，具体问题如下：

Clip-Cov与KL-Cov均基于“抑制高协方差token”的核心，仅需修改少量代码（下面伪代码），且参数易调、效果显著。

picture.image

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models，https://arxiv.org/pdf/2505.22617