The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

论文: The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

0. 摘要原文翻译

本文旨在克服扩大强化学习(RL)规模以用于大语言模型(LLMs)推理时的一个主要障碍,即策略熵的坍塌(collapse of policy entropy) 。这种现象在未进行熵干预的大规模RL运行中被持续观察到:策略熵在训练早期急剧下降,导致策略模型过于自信 。结果是,这种探索能力的减弱总是伴随着策略性能的饱和。

在实践中,我们建立了熵 H \mathcal{H} H 与下游性能 R R R 之间的变换方程 R = − a exp ⁡ ( H ) + b R = -a \exp(\mathcal{H}) + b R=−aexp(H)+b,其中 a , b a, b a,b 为拟合系数 。这一经验定律强烈表明,策略性能是以牺牲策略熵为代价换取的,因此受到熵耗尽的瓶颈限制,且上限是完全可预测的(当 H = 0 \mathcal{H}=0 H=0 时, R ≈ − a + b R \approx -a+b R≈−a+b)。

我们的发现使得为了通过扩大计算规模进行RL持续探索,必须进行熵管理。为此,我们在理论和经验上研究了熵的动力学。我们的推导强调,策略熵的变化是由动作概率与logits变化之间的协方差驱动的,在使用类策略梯度算法(Policy Gradient-like)时,这与优势(Advantage)成正比 。也就是说,具有高优势的高概率动作会降低策略熵,而具有高优势的罕见动作会增加策略熵 。

经验研究表明,协方差项的值与熵的差值完全匹配,支持了理论结论 。此外,协方差项在训练过程中大多保持正值,进一步解释了为什么策略熵会单调递减。通过理解熵动力学背后的机制,我们提出通过限制高协方差Token 的更新来控制熵 。具体来说,我们提出了两种简单而有效的技术,即 Clip-CovKL-Cov,分别对具有高协方差的Token进行截断(Clip)和施加KL惩罚 。实验表明,这些方法鼓励了探索,从而帮助策略摆脱熵坍塌并实现更好的下游性能


1. 方法动机 (Motivation)

a) 背景与驱动力

随着RL(如Reinforcement Learning from Verifiable Rewards)被广泛应用于提升LLM的推理能力(如数学、代码任务),人们希望通过扩大训练计算规模(Scaling Laws)来获得更强的模型性能。

b) 现有痛点与局限性

  • 熵坍塌(Entropy Collapse): 作者观察到一个普遍现象:RL训练初期,策略熵会迅速下降至接近0。模型变得极度"确信",失去了探索新路径的能力。
  • 性能饱和与可预测性: 随着熵的消失,模型性能迅速达到瓶颈。论文发现性能 R R R 和熵 H \mathcal{H} H 之间存在严格的指数关系,意味着一旦熵耗尽,性能也就封顶了。
  • 传统正则化失效: 简单的熵正则化(Entropy Loss)或全局KL惩罚往往无效,要么导致熵爆炸,要么损害性能。

c) 核心研究假设

策略熵的减少是由某些特定的Token驱动的,这些Token既有高概率(模型自信)又有高优势(高奖励)。如果我们能精准地抑制这些"过度自信且高回报"的Token的更新幅度,就能在不伤害整体学习的前提下维持探索能力。


如图所示,作者的实验结果发现能拟合一条曲线;同时,训练初期,熵就迅速坍塌,随后模型性能提升进入平坦区域,只有微小的5%的提升。

ThePredictable "Collapse" of Policy Entropy


受到熵坍塌现象的启发,作者发现下游任务的表现(accuracy)和熵的关系可以用以下曲线来拟合:
R = − a e p x ( H ) + b R=-a epx(H)+b R=−aepx(H)+b

其中,R代表验证集的表现,H是熵。

作者的实验结果如下:

根据这个公式,我们就可以在高熵下采样若干个数据点来拟合曲线,从而去预测低熵下的模型性能,作者进一步做了实验验证,这种预测的误差精度很低,预测的准确性很高

同时,对于 RL是否只是激活了模型预训练阶段所学习的知识,从而无法突破模型的上限这个问题,作者的实验结果显然是支持这个观点的。根据这个公式,当熵很低的时候(为0),模型的上限不仅存在,还能被预测到。

2. 方法设计 (Methodology)

作者首先通过理论推导建立了熵变化与协方差的关系,基于此设计了两种正则化方法。

a) 理论基础:熵动力学

对于Softmax策略(如LLMs),在策略梯度(PG)更新下,一步之内熵的变化量 Δ H \Delta \mathcal{H} ΔH 近似等于:
H ( π θ k + 1 ) − H ( π θ k ) ≈ − η ⋅ C o v ( log ⁡ π θ ( a ∣ s ) , π θ ( a ∣ s ) ⋅ A ( s , a ) ) \mathcal{H}(\pi_{\theta}^{k+1}) - \mathcal{H}(\pi_{\theta}^{k}) \approx -\eta \cdot Cov( \log \pi_{\theta}(a|s), \pi_{\theta}(a|s) \cdot A(s,a) ) H(πθk+1)−H(πθk)≈−η⋅Cov(logπθ(a∣s),πθ(a∣s)⋅A(s,a))

通俗解释 :如果模型对某个动作 a a a 赋予了高概率( log ⁡ π \log \pi logπ 大),且该动作的优势 A A A 也很大(是个好动作),那么这个协方差项就是正的,导致熵 H \mathcal{H} H 减小。反之,如果高优势对应的是低概率动作(罕见动作),熵会增加。

b) 核心Pipeline (算法流程)

Step 1: 数据采样与优势计算

  • 对于输入Prompt x x x,模型生成回复 y y y。

  • cite_start\]使用GRPO等算法计算每个Token的优势 A t A_t At \[cite: 131-133\]。

  • 根据理论推导,定义每个Token的中心化叉积(Centered Cross-Product),作为协方差的估计值:
    C o v ( y i ) = ( log ⁡ π θ ( y i ) − log ⁡ π ‾ ) ⋅ ( A ( y i ) − A ‾ ) Cov(y_i) = ( \log \pi_{\theta}(y_i) - \overline{\log \pi} ) \cdot ( A(y_i) - \overline{A} ) Cov(yi)=(logπθ(yi)−logπ)⋅(A(yi)−A)

  • 这里 N N N 是Batch内的Token总数, ⋅ ‾ \overline{\cdot} ⋅ 表示均值 。

Step 3: 筛选高协方差Token

  • 数据分析发现,极少数(如Top 0.02%)的Token贡献了绝大部分的协方差值,这些是导致熵坍塌的"罪魁祸首" 。

简单来说,"高协方差"的Token是指那些模型既对其非常有信心(概率高),同时它又确实获得了很高奖励(优势大)的Token。 在梯度更新时,这会促使模型大幅增加该Token的概率,从而导致概率分布迅速尖锐化,其他可能性的概率被压缩,导致策略熵(探索能力)急剧下降

正是因此这些高协方差的Token导致模型过早丧失探索能力,作者才提出了下面的两种方法。

但是在此之前,作者先用实验证明了一些早期的熵正则化的方法:

  • 将熵作为Loss的一部分 L = L − α H ( π θ ) L = L − αH(π_θ) L=L−αH(πθ).
  • 增加KL散度 L = L + β D K L ( π θ ∣ ∣ π r e f ) L=L+\beta \mathbb{D}{KL}(\pi\theta||\pi_{ref}) L=L+βDKL(πθ∣∣πref)

Step 4: 实施正则化策略 (二选一)

策略一:Clip-Cov (截断协方差)

  • 操作: 随机选择一部分协方差值落在特定高区间 [ ω l o w , ω h i g h ] [\omega_{low}, \omega_{high}] [ωlow,ωhigh] 的Token。
  • 处理: 将这些被选中Token的梯度切断(Detach),即在本次更新中忽略它们,防止模型在这些点上进一步"固化" 。
  • 公式: L C l i p − C o v L_{Clip-Cov} LClip−Cov 仅计算未被选中Token的PG Loss。

策略二:KL-Cov (KL惩罚协方差)

  • 操作: 对协方差值进行排序,选出Top- k k k(例如前0.2%)的Token。
  • 处理: 对这些特定的Token施加额外的KL散度惩罚,迫使当前策略不要偏离参考策略太远。
  • 公式:
    L K L − C o v = L P G + β ∑ t ∈ I K L D K L ( π θ ∣ ∣ π r e f ) L_{KL-Cov} = L_{PG} + \beta \sum_{t \in I_{KL}} \mathbb{D}{KL}(\pi{\theta} || \pi_{ref}) LKL−Cov=LPG+βt∈IKL∑DKL(πθ∣∣πref)
c) 模块协同

这个设计并不改变RL的主体算法(如GRPO),而是作为一个插件嵌入在Loss计算环节。它充当了一个"减速带",专门针对那些让模型变得过于确信的样本点进行减速。


3. 与其他方法对比

a) 本质区别

  • 传统方法 (Entropy Regularization/Global KL): 对所有Token"一视同仁"地施加惩罚或奖励。
  • Clip-Higher (Baseline): 通过调整PPO Clip的上限阈值来增加探索,但这主要影响正优势样本,且不够精准 。
  • 本方法 (Clip/KL-Cov): Token粒度的精准打击。只针对那些导致熵快速下降的"高协方差"Token进行干预 。

b) 优缺点对比

方法 核心机制 优点 缺点
Entropy Loss 在Loss中减去熵项 α H \alpha \mathcal{H} αH 实现简单 [cite_start]对超参极度敏感,易导致熵爆炸或无效
Global KL 全局施加KL惩罚 保证策略稳定性 [cite_start]往往导致性能下降,无法有效提升探索
Clip-Higher 提高PPO Clip上限 ( ϵ \epsilon ϵ) 早期能提升熵 [cite_start]训练后期不稳定,性能容易饱和
Clip-Cov (Ours) 截断高协方差Token梯度 有效维持高熵,提升性能 需要调节截断比例和阈值
KL-Cov (Ours) 惩罚高协方差Token 熵曲线更平稳,性能最佳 引入了KL系数超参

4. 实验表现与优势

a) 实验设置

  • 模型: Qwen2.5-7B 和 Qwen2.5-32B 。
  • 任务: 数学推理(AIME, MATH-500, OlympiadBench等)。
  • 算法: 基于GRPO进行改进 。

b) 关键实验数据

  • 总体提升: 相比于基线GRPO,Qwen2.5-7B平均提升 2.0% ,Qwen2.5-32B平均提升 6.4%
  • 高难度任务: 在AIME24上,32B模型使用KL-Cov相比GRPO提升了 15.0% (21.8% -> 36.8%) 。
  • 熵保持: 当基线GRPO的熵降至接近0时,KL-Cov方法的熵仍保持在10倍以上的水平。

c) 优势场景

  • 大规模模型: 在32B模型上的提升显著高于7B模型,说明该方法能释放大模型更强的潜在探索能力。
  • 长链条推理: 实验发现该方法激励模型生成更长的回复(Response Length),意味着模型在进行更深度的思考和探索 。

d) 局限性

  • 超参敏感: 干预的Token数量非常少( 10 − 3 10^{-3} 10−3级别),调节需要精细 。
  • 最优熵值未知: 虽然维持了高熵,但目前尚不清楚具体的"最优熵值"是多少。

同时作者对比了不同超参数对熵的影响:

作者发现,可以通过简单的调整超参数的大小,来控制熵的增加,同时KL-cov的训练稳定性要好于Clip-cov。

6. 总结

a) 核心思想

RL中的熵坍塌是由极少数"高置信度且高奖励"的Token驱动的;通过Clip-CovKL-Cov精准抑制这些Token的更新,可以强制模型保持探索能力,从而打破性能天花板。

b) 速记版Pipeline

  1. 算协方差 :计算每个Token的 ( log ⁡ π − mean ) × ( A − mean ) (\log\pi - \text{mean}) \times (A - \text{mean}) (logπ−mean)×(A−mean)。
  2. 抓显眼包:找出协方差最高的极少数Token(Top 0.x%)。
  3. 精准打击:对这些Token进行梯度截断(Clip)或加KL惩罚。
  4. 正常更新:其余Token按原策略梯度算法更新。
相关推荐
能源系统预测和优化研究11 小时前
传统机器学习(如xgboost、随机森林等)和深度学习(如LSTM等)在时间序列预测各有什么优缺点?
深度学习·随机森林·机器学习
owlion11 小时前
如何将视频文案整理成学习笔记
人工智能·python·机器学习·语言模型·自然语言处理
自然语11 小时前
人工智能之数字生命-特征类升级20260106
人工智能·算法
AC赳赳老秦11 小时前
前端可视化组件开发:DeepSeek辅助Vue/React图表组件编写实战
前端·vue.js·人工智能·react.js·信息可视化·数据分析·deepseek
AI街潜水的八角11 小时前
基于keras框架的MobileNet深度学习神经网络垃圾识别分类系统源码
深度学习·神经网络·keras
IT_陈寒11 小时前
React 18实战:这5个新特性让我的开发效率提升了40%
前端·人工智能·后端
zhengfei61111 小时前
AI渗透工具——AI驱动的BAS网络安全平台
人工智能·安全·web安全
imbackneverdie11 小时前
研究生如何高效完成文献综述并提炼创新点?
人工智能·ai·语言模型·自然语言处理·aigc·ai写作
cute_ming11 小时前
基于jieba的RAG通用分词最佳实践
人工智能·深度学习·知识图谱
zxy284722530111 小时前
利用C#的BotSharp本地部署第一个大模型AI Agent示例(1)
人工智能·c#·对话·ai agent·botsharp