STAPO:通过“静音”极少数伪噪声 Token,稳定 LLM 强化学习

一句话结论

这篇论文的核心观点很直接:LLM 在 RL 训练时不稳定的"罪魁祸首",往往是 极少数 (约 0.01%)低概率、低熵但被错误奖励强化的 token。把它们"静音",训练就稳了,性能也更高。

图解:左侧用合唱类比说明"伪噪声 token"会破坏整体训练协调性;右侧展示在 Qwen3-8B 上,屏蔽约 0.01% 的 spurious tokens 后,性能与熵稳定性同时逼近 Pareto 最优。

背景与问题:LLM 强化学习为什么容易"炸"

强化学习用于提升 LLM 推理能力(尤其是数学、代码)已经很有效,但训练稳定性极差,常见两类灾难:

  • Entropy collapse :模型变得过度确定,推理退化成重复模式。
  • Entropy explosion :分布发散,输出越来越不可控。

以往方法大多在"表面信号"上做修补(比如 entropy 正则、采样重权),但论文指出真正的问题更"微观": token 级别梯度更新极不均衡

关键机制:梯度为何被低概率 token 主导

论文给出一个核心结论:token 的梯度幅度与其 概率局部熵 负相关。直觉上:

  • 低概率 token 的梯度会被放大。
  • 低熵区域已经"很确定",再更新收益低但风险高。
  • 如果此时 token 还带着 正的 advantage ,就会把错误强化得更快。

因此,那些 低概率 + 低熵 + 正 advantage 的 token 会成为"破坏性更新源"。

理论要点:梯度界与熵变化

论文复用并拓展了 token 梯度与熵之间的分析,保留核心公式即可。

梯度范数上下界:

∣ w i , t ∣ 2 ( 1 − 2 π θ ( y i , t ) + e − H ( π θ ) ) ≤ ∥ ∇ a J ( y i , t ) ∥ 2 ≤ ∣ w i , t ∣ 2 ( 2 − 2 π θ ( y i , t ) − C V H ( π θ ) 2 ) |w_{i,t}|^2 \left( 1 - 2\pi_\theta(y_{i,t}) + e^{-\mathcal{H}(\pi_{\theta})} \right) \leq \|\nabla_{\bm{a}} \mathcal{J}(y_{i,t})\|^2 \leq |w_{i,t}|^2 \left( 2 - 2\pi_\theta(y_{i,t}) - C_V \mathcal{H}(\pi_{\theta})^2 \right) ∣wi,t∣2(1−2πθ(yi,t)+e−H(πθ))≤∥∇aJ(yi,t)∥2≤∣wi,t∣2(2−2πθ(yi,t)−CVH(πθ)2)

核心含义:

  • π θ ( y i , t ) \pi_\theta(y_{i,t}) πθ(yi,t) 越小,梯度越大。
  • H ( π θ ) \mathcal{H}(\pi_\theta) H(πθ) 越小,梯度下界越高。

熵更新近似公式(自然梯度视角):

H ( π θ k + 1 ) − H ( π θ k ) ≈ − η   C o v ( log ⁡ π θ k ,   A ^ i ) \mathcal{H}(\pi_{\theta_{k+1}}) - \mathcal{H}(\pi_{\theta_k}) \approx -\eta \, \mathrm{Cov}\left( \log \pi_{\theta_k}, \, \hat{A}_i \right) H(πθk+1)−H(πθk)≈−ηCov(logπθk,A^i)

说明熵的变化与 token 概率和 advantage 的协方差直接相关。

关键定义:什么是 Spurious Token

论文给出的定义可以总结为:

Spurious token = 在正确回答中出现,但对推理贡献极小,却获得正奖励并被异常放大的 token。

这类 token 的特征是:

  • 低概率
  • 低熵
  • 正 advantage

它们虽稀有,但会对训练产生"巨幅更新"。

方法:STAPO 的核心设计

STAPO 的核心是 S2T(Silencing Spurious Tokens)机制 ,直接把危险 token 的梯度贡献置零。

S2T mask:

I i , t S 2 T = { 0 , A ^ i > 0 ∧ π ( y i , t ) < τ p ∧ H t < τ h 1 , otherwise \mathbb{I}^{\mathrm{S2T}}_{i,t} = \begin{cases} 0, & \hat{A}i > 0 \land \pi(y{i,t}) < \tau_p \land \mathcal{H}_t < \tau_h \\ 1, & \text{otherwise} \end{cases} Ii,tS2T={0,1,A^i>0∧π(yi,t)<τp∧Ht<τhotherwise

STAPO loss:

J S T A P O ( θ ) = E [ 1 ∑ I i , t S 2 T ∑ I i , t S 2 T ⋅ min ⁡ ( ρ i , t A ^ i , c l i p ( ρ i , t , 1 − ϵ l o w , 1 + ϵ h i g h ) A ^ i ) ] \mathcal{J}{\mathrm{STAPO}}(\theta) = \mathbb{E}\left[ \frac{1}{\sum \mathbb{I}^{\mathrm{S2T}}{i,t}} \sum \mathbb{I}^{\mathrm{S2T}}{i,t} \cdot \min\left( \rho{i,t}\hat{A}i, \mathrm{clip}(\rho{i,t}, 1-\epsilon_\mathrm{low}, 1+\epsilon_\mathrm{high})\hat{A}_i \right) \right] JSTAPO(θ)=E[∑Ii,tS2T1∑Ii,tS2T⋅min(ρi,tA^i,clip(ρi,t,1−ϵlow,1+ϵhigh)A^i)]

理解方式很简单:只对"可靠 token"做更新,对 spurious token 的梯度全部静音。

实验设置概览

  • 训练框架:veRL
  • 模型规模:Qwen 1.7B / 8B / 14B
  • 数据:DAPO-Math-17K
  • 训练资源:64 × NVIDIA H20
  • 核心超参:
    • τ p = 0.002 \tau_p = 0.002 τp=0.002
    • τ h = 80 % \tau_h = 80\% τh=80%(实际为低熵阈值分位数)
  • 任务评测:AIME24、AIME25、AMC23、MATH500、Minerva、OlympiadBench

主要结果:稳定 + 提升

论文在三种规模上都展示了稳定收益,核心结论有两点:

  1. 熵稳定性显著提升 :GRPO 会 collapse,20-Entropy/JustRL 可能爆炸,而 STAPO 最稳定。
  2. 精度普遍领先 :无论 training-aligned 还是 JustRL 设置都领先 baseline。

一个关键数字:

  • 只屏蔽 约 0.01% 的 token,就带来显著性能提升。

超参敏感性:为什么不能"乱屏蔽"

  • τ p \tau_p τp 过大(太激进)会误杀有用的低概率推理 token,性能急剧下降。
  • τ h \tau_h τh 提升(屏蔽范围变小)也会降低表现。

结论: 必须非常选择性地屏蔽,仅针对真正 spurious token

消融实验:为什么必须同时看概率与熵

论文对三种策略做消融:

  • 只看概率:效果 低于 baseline
  • 只看高熵低概率:小模型会"崩"
  • STAPO(概率 + 熵 + 正 advantage):所有规模都稳

这说明 spurious token 的判别必须是三条件联合。

深度分析:spurious token 的"质"

论文给出 token 统计与词云分析结果,典型 spurious token 包含:

  • 数字错误(4、1、2)
  • 数学符号($-
  • 连接词(Wait、But、Since)
    这些 token 可能出现在正确回答里,但并不构成核心推理步骤,却被放大强化。

结论与展望

STAPO 的价值在于:

  • 它不是改奖励函数,而是 改梯度更新路径
  • 只对极少数 token 动刀,却显著稳定 RL 训练
  • 提供了一个更"微观"的 RL 稳定性解释框架

未来方向:

  • 扩展到非数学任务(代码、开放域推理)
  • 分析错误回答中的 token 行为
  • 更细粒度的 token 级策略控制

本文参考自 STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

相关推荐
weixin_397578021 小时前
LLM应用开发十:本地部署Dify, Docker, Ollama
人工智能
zhangfeng11331 小时前
快速验证哪个文件坏了 模型文件损坏或不完整大语言模型开发 .llm
人工智能·chrome·语言模型
Youngchatgpt1 小时前
如何修复 ChatGPT“无法加载历史记录错误”(快速修复)
人工智能·chatgpt
tony3651 小时前
pytorch分布式训练解释
人工智能·pytorch·分布式
CeshirenTester2 小时前
从“自动化”到“智能化”,中间差的不只是ChatGPT
人工智能
lingling0092 小时前
2026年度AI智能体平台推荐榜单:技术融合与组织赋能双维度综合评估
大数据·人工智能
gregmankiw2 小时前
艾略特波浪理论智能选股系统
人工智能
电子科技圈2 小时前
XMOS推动智能音频等媒体处理技术从嵌入式系统转向全新边缘计算
人工智能·mcu·物联网·设计模式·音视频·边缘计算·iot