文章目录
- 摘要
- [1 引言](#1 引言)
- [2. 相关工作](#2. 相关工作)
-
- [3. 问题表述与分析](#3. 问题表述与分析)
-
- [3.1 重新表述GRPO目标](#3.1 重新表述GRPO目标)
- [3.2 损失与梯度的双重分解](#3.2 损失与梯度的双重分解)
- [3.3 实证分析](#3.3 实证分析)
- [4. 方法](#4. 方法)
-
- [4.1 概率建模](#4.1 概率建模)
- [4.2 几何分解](#4.2 几何分解)
- [4.3 贝叶斯仲裁](#4.3 贝叶斯仲裁)
- [4.4 重构与投影](#4.4 重构与投影)
- [4.5 策略优化](#4.5 策略优化)
- [5. 理论分析](#5. 理论分析)
- [6. 实验](#6. 实验)
-
- [6.1 实验设置](#6.1 实验设置)
- [6.2 性能分析](#6.2 性能分析)
- [6.3 可视化分析](#6.3 可视化分析)
- [6.4 训练稳定性分析](#6.4 训练稳定性分析)
- [6.5 消融实验](#6.5 消融实验)
- [7. 结论](#7. 结论)
- 影响声明
摘要
训练稳定性依然是群体相对策略优化(Group Relative Policy Optimization,简称GRPO)中的一个关键瓶颈,通常表现为推理的可塑性与整体能力保持之间的权衡。我们发现其根本原因在于可塑性梯度与稳定性梯度之间的几何冲突,导致破坏性干扰。
关键在于,我们认为确定性投影方法对于GRPO来说是次优的,因为它们忽视了基于群体的梯度估计固有的随机性。
为此,我们提出了概率冲突解决(Probabilistic Conflict Resolution,PCR)方法,这是一种贝叶斯框架,将梯度视为随机变量。PCR通过一种带有不确定性感知的"软投影"机制动态调解梯度冲突,优化信噪比。
大量实验表明,PCR显著平滑了训练轨迹,并在多种推理任务中取得了更优的性能表现。
1 引言
大型语言模型(Large Language Models, LLMs)如 DeepSeek-R1(Guo 等,2025)已经证明,强化学习(Reinforcement Learning, RL)对于释放复杂推理能力至关重要。在多种强化学习技术中,群体相对策略优化(Group Relative Policy Optimization,GRPO)(Shao 等,2024)已成为标准选择。GRPO 通过去掉对独立值网络的需求,大幅降低了内存使用,实现了可扩展训练,使模型能够有效地从基于群体的相对奖励中学习。
然而,尽管效率高,GRPO 训练却极具挑战性(Zhang 等,2025;Ge 等,2025;Wu 等,2025)。实践中,训练者面临严重的"可塑性-稳定性困境":为了提升推理能力所做的激进更新(可塑性)常常导致模型遗忘通用知识或失去语言连贯性(稳定性);反之,为了保持语言稳定所施加的严格约束则阻碍了模型学习新的推理技能。平衡这两者通常依赖于对KL惩罚系数(β)进行反复且脆弱的调优。
为什么GRPO如此不稳定?本文借鉴(Liu 等,2021)的思想,认为根本原因是GRPO损失中两个优化目标之间的几何冲突。分析显示,推理梯度和稳定梯度 经常指向相反方向。标准的GRPO更新规则简单地将这两个相反方向的向量相加,产生了"破坏性干扰",两股力量互相抵消,导致优化器自相矛盾,低效地在损失空间中迂回。
解决该冲突并非简单使用类似 PCGrad(Yu 等,2020)的几何投影方法。这类方法假设梯度是完全准确且确定的向量。但GRPO中的梯度是由一小组训练查询通过蒙特卡洛估计得到,固有地带有噪声和不确定性。如果基于嘈杂数据盲目将一个梯度向量"硬投影"到另一个上,可能会丢弃有效学习信号或强加错误约束。我们需要一种既考虑梯度方向,也考虑对梯度置信度的方法。
为此,我们提出了概率冲突解决(Probabilistic Conflict Resolution,PCR)。PCR不将梯度视为固定箭头,而是将其建模为概率分布(高斯随机变量)以捕捉不确定性。然后利用贝叶斯推断动态调解冲突。
核心思想直观:若推理信号强且精确(方差小),PCR信任该信号并允许更新;若推理信号嘈杂或稳定性约束刚性(方差大),PCR则抑制该更新。这形成了一种"软投影"机制。与PCGrad完全删除冲突分量不同,PCR根据信号噪声比对其进行缩放。
为使PCR在亿级参数模型上计算可行,我们采取混合策略:仅对作为知识存储的MLP层应用PCR,而对Attention层使用标准更新。此混合方案确保核心知识的稳定性同时不拖慢训练速度。
我们贡献如下:
发现GRPO不稳定的根源在于可塑性梯度与稳定性梯度间的高维几何冲突;
提出PCR,一种贝叶斯框架,推导出封闭形式的不确定性感知"软投影"规则。据我们所知,这是首个将概率建模引入LLM后训练梯度投影的工作;
引入高效混合实现,仅在MLP层应用PCR,使其具备LLM训练的可扩展性;
理论上证明PCR是梯度空间中的数学最优估计器,通过权衡偏差与方差最小化更新误差。实证上,大量实验显示PCR显著消除训练振荡,并在推理任务上取得优越性能。
2. 相关工作
大型语言模型(LLMs)通过强化学习后训练在推理任务中取得了显著成功(Ouyang 等,2022;Wang 等,2025)。群体相对策略优化(GRPO)(Shao 等,2024)因其内存效率高已成为主流范式,但训练稳定性仍是关键瓶颈。
近期研究提出了多种机制来缓解这种不稳定性。一方面,诸如 ∆L Norm(He 等,2025)和 BNPO(Xiao 等,2025)的方法引入了先进的归一化统计,平滑奖励空间,减少方差;另一方面,像 GSPO(Zheng 等,2025)和 BAPO(Xi 等,2025)则专注于优化策略约束,通过自适应裁剪或序列级优化防止策略发散。还有一些工作如 GVPO(Zhang 等,2025)和 MRT(Qu 等,2025)采用分析性重加权或奖励修正。与此同时,GCPO(Gu 等,2025)通过构建因果碰撞结构维持训练稳定。
尽管这些方法多样,绝大多数聚焦于标量损失或奖励值的塑造,往往忽视了我们工作中提出的一个可能根本原因:可塑性梯度与稳定性约束之间的高维几何对立。
梯度冲突问题是多任务学习(Multi-Task Learning, MTL)中的核心主题。当多个目标相互竞争时,简单相加会导致破坏性干扰。经典方法如 PCGrad(Yu 等,2020)会将冲突梯度投影到法向平面,而近期的进展如 MMPareto(Wei & Hu,2024)和 Robust MTL(He 等,2024)则探索帕累托最优前沿和风险最小化,以平衡无害的单模辅助或过度风险。
然而,这些方法通常基于确定性假设,将梯度估计视为可信的真实值。而在GRPO中,梯度是带有显著随机噪声的蒙特卡洛估计。对这种嘈杂信号盲目应用硬几何投影,可能错误地丢弃有效的探索信号。
我们提出的概率冲突解决(PCR)填补了这一空白。PCR将梯度建模为概率分布,通过贝叶斯仲裁机制,根据信噪比执行"软投影",在随机优化中实现数学上的最优权衡,而非简单的硬截断。
3. 问题表述与分析
为了严谨分析后训练中的可塑性-稳定性权衡,我们首先将GRPO目标函数重新表述为两个相互独立的作用力,然后推导它们各自的梯度以审视其物理意义。最后通过实证分析,展示这两个更新方向之间固有的几何冲突是训练不稳定的根本原因。
3.1 重新表述GRPO目标
大型语言模型(LLM)可以被视为一个自回归策略 π θ ( ⋅ ∣ q ) \pi_{\theta}(\cdot | q) πθ(⋅∣q),根据输入查询 q q q 逐步生成响应的每个token。GRPO通过引入群体相对优势来优化该策略。给定查询 q ∼ P q \sim P q∼P 和一组从旧策略 π θ old \pi_{\theta_{\text{old}}} πθold 采样的候选输出 { y i } i = 1 n \{y_i\}_{i=1}^n {yi}i=1n,标准GRPO目标是最大化:
J GRPO ( θ ) = E q ∼ P , { y i } ∼ π θ old [ 1 n ∑ i = 1 n 1 T i ∑ j = 1 T i ( S i , j ( θ ) − β K i , j ( θ ) ) ] . ( 1 ) J_{\text{GRPO}}(\theta) = \mathbb{E}{q \sim P, \{y_i\} \sim \pi{\theta_{\text{old}}}} \left[ \frac{1}{n} \sum_{i=1}^n \frac{1}{T_i} \sum_{j=1}^{T_i} \left( S_{i,j}(\theta) - \beta K_{i,j}(\theta) \right) \right]. \quad (1) JGRPO(θ)=Eq∼P,{yi}∼πθold[n1i=1∑nTi1j=1∑Ti(Si,j(θ)−βKi,j(θ))].(1)
为明确梯度来源,我们正式定义目标中的两个核心组成部分:
- Token级替代增益 ( S i , j S_{i,j} Si,j):推动模型朝奖励更高的区域更新。定义重要性比率为:
R i , j ( θ ) = π θ ( y i , j ∣ q , y i , < j ) π θ old ( y i , j ∣ q , y i , < j ) . R_{i,j}(\theta) = \frac{\pi_{\theta}(y_{i,j} | q, y_{i,<j})}{\pi_{\theta_{\text{old}}}(y_{i,j} | q, y_{i,<j})}. Ri,j(θ)=πθold(yi,j∣q,yi,<j)πθ(yi,j∣q,yi,<j).
结合裁剪机制以保证训练稳定,替代增益定义为:
S i , j ( θ ) = min ( R i , j ( θ ) A i , clip ( R i , j ( θ ) , 1 − ϵ , 1 + ϵ ) A i ) , ( 2 ) S_{i,j}(\theta) = \min \left( R_{i,j}(\theta) A_i, \text{clip}(R_{i,j}(\theta), 1 - \epsilon, 1 + \epsilon) A_i \right), \quad (2) Si,j(θ)=min(Ri,j(θ)Ai,clip(Ri,j(θ),1−ϵ,1+ϵ)Ai),(2)
其中 A i A_i Ai 表示群体相对优势,通过标准化群体内奖励计算得出:
A i = r i − μ group σ group , y i = ( y i , 1 , ... , y i , T i ) . A_i = \frac{r_i - \mu_{\text{group}}}{\sigma_{\text{group}}}, \quad y_i = (y_{i,1}, \ldots, y_{i,T_i}). Ai=σgroupri−μgroup,yi=(yi,1,...,yi,Ti).
- Token级KL惩罚 ( K i , j K_{i,j} Ki,j):作为正则项,限制策略过度偏离参考分布:
K i , j ( θ ) = D KL ( π θ ( ⋅ ∣ q , y i , < j ) ∥ π ref ( ⋅ ∣ q , y i , < j ) ) , ( 3 ) K_{i,j}(\theta) = D_{\text{KL}}\left( \pi_{\theta}(\cdot | q, y_{i,<j}) \,\Vert\, \pi_{\text{ref}}(\cdot | q, y_{i,<j}) \right), \quad (3) Ki,j(θ)=DKL(πθ(⋅∣q,yi,<j)∥πref(⋅∣q,yi,<j)),(3)
其中 π ref \pi_{\text{ref}} πref 通常设为旧策略 π θ old \pi_{\theta_{\text{old}}} πθold。
3.2 损失与梯度的双重分解
为了分析梯度,我们将优化目标 J GRPO J_{\text{GRPO}} JGRPO 转换为损失函数的极小化问题:
L GRPO = − J GRPO . L_{\text{GRPO}} = - J_{\text{GRPO}}. LGRPO=−JGRPO.
根据公式 (1),我们明确将损失拆解为代表可塑性和稳定性的两部分:
L GRPO ( θ ) = L pla ( θ ) ⏟ 可塑性 + β ⋅ L sta ( θ ) ⏟ 稳定性 , ( 4 ) L_{\text{GRPO}}(\theta) = \underbrace{L_{\text{pla}}(\theta)}{\text{可塑性}} + \beta \cdot \underbrace{L{\text{sta}}(\theta)}_{\text{稳定性}}, \quad (4) LGRPO(θ)=可塑性 Lpla(θ)+β⋅稳定性 Lsta(θ),(4)
其中,可塑性损失是替代增益的负期望,旨在利用优势信号提升任务表现:
L pla ( θ ) = − E [ 1 n ∑ i = 1 n 1 T i ∑ j = 1 T i S i , j ( θ ) ] . ( 5 ) L_{\text{pla}}(\theta) = - \mathbb{E} \left[ \frac{1}{n} \sum_{i=1}^n \frac{1}{T_i} \sum_{j=1}^{T_i} S_{i,j}(\theta) \right]. \quad (5) Lpla(θ)=−E[n1i=1∑nTi1j=1∑TiSi,j(θ)].(5)
稳定性损失是KL散度项,旨在将策略锚定在参考流形上,保持通用能力:
L sta ( θ ) = E [ 1 n ∑ i = 1 n 1 T i ∑ j = 1 T i K i , j ( θ ) ] . ( 6 ) L_{\text{sta}}(\theta) = \mathbb{E} \left[ \frac{1}{n} \sum_{i=1}^n \frac{1}{T_i} \sum_{j=1}^{T_i} K_{i,j}(\theta) \right]. \quad (6) Lsta(θ)=E[n1i=1∑nTi1j=1∑TiKi,j(θ)].(6)
由此,我们导出用于参数更新的两条梯度向量。利用梯度算子的线性性质,总梯度 g total g_{\text{total}} gtotal 表达为:
∇ θ L GRPO ( θ ) = g pla + β ⋅ g sta . ( 7 ) \nabla_{\theta} L_{\text{GRPO}}(\theta) = g_{\text{pla}} + \beta \cdot g_{\text{sta}}. \quad (7) ∇θLGRPO(θ)=gpla+β⋅gsta.(7)
设一批次包含 N batch N_{\text{batch}} Nbatch 个查询,这两梯度具有不同的物理意义与对立性质:
- 可塑性梯度 ( g pla g_{\text{pla}} gpla):
g pla ≜ ∇ θ L pla ( θ ) ≈ − 1 N batch ∑ ∇ θ S i , j ( θ ) . ( 8 ) g_{\text{pla}} \triangleq \nabla_{\theta} L_{\text{pla}}(\theta) \approx - \frac{1}{N_{\text{batch}}} \sum \nabla_{\theta} S_{i,j}(\theta). \quad (8) gpla≜∇θLpla(θ)≈−Nbatch1∑∇θSi,j(θ).(8)
此梯度代表策略改进信号,推动参数 θ \theta θ 向最大化特定任务奖励的方向变化,是模型新能力(可塑性)的主要来源。
- 稳定性梯度 ( g sta g_{\text{sta}} gsta):
g sta ≜ ∇ θ L sta ( θ ) ≈ 1 N batch ∑ ∇ θ K i , j ( θ ) . ( 9 ) g_{\text{sta}} \triangleq \nabla_{\theta} L_{\text{sta}}(\theta) \approx \frac{1}{N_{\text{batch}}} \sum \nabla_{\theta} K_{i,j}(\theta). \quad (9) gsta≜∇θLsta(θ)≈Nbatch1∑∇θKi,j(θ).(9)
此梯度代表行为保持信号,推动参数 θ \theta θ 回归参考模型参数空间,是防止灾难性遗忘、维持通用能力(稳定性)的关键约束。
3.3 实证分析
理论上,GRPO平衡策略改进与参考保持,但在实际训练中表现出显著不稳定性(Ouyang 等,2022;Simoni 等,2025;Dai 等,2025)。模型常在过拟合推理任务(忘记通用知识)和停滞不前(未学到推理)之间振荡,且需要大量超参数调优。
为诊断不稳定的根本原因,我们分析了 DeepSeek-R1-Distill-Llama-8B 在 AIME 数据集上的优化动态(具体设置详见附录B)。
首先,我们通过调节KL系数 β \beta β,可视化推理表现(AIME Pass@1)与语言稳定性(WikiText-2 PPL)的权衡,结果如图1(a)-(b)所示。可观察到,稍微降低 β \beta β 就会导致PPL剧烈恶化(注意PPL越低越好),而稍微提升 β \beta β 则完全压制了推理性能提升。图1(b)显示的帕累托前沿极为陡峭,表明两个目标在功能上存在显著对立,简单标量化无法找到稳定平衡,导致训练振荡。
为物理验证这种对立,我们计算了可塑性梯度 g pla g_{\text{pla}} gpla 与稳定性梯度 g sta g_{\text{sta}} gsta 在各层之间的余弦相似度。图1(b)的热力图显示,中深层MLP层------知识存储的关键区域------在训练过程中持续呈现负余弦相似度(梯度冲突)。这种几何冲突表明,标准GRPO更新规则 ( g pla + β g sta ) (g_{\text{pla}} + \beta g_{\text{sta}}) (gpla+βgsta) 导致破坏性干扰:两向量互相抵消,降低了有效更新幅度并偏离了正确方向。
这种抵消现象解释了训练不稳定的根本原因:优化器"自相矛盾",导致在损失空间中低效迂回且对噪声极度敏感。

以下是你提供内容的中文翻译,公式已用 LaTeX \LaTeX LATEX 格式标注:
4. 方法
本节介绍概率冲突解决方法(Probabilistic Conflict Resolution,PCR),这是一个在GRPO中动态调解梯度冲突的原理化框架。该方法分为四个关键阶段:概率建模、几何分解、贝叶斯仲裁以及重构投影。此流程将以往方法中的刚性几何限制转变为灵活且具不确定性感知的优化过程。
4.1 概率建模
如上一节所述,可塑性梯度 g p l a g_{\mathrm{pla}} gpla 与稳定性梯度 g s t a g_{\mathrm{sta}} gsta 往往呈对抗方向。经典的冲突解决方法是 PCGrad(Yu等,2020),它将梯度视为确定性向量,冲突时直接做几何投影。然而,这种确定性视角忽略了GRPO优化的一个基本特性:观测到的梯度并非完整数据分布下的期望,而是有限采样组的蒙特卡洛估计。
从统计角度来看,梯度估计常常带有噪声。高方差的梯度不可靠,意味着其方向不值得完全信任。在这种情况下,PCGrad 不加区分地进行投影,可能导致对噪声方向的过度信任,甚至丢弃有效信号。直观上,投影应该根据置信度自适应调整。如果梯度精准(低方差),应严格做几何投影;若梯度噪声大(高方差),应弱化投影,防止被噪声误导。因此,为了实现这种自适应机制,需将梯度建模为随机变量而非确定性向量,从而量化其不确定性(详见附录C)。
在数学上捕捉这种不确定性时,我们回顾GRPO的聚合机制。由于梯度是对一组独立随机查询 { q i } i = 1 N batch \{q_i\}{i=1}^{N{\text{batch}}} {qi}i=1Nbatch 的平均,可利用中心极限定理(CLT)(Feller, 1991)。CLT指出,随着样本数增大,样本均值的分布趋于多元高斯。这为将梯度估计近似为高斯分布提供了严谨依据,这也是随机优化动力学分析中的标准做法(Mandt等, 2017)。据此,我们可以通过协方差结构明确量化更新方向的置信度。即:
g p l a ∼ N ( μ p l a , Σ p l a ) , g s t a ∼ N ( μ s t a , Σ s t a ) ( 10 ) g_{\mathrm{pla}} \sim \mathcal{N}(\mu_{\mathrm{pla}}, \Sigma_{\mathrm{pla}}), \quad g_{\mathrm{sta}} \sim \mathcal{N}(\mu_{\mathrm{sta}}, \Sigma_{\mathrm{sta}}) \quad (10) gpla∼N(μpla,Σpla),gsta∼N(μsta,Σsta)(10)
其中, μ p l a \mu_{\mathrm{pla}} μpla 和 μ s t a \mu_{\mathrm{sta}} μsta 为梯度在底层数据分布下的理论期望(即我们试图逼近的潜在真实值), Σ \Sigma Σ 则量化了由群体采样产生的估计不确定性。
为兼顾理论严谨与实际可行,我们采用三项近似:第一,方向上用观测梯度 g g g 直接近似潜在真实均值 μ \mu μ,即经验梯度为总体期望的无偏估计(Robbins & Monro, 1951);第二,参照自适应优化(如Adam, Kingma & Ba, 2015)的做法,用各组内梯度迹估算,简化协方差为各向同性( Σ ≈ σ 2 I \Sigma \approx \sigma^2 I Σ≈σ2I);第三,受变分推断中均值场假设(Blei等, 2017)启发,将两类梯度的估计误差视为条件独立------因为 g p l a g_{\mathrm{pla}} gpla 方差主要由离散奖励的不稳定性驱动,而 g s t a g_{\mathrm{sta}} gsta 方差则来自于token分布的概率发散。
4.2 几何分解
概率模型度量了梯度的不确定性,但两组梯度分布的实际相互作用由其均值 μ p l a \mu_{\mathrm{pla}} μpla 和 μ s t a \mu_{\mathrm{sta}} μsta 的方向决定(详见附录E)。要将不确定性纳入冲突解决,首先需分析两向量的几何关系,目的是物理上剥离导致方向对立的分量。
我们正式定义梯度冲突为:两期望梯度方向相反,即 μ p l a ⋅ μ s t a < 0 \mu_{\mathrm{pla}} \cdot \mu_{\mathrm{sta}} < 0 μpla⋅μsta<0,意味着可塑性目标推动参数变化对稳定性目标有害。仅仅识别还不够,需进一步将"安全"与"有害"部分几何分离。
具体做法是,将 μ p l a \mu_{\mathrm{pla}} μpla 按 μ s t a \mu_{\mathrm{sta}} μsta 参考系做正交分解:
μ p l a = μ p l a ⊥ + μ p l a ∥ ( 11 ) \mu_{\mathrm{pla}} = \mu^{\perp}{\mathrm{pla}} + \mu^{\parallel}{\mathrm{pla}} \quad (11) μpla=μpla⊥+μpla∥(11)
其中, μ p l a ⊥ \mu^{\perp}{\mathrm{pla}} μpla⊥ 为垂直于 μ s t a \mu{\mathrm{sta}} μsta 的独立分量,对稳定性目标无影响,应全部保留; μ p l a ∥ \mu^{\parallel}_{\mathrm{pla}} μpla∥ 是可塑性梯度在稳定性梯度方向上的投影,当发生冲突时,该分量与稳定性约束直接对立:
μ p l a ∥ = μ p l a ⋅ μ s t a ∥ μ s t a ∥ 2 μ s t a ( 12 ) \mu^{\parallel}{\mathrm{pla}} = \frac{\mu{\mathrm{pla}} \cdot \mu_{\mathrm{sta}}}{\|\mu_{\mathrm{sta}}\|^2} \mu_{\mathrm{sta}} \quad (12) μpla∥=∥μsta∥2μpla⋅μstaμsta(12)
此分量即为试图违反稳定约束的具体作用力,这一步只做几何识别,是否保留取决于不确定性权衡,这将在下一节决策。
4.3 贝叶斯仲裁
分离出冲突分量 μ p l a ∥ \mu^{\parallel}_{\mathrm{pla}} μpla∥ 后,核心问题是:该分量应保留多少?传统PCGrad做法过于极端,直接全部丢弃,隐含假设稳定性约束完全可靠。为纠正这种偏见,我们采用贝叶斯推断,根据两者的可靠性动态平衡。
尽管LLM的参数空间高维,实际冲突仅局限于以稳定性梯度为基准的一维轴上,因此此优化可转化为标量估计:变量 x x x 表示沿冲突轴的最优移动量。
为估计该最优值,结合两类信息源:一是将可塑性梯度视为带噪观测(似然),推动模型以 x o b s = ∥ μ p l a ∥ ∥ x_{\mathrm{obs}} = \|\mu^{\parallel}_{\mathrm{pla}}\| xobs=∥μpla∥∥ 的幅度更新,其可靠性由方差限定;二是将稳定性需求视为先验信念(先验分布),即更新应为零,先验方差反映约束刚性。二者结合后,Bayes定理下的后验最优估计为精度加权平均:
命题4.1(最优冲突保留)
最优更新幅度 x ∗ x^* x∗ 为:
x ∗ = k ⋅ x o b s , k = λ p l a λ p l a + λ s t a ( 13 ) x^* = k \cdot x_{\mathrm{obs}}, \quad k = \frac{\lambda_{\mathrm{pla}}}{\lambda_{\mathrm{pla}} + \lambda_{\mathrm{sta}}} \quad (13) x∗=k⋅xobs,k=λpla+λstaλpla(13)
其中 λ = 1 / σ 2 \lambda = 1/\sigma^2 λ=1/σ2 为精度, k ∈ [ 0 , 1 ] k \in [0, 1] k∈[0,1] 为保留系数(详见附录F证明)。 k k k 的物理解释非常明确:它代表了可塑性信号相对于稳定约束的相对置信度。可塑性信号极可靠时, k → 1 k\to 1 k→1;反之,稳定约束极可靠时, k → 0 k\to 0 k→0。算法可根据信噪比自适应地在探索与抑制间平滑插值。
4.4 重构与投影
有了 k k k,我们重构最终的梯度更新。逻辑是:安全分量( μ p l a ⊥ \mu^{\perp}_{\mathrm{pla}} μpla⊥)全部保留,冲突分量仅保留 k k k 比例。即
g f i n a l = μ p l a ⊥ + k ⋅ μ p l a ∥ g_{\mathrm{final}} = \mu^{\perp}{\mathrm{pla}} + k \cdot \mu^{\parallel}{\mathrm{pla}} gfinal=μpla⊥+k⋅μpla∥
利用 μ p l a ⊥ = μ p l a − μ p l a ∥ \mu^{\perp}{\mathrm{pla}} = \mu{\mathrm{pla}} - \mu^{\parallel}_{\mathrm{pla}} μpla⊥=μpla−μpla∥ 可得:
g f i n a l = μ p l a − ( 1 − k ) μ p l a ∥ ( 14 ) g_{\mathrm{final}} = \mu_{\mathrm{pla}} - (1-k)\mu^{\parallel}_{\mathrm{pla}} \quad (14) gfinal=μpla−(1−k)μpla∥(14)
为便于物理解释,定义 α = 1 − k \alpha = 1 - k α=1−k 为投影强度(即严格去除的冲突成分),带入精度关系得:
α = λ s t a λ p l a + λ s t a \alpha = \frac{\lambda_{\mathrm{sta}}}{\lambda_{\mathrm{pla}} + \lambda_{\mathrm{sta}}} α=λpla+λstaλsta
最终更新为:
g f i n a l = μ p l a − α μ p l a ⋅ μ s t a ∥ μ s t a ∥ 2 μ s t a ( 15 ) g_{\mathrm{final}} = \mu_{\mathrm{pla}} - \alpha \frac{\mu_{\mathrm{pla}} \cdot \mu_{\mathrm{sta}}}{\|\mu_{\mathrm{sta}}\|^2} \mu_{\mathrm{sta}} \quad (15) gfinal=μpla−α∥μsta∥2μpla⋅μstaμsta(15)
这一封闭解表明,PCR本质上是一种软投影算法,投影强度 α \alpha α 由数据自适应决定。两种极端情况可验证其合理性:约束极可靠时( λ s t a ≫ λ p l a \lambda_{\mathrm{sta}} \gg \lambda_{\mathrm{pla}} λsta≫λpla), α → 1 \alpha\to 1 α→1,等价于PCGrad的硬投影;反之,约束极不可靠( λ p l a ≫ λ s t a \lambda_{\mathrm{pla}} \gg \lambda_{\mathrm{sta}} λpla≫λsta), α → 0 \alpha\to 0 α→0,等价于正常梯度相加。PCR据此在服从与无视约束间自适应平滑过渡,仅依赖信号可靠性。
4.5 策略优化
虽然PCR在理论上给出了冲突分量的最优解,若对亿级参数的LLM每一参数逐元素应用则计算和存储开销巨大。为提升实用性,我们提出高效混合更新策略,结合Transformer结构组件的角色。
现代LLM由自注意力层(Self-Attention)与前馈网络(MLP)交替堆叠。最新解释性研究(Geva等,2021;Meng等,2022)表明,MLP层存储了大部分领域知识,而注意力层主要作为上下文信息路由器。因此,"灾难性遗忘"主要是知识MLP层被覆盖所致。
基于此,我们采取分层策略:仅对MLP层应用计算量大的PCR,严格保护知识存储;对注意力层和其他参数(如LayerNorm)则用常规GRPO更新。这样既保护了核心知识,又避免了全模型计算开销。具体为:
g u p d a t e ( l ) = { g f i n a l ( l ) (见公式15) if θ ( l ) ∈ MLP g p l a ( l ) + β g s t a ( l ) otherwise ( 16 ) g^{(l)}{\mathrm{update}} = \begin{cases} g^{(l)}{\mathrm{final}} \quad \text{(见公式15)} & \text{if } \theta^{(l)} \in \text{MLP}\\ g^{(l)}{\mathrm{pla}} + \beta g^{(l)}{\mathrm{sta}} & \text{otherwise} \end{cases} \quad (16) gupdate(l)={gfinal(l)(见公式15)gpla(l)+βgsta(l)if θ(l)∈MLPotherwise(16)
参数用优化器更新:
θ t + 1 ( l ) ← θ t ( l ) − η ⋅ Optimizer ( g u p d a t e ( l ) ) \theta^{(l)}{t+1} \leftarrow \theta^{(l)}{t} - \eta \cdot \text{Optimizer}(g^{(l)}_{\mathrm{update}}) θt+1(l)←θt(l)−η⋅Optimizer(gupdate(l))
将PCR仅限于关键层,确保了训练稳定性和低额外成本。完整算法详见附录D。
5. 理论分析
本节证明PCR推导出的投影系数并非启发式经验,而是在最小均方误差(MMSE)标准下的精确解析解。也就是说,PCR在违反约束导致的偏差和噪声梯度导致的方差之间获得了最优平衡。
定理5.1(软投影的MMSE最优性)
考虑沿冲突轴的标量估计问题,单位向量 u = − μ s t a / ∥ μ s t a ∥ u = -\mu_{\mathrm{sta}}/\|\mu_{\mathrm{sta}}\| u=−μsta/∥μsta∥。设潜在真实更新 z ∗ ∼ N ( 0 , σ s t a 2 ) z^* \sim \mathcal{N}(0, \sigma^2_{\mathrm{sta}}) z∗∼N(0,σsta2),可塑性梯度提供带噪观测 z o b s = z ∗ + ϵ z_{\mathrm{obs}} = z^* + \epsilon zobs=z∗+ϵ,其中 ϵ ∼ N ( 0 , σ p l a 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2_{\mathrm{pla}}) ϵ∼N(0,σpla2) 独立。对所有线性估计器 z ∧ ( α ) = ( 1 − α ) z o b s z^{\wedge}(\alpha) = (1-\alpha)z_{\mathrm{obs}} z∧(α)=(1−α)zobs, α ∈ [ 0 , 1 ] \alpha \in [0,1] α∈[0,1],PCR采用的投影系数
α ∗ = λ s t a λ p l a + λ s t a \alpha^* = \frac{\lambda_{\mathrm{sta}}}{\lambda_{\mathrm{pla}} + \lambda_{\mathrm{sta}}} α∗=λpla+λstaλsta
可实现后验风险 R ( α ) = E [ ( z ∧ ( α ) − z ∗ ) 2 ] R(\alpha) = \mathbb{E}[(z^{\wedge}(\alpha)-z^*)^2] R(α)=E[(z∧(α)−z∗)2] 的全局最小。
该证明见附录G。
将 α ∗ \alpha^* α∗ 代入风险函数,可得PCR的最小风险 R PCR = ( λ p l a + λ s t a ) − 1 R_{\text{PCR}} = (\lambda_{\mathrm{pla}} + \lambda_{\mathrm{sta}})^{-1} RPCR=(λpla+λsta)−1。而PCGrad(硬投影, α = 1 \alpha = 1 α=1)风险为 σ s t a 2 \sigma^2_{\mathrm{sta}} σsta2,普通相加( α = 0 \alpha = 0 α=0)风险为 σ p l a 2 \sigma^2_{\mathrm{pla}} σpla2。由于联合精度总高于单一精度,故理论上 R PCR < R PCGrad R_{\text{PCR}} < R_{\text{PCGrad}} RPCR<RPCGrad 且 R PCR < R Sum R_{\text{PCR}} < R_{\text{Sum}} RPCR<RSum。
物理直观:若稳定约束不可靠( σ s t a 2 \sigma^2_{\mathrm{sta}} σsta2大),硬投影引入巨大偏差,PCR自动减小 α \alpha α以规避。若可塑性梯度不可靠( σ p l a 2 \sigma^2_{\mathrm{pla}} σpla2大),直接更新引入巨大方差,PCR自动增大 α \alpha α以抑制噪声。因此,PCR保证了比固定策略更优的收敛稳定性。
6. 实验
本节首先介绍实验设置,随后呈现评估结果,并通过消融实验分析方法优势。更多细节与结果见附录J-L。
6.1 实验设置
我们在多种推理基准上评估所提方法,涵盖竞赛数学与代码生成任务,包括AIME24--25、AMC、MATH500(Hendrycks等,2021)、MinervaMATH(Lewkowycz等,2022)和HumanEval(Chen等,2021)。实验采用四个基础模型:DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B以及Qwen2-7B-Instruct。对比对象为具有代表性的经典及最先进(SOTA)RL后训练基线,包括GRPO(Shao等,2024)、GVPO(Zhang等,2025)、MRT(Qu等,2025)和GCPO(Gu等,2025)。
数据准备方面,DeepScaleR-1.5B-Preview此前已在4万数学问答对上微调,本次进一步训练919道AIME题目(1989--2023年);DeepSeek-R1-Distill-Qwen-1.5B在NuminaMath(Li等,2024)中随机抽取4,000问答对微调。训练与评估均设置16,384的token预算。除非另有说明,学习率设为1e−6,权重衰减为0.01,批量大小256。所有实验在A100 GPU集群上运行。
6.2 性能分析
我们将PCR方法与上述各基线在多项基准上评测。采用DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B及DeepSeek-R1-Distill-Qwen-7B三款主流基础模型,性能以pass@1准确率衡量,遵循(Gu等,2025)协议。结果见表1。无论何种设置,PCR均稳居榜首,超越基础模型及竞争性RL基线。具体来看,PCR在所有基础模型上平均提升约3%。关键在于贝叶斯框架有效融合了泛化性与迁移能力。相较于可能过拟合具体奖励信号的传统RL基线(如GRPO在AMC表现负增长),PCR表现出更强鲁棒性,尤其在AIME和MinervaMATH等挑战性基准,领先最强基线近1.2%。结果充分证明了方法有效性。
为验证PCR的通用性,我们在代码推理任务上采用Qwen2-7B-Instruct模型,基于HumanEval协议,在0-shot及5-shot设置下评测。结果见图2,PCR在所有方法中取得最佳表现,领先基线约1.2%,进一步展示优势。
6.3 可视化分析
为深入探究PCR如何动态调解梯度冲突,我们展开一系列可视化实验。首先,展示训练过程中不同功能模块投影强度 α \alpha α 的统计分布(图5(a))。与PCGrad的二元投影( α ∈ { 0 , 1 } \alpha \in \{0,1\} α∈{0,1})不同,PCR展现连续自适应分布。值得注意的是,MLP层整体保持较高的 α \alpha α 密度,验证了我们假设:知识密集的MLP模块面临更剧烈的方向冲突,需更强的贝叶斯仲裁保障语言稳定性。随后,测量最终更新梯度 g f i n a l g_{\mathrm{final}} gfinal 与稳定性梯度 g s t a g_{\mathrm{sta}} gsta 训练全过程中的余弦相似度。图5(b)显示两者维持非负或略正相关。此外,我们重复第3.3节实验设置,记录对应结果。图6表明PCR打破了标准GRPO受限的次优帕累托前沿,既实现AIME准确率提升又保持WikiText-2 PPL稳定,证明PCR有效化解底层冲突,提升LLM性能。更多结果见附录L.2。
6.4 训练稳定性分析
考虑到LLM后训练成本高昂,优化稳定性对高效收敛与避免崩溃至关重要。不稳定通常根源于奖励最大化与参考保持间梯度冲突,导致更新方差放大、计算资源浪费。为量化该现象,我们采用梯度范数作为优化平滑度的代理,符合标准RL实践(Xiao等,2025)。图3显示,PCR在所有方法中训练动态最为稳定。GRPO因梯度冲突表现剧烈振荡,而PCR能保持相对平滑且一致的梯度范数,彰显贝叶斯融合机制的有效性。
6.5 消融实验
为验证PCR各组成部分的必要性,我们进行了消融研究。首先,将PCR(自动计算 α \alpha α)与固定软投影基线( α ∈ { 0.2 , 0.5 , 0.8 } \alpha \in \{0.2, 0.5, 0.8\} α∈{0.2,0.5,0.8})比较。图4(a)结果表明PCR持续优于任一固定启发式,证明贝叶斯仲裁优势。其次,评估PCR在不同层子集上的应用效果。图4(b)展示,仅对MLP层应用PCR即可获得与全模型相当的性能提升,同时显著缩短训练时间,验证设计合理性。
此外,我们还对权重系数 β \beta β 和PCR参数学习率 η \eta η 进行了敏感性分析。图6(a)和4©显示,PCR对 β \beta β 变化高度鲁棒,且随着参数更新幅度增大,性能持续提升。
7. 结论
本文将GRPO训练不稳定归因于任务特定优化与参考保持间的高维冲突。指出标准梯度聚合因群体采样的随机性而失败。为此,提出概率冲突解决(PCR),将梯度投影重构为贝叶斯推断问题。通过自适应平衡探索偏差与约束方差,PCR在梯度空间表现为最优线性滤波器。实验证明了PCR方法的有效性。
影响声明
本论文旨在推动机器学习领域的发展,涉及多种潜在社会影响,但无须在此特别强调。