阿里:揭示RLVR训练不稳定性根源

📖标题:Probing RLVR training instability through the lens of objective-level hacking

🌐来源:arXiv, 2602.01103v1

🌟摘要

具有可验证奖励的长时间强化学习(RLVR)已被证明可以推动大型语言模型推理能力的持续改进,但训练往往容易出现不稳定性,尤其是在混合专家(MoE)架构中。训练不稳定性严重破坏了模型能力的改进,但其潜在原因和机制仍然知之甚少。在这项工作中,我们引入了一个原则性框架,用于通过客观级别黑客的镜头来理解RLVR不稳定性。与奖励黑客不同,奖励黑客来自可利用的验证者,客观级黑客来自令牌级信用错位,并在优化目标中表现为系统级的虚假信号。基于我们的框架,加上对30BMoE模型的广泛实验,我们追溯了MoE模型中关键病理训练动态背后的起源并形式化了机制:训练推理差异的异常增长,这一现象广泛与不稳定性相关,但以前缺乏机械解释。这些发现为MoE模型中不稳定性背后的训练动态提供了具体和因果解释,为设计稳定的RLVR算法提供了指导。

🛎️文章简介

🔸研究问题:为什么MoE架构下的强化学习可验证奖励(RLVR)训练会持续出现不稳定性,尤其是训练-推理差异异常扩大这一关键病理现象?

🔸主要贡献:论文提出目标层劫持理论框架,揭示了token级信用错配如何通过优化目标中的系统级伪影信号导致MoE模型训练不稳定性。

📝重点思路

🔸构建目标层劫持理论框架,类比奖励黑客攻击,指出其源于token级信用分配失准(如训练与推理策略分布不一致),而非 verifier 设计缺陷。

🔸推导出训练-推理差异会引入优化目标的隐式偏差项ΔJ(θ)≈∑Cov(Xi,t, ρ⁻¹i,t),该偏差等效于对目标函数施加有偏扰动,驱动模型向放大差异的方向优化。

🔸识别多种目标层黑客攻击来源:初始训练-推理差异、token级裁剪、主动注入的token权重扭曲,统一建模为Jdist(θ)=J(θ)+ΔdistJ(θ)。

🔸设计三组受控实验:TIS校正目标偏差、调节token裁剪强度、显式注入高低概率token权重扭曲,验证不同形式ΔdistJ(θ)与差异增长的统计相关性。

🔸引入token级重要性权重ρi,t的标准差作为细粒度差异指标,并通过PCC、最大ρi,t、熵等多维指标刻画推理模式崩溃过程。

🔎分析总结

🔸TIS校正显著减缓训练-推理差异增长及token熵衰减,证明目标函数偏差是差异扩大的主因,而非单纯基础设施不一致。

🔸更强的token级裁剪反而加速差异增长,而序列级裁剪无此现象,说明token粒度的信用重分配具有双刃剑效应。

🔸仅20%提升低概率token权重即可触发差异异常增长,且降低权重同样有效,证实核心机制是"权重扭曲"本身而非方向。

🔸注入无偏方差噪声(高斯扰动)不引发差异增长,证明偏差(bias)而非方差(variance)是驱动因素。

🔸低概率token的ρi,t持续下降,形成"生存偏差→权重扭曲加剧→差异扩大"的正反馈闭环,解释训练崩溃不可逆性。

💡个人观点

论文跳出传统奖励黑客视角,将训练不稳定性归因于优化目标中由token级信用错配诱发的隐式、累积性虚假信号。

🧩附录

相关推荐
七夜zippoe2 分钟前
基于Rokid AI Glasses的「社交眼」:面向社交障碍人群的实时情绪辅助智能体开发实践
人工智能·情绪识别·智能体·眼镜·rokid
弹简特3 分钟前
【AI辅助趣学SpringAI】03-聊天模型之SSE流式编程
人工智能·sse·springai
传说故事5 分钟前
【论文阅读】RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis
论文阅读·人工智能·具身智能
桌面运维家16 分钟前
IDV云桌面vDisk机房建设方案如何查看分组使用统计
大数据·人工智能
前端摸鱼匠20 分钟前
【AI大模型春招面试题25】掩码自注意力(Masked Self-Attention)与普通自注意力的区别?适用场景?
人工智能·ai·面试·大模型·求职招聘
我是大聪明.23 分钟前
RAG检索增强生成技术深度解析
人工智能
沫儿笙24 分钟前
FANUC发那科机器人新能源车焊接节气装置
人工智能·机器人
2401_8322981025 分钟前
OpenClaw云服务器优化技巧:降本50%,性能提升3倍
人工智能
王莎莎-MinerU28 分钟前
MinerU + LangChain 实战:从 PDF 解析到 AI 问答全流程
人工智能·langchain·pdf·开源·产品运营·团队开发·个人开发
赋创小助手30 分钟前
RTX PRO 6000 vs RTX 5090:从一组230B模型测试数据谈企业级推理选型
服务器·人工智能·科技·深度学习·自然语言处理