百度:动态偏好选择提升LLM对齐稳定性

📖标题:Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models

🌐来源:arXiv, 2602.01207v1

🌟摘要

基于偏好的对齐对于训练大型推理模型至关重要;然而,像直接偏好优化(DPO)这样的标准方法通常统一处理所有偏好对,忽略了训练实例的不断变化的效用。这种静态方法通常会导致低效或不稳定的优化,因为它浪费了对梯度可忽略不计的琐碎对的计算,并受到不确定决策边界附近样本引起的噪声的影响。面对这些挑战,我们提出了SAGE(稳定感知梯度效率),这是一个动态框架,旨在通过最大化策略更新的信噪比来增强对齐可靠性。具体而言,SAGE集成了基于模型能力的粗粒度课程机制和细粒度、稳定性感知评分功能,该功能优先考虑信息丰富、自信的错误,同时过滤掉不稳定的样本。多个数学推理基准的实验表明,SAGE显著加快了收敛速度,优于静态基线,突出了策略感知、稳定性感知数据选择在推理对齐中的关键作用。

🛎️文章简介

🔸研究问题:如何在推理模型的偏好对齐中避免静态数据选择导致的梯度低效与优化不稳定?

🔸主要贡献:论文提出SAGE框架,通过策略感知、稳定感知的动态偏好选择,显著提升对齐过程的收敛速度、稳定性和样本效率。

📝重点思路

🔸设计粗粒度可刷新池机制,依据模型能力随训练阶段动态调整易/中/难样本池的混合比例,形成计算友好的课程学习。

🔸构建细粒度SAGE评分函数,以牛顿减量为灵感,联合建模梯度信号强度(1−p)²与局部曲率代理(p(1−p)),实现信噪比驱动的样本筛选。

🔸引入长度归一化与Tikhonov阻尼项,消除响应长度偏差并保障数值稳定性,使评分适用于长思维链场景。

🔸采用硬截断策略,仅保留Top-γ分数样本参与反向传播,物理剔除弱信号或高曲率噪声样本,而非软加权。

🔎分析总结

🔸SAGE在GSM8K至AIME24等8个数学推理基准上全面超越DPO全量/随机基线,平均准确率最高提升3.51%,验证其泛化有效性。

🔸梯度范数曲线显示SAGE显著降低梯度幅值与方差,训练更平滑,证实其通过曲率正则化缓解了高曲率区域的更新不稳定性。

🔸消融实验证明:移除曲率正则化(w/o h)导致Minerva等难题性能下降最剧烈,凸显稳定性对复杂推理的关键作用。

🔸SAGE在更少有效训练token下达到更高精度,且墙钟时间与基线相当,说明前向评分开销可控,反向传播更高效。

💡个人观点

论文将优化理论(牛顿减量)引入偏好对齐的数据选择,揭示推理任务中"样本效用动态耦合于模型状态+局部损失几何"的双重本质。

🧩附录

相关推荐
ZYH10140几秒前
OpenClaw 多 Agent 与飞书机器人(AI团队)
人工智能·机器人·飞书·ai团队·小龙虾养殖·openclaw团队·openclaw接入飞书
serve the people1 分钟前
XGBoost、LSTM、Transformer 在时序异常检测中的原理与选型
人工智能·lstm·transformer
深小乐1 分钟前
ChatGPT Image2,作图太太太太太强了!
人工智能
Apple_羊先森2 分钟前
# MOSS-TTS-Nano 教程 02:CLI 与 Web Demo 实战
前端·人工智能
卖酸奶的不错3 分钟前
FlowPrompt Studio v3.1
大数据·人工智能
牛奶还是纯的好3 分钟前
从“塞文本进 Prompt“到“结构化记忆“:Agent 记忆的正确姿势
人工智能·ai·agents
m0_743106467 分钟前
【浙大&南洋理工最新综述】Feed-Forward 3D Scene Modeling(五)
人工智能·算法·计算机视觉·3d·几何学
智象科技7 分钟前
AI重构IT运维:从被动救火到智能自治,这场革命已不可逆!
大数据·运维·人工智能·ai·重构·一体化运维
badfl1 小时前
OpenAI最新模型gpt-image-2:介绍、API价格、使用教程全汇总
人工智能·gpt·ai
亿电连接器替代品网2 小时前
Bulgin连接器在自动化与能源系统中的应用及国产替代策略
大数据·网络·人工智能·经验分享·物联网·硬件工程·材料工程