作业帮团队联合香港科技大学(广州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通过避免重要性采样解决了 GRPO 的稳定性难题,并能在理论上提供了唯一最优解保证,并且在实验中表现全面超越现有方法。
先贴一下文章的PDF地址:下载地址
这篇文档讲的是一个用于大语言模型后训练阶段 的新方法,叫做 GVPO(Group Variance Policy Optimization),可以理解为一种更聪明、更稳定的"调教"模型的方式。
用大白话来说,它主要解决了以下几个问题:
1. 为什么要"后训练"?
-
大模型(比如ChatGPT这类)虽然知识渊博,但有时候回答不一定符合人类的偏好,比如可能啰嗦、有偏见、或者答非所问。
-
"后训练"就是为了让模型更听话、更靠谱、更符合我们的需求。
2. 之前的后训练方法有啥问题?
-
像 GRPO 这类方法,虽然效果好,但训练过程很不稳定,动不动就"跑偏",需要反复调超参参数,很麻烦,而且缺少必要的方法论,每次都有"猜"的成分在里边。
-
像 DPO 这类方法,虽然简单有效,但理论上不能保证一定能找到最优解,有时候会卡在"次优"状态,嗯,收敛有问题。
3. GVPO 是怎么做的?
-
GVPO 的核心思想是:让模型自己去学什么样的回答是"好"的,同时别离初始模型太远(防止学歪)。
-
它通过一种巧妙的数学设计,不需要额外训练一个"奖励模型",而是直接用模型的输出和人工给的分数去对比。
-
它还有一个"零和权重"的设计,让训练过程更稳定,不需要反复采样,也不怕梯度爆炸。
4. GVPO 有啥优点?
-
保证能找到唯一最优解:不会像 DPO 那样可能陷入次优状态。
-
支持灵活的数据来源:可以用旧数据、别人家的数据、甚至混合数据来训练,不需要每次都重新生成。
-
训练稳定:不容易"崩",对超参数不敏感,调参压力小。
-
效果好:在数学推理等任务上,比 GRPO、DPO 等方法表现更好。
5. 实验结果是啥?
-
他们在数学题数据集上测试,GVPO 在多个任务(如 AIME、AMC、MATH500 等)上都超过了其他方法。
-
即使模型小一点(比如 1.5B 参数),只要用 GVPO,效果也能媲美大模型。
用表格来对比下论文中提到的几种后训练方法:
对比维度 | GVPO(Group Variance Policy Optimization) | GRPO(Group Relative Policy Optimization) | DPO(Direct Preference Optimization) |
---|---|---|---|
核心设计思想 | 通过 "零和权重" 抵消不可计算的分区函数,将优化转化为 "模型隐式奖励" 与 "真实奖励" 的均方误差(MSE)最小化。 | 基于 "组内相对奖励":同一 prompt 生成多候选答案,通过组内奖励差异计算优势,指导策略更新。 | 直接利用 "成对偏好数据"(如 "答案 A 优于答案 B"),通过 Sigmoid 函数放大优质答案的概率权重。 |
理论最优解保证 | 唯一最优解,且恰好对应 "KL 约束下的奖励最大化" 目标,避免次优解陷阱。 | 无严格最优解证明,依赖启发式调整(如 Clip 阈值),可能陷入局部最优。 | 存在多最优解问题,优化目标可能偏离真实奖励最大化。 |
训练稳定性 | 天然稳定:MSE 损失机制温和,无需梯度裁剪,参数调整时效果波动极小。 | 稳定性差:依赖 Clip 机制限制更新幅度,参数(如组大小 K、ε)敏感,易出现训练崩溃。 | 中等稳定:受 β 值(优化强度)影响,β 过大易导致策略突变。 |
数据采样灵活性 | 极高:支持旧样本、新样本、混合样本,无需 On-policy 实时采样,样本利用率高。 | 较低:需从当前策略采样(On-policy),用旧样本需重要性采样,易引发梯度爆炸 / 消失。 | 较低:仅支持成对偏好数据,多候选场景需拆分数据,效率低。 |
计算开销 | 低:无需额外网络(如 Critic),仅需修改少量代码即可实现,显存占用与 GRPO 相当。 | 中:无需 Critic 网络,显存比 PPO 低 30%,但组内多候选生成增加推理耗时。 | 低:无需奖励模型和 Critic 网络,显存占用最低,但数据标注需成对对比。 |
适用核心场景 | 高精度推理任务(如数学竞赛题、逻辑推理),需稳定收敛且追求最优性能。 | 资源受限场景(如消费级 GPU)、多候选生成任务(如代码生成),允许一定性能波动。 | 快速偏好对齐任务(如对话友善性优化),有高质量成对偏好数据的场景。 |
关键实验表现(数学推理) | 最优:Qwen2.5-Math-7B 模型在 AIME2024 题正确率达 20.72%,超基础模型 6.04 个百分点,全 benchmark 第一。 | 中等:DeepSeek-R1 在 GSM8K 达 51.7%,但性能弱于 GVPO,参数调整时波动大。 | 较弱:推理任务中易卡次优解,数学题正确率显著低于 GVPO。 |
总结:
GVPO 是一种更稳、更准、更灵活的大模型后训练方法,既能保证训练不跑偏,又能有效提升模型的表现,特别适合需要高质量输出的场景(比如数学推理、代码生成等)。
GVPO的真正创新在于其优化算法设计,它解决了GRPO和DPO等方法的根本性问题:
-
训练稳定性:GRPO被文档指出存在训练不稳定的问题,对超参数(如clip threshold、KL系数)非常敏感,需要仔细调参。而GVPO通过其数学设计(如零和权重、方差优化),保证了训练过程更稳定,对超参数不敏感。
-
理论最优解:GVPO被证明有唯一最优解,这个解正好是KL约束奖励最大化问题的解。而GRPO和DPO没有这样的保证------DPO可能收敛到次优解,GRPO可能发散。
-
采样灵活性:GVPO支持离策略(off-policy)采样,意味着你可以使用历史数据、专家数据或其他来源的样本进行训练,而不需要每次都从当前策略生成新样本。这提高了数据效率。GRPO通常需要当前策略的样本(on-policy),或者依赖重要性采样,这可能带来梯度爆炸问题。
GVPO的优越性强烈依赖于一个高质量、可自动计算的奖励信号。
-
它的主战场 :是那些有明确、客观评判标准的任务,例如:
-
数学推理(答案对错)
-
代码生成(代码能否通过测试用例)
-
规则严格的文本生成(如格式固定、信息提取完整的报告)
-
-
它的局限性 :在于主观性较强的领域,例如:
-
聊天对话的有趣性、安全性
-
创意写作的质量
-
摘要的流畅度和忠实度
-
在这些主观领域,你依然需要训练一个奖励模型来提供"人工分数" 。在这种情况下,GVPO的价值就体现在:当你有一个(无论如何得到的)奖励模型后,GVPO可以作为一个更稳定、更可靠的"优化器",来利用这个奖励模型训练出更好的策略模型。
所以结合这篇论文是"作业帮"联合大学提出的,就很合理了,毕竟应试教育中,大部分的题目是有标准答案的,所以就很好理解了,嗯,是这样的。