一、背景:为什么 RLHF 被取代了?
据 llm-stats.com 2026 年 3 月 11 日发布的综述《Post-Training in 2026: GRPO, DAPO, RLVR & Beyond》,过去 12 个月发布的每个主要模型------从 DeepSeek-R1 到 Nemotron 3 Super 再到 GPT-5.3 Codex------都使用了不同的后训练技术栈。RLHF(基于人类反馈的强化学习)的标准配方已经「死了」。
RLHF 的三大瓶颈:
- 成本高昂:需要人类标注员生成偏好对数据,标注成本随模型能力提升指数增长
- Critic 模型开销 :PPO 算法需要维护一个与策略模型同等规模的 Critic(价值)模型,显存翻倍
- 扩展性差:人类标注速度远跟不上模型训练速度,成为瓶颈
新一代方法从不同角度突破这三个瓶颈,形成了完整的替代方案。
二、现代后训练三阶段架构
在深入单个技术之前,先理解 2026 年主流的后训练流水线:
1-10M 样本
对齐人类偏好
突破训练数据上限
预训练模型
SFT
监督微调
偏好优化
DPO/SimPO/KTO
强化学习
GRPO/DAPO + RLVR
生产模型
| 阶段 | 目标 | 核心技术 | 典型数据量 |
|---|---|---|---|
| SFT(监督微调) | 学会指令遵循和格式化输出 | 标准微调 | 1-10M 样本 |
| 偏好优化 | 对齐人类价值观和偏好 | DPO / SimPO / KTO / ORPO | 100K-1M 偏好对 |
| 强化学习 | 突破训练数据上限,发现新策略 | GRPO / DAPO + 可验证奖励 | 按需生成 |
据 Nemotron 3 Super 的技术报告,其 SFT 阶段使用了 700 万样本(从 4000 万候选中筛选),RL 阶段跨 21 种环境配置生成了 120 万条 rollout。
三、GRPO:消除 Critic 模型的优雅方案
3.1 核心原理
GRPO(Group Relative Policy Optimization)由 DeepSeek 团队在 DeepSeekMath 中提出,后在 DeepSeek-R1 中大规模应用。
PPO 的问题: PPO 需要一个单独的 Critic 模型来估计每个 token/序列的价值函数 V(s),这意味着:
- 显存占用翻倍(Critic 模型与策略模型同等规模)
- 价值估计噪声大,导致训练不稳定
- 工程复杂度高
GRPO 的解决方案: 对每个 prompt 采样一组响应(通常 8-64 个),用组内相对排名替代绝对价值估计:
A i = r i − μ σ A_i = \frac{r_i - \mu}{\sigma} Ai=σri−μ
其中 r i r_i ri 是第 i i i 个响应的奖励, m u mu mu 和 σ \sigma σ 是组内奖励的均值和标准差。
3.2 理论保证
据最新理论分析(arxiv 2603.22117v1,2026 年 3 月),GRPO 的策略梯度是一个 U-统计量 ,使其渐近等价于拥有理想价值函数的 Oracle 算法 。换句话说,GRPO 不是一个「碰巧有效的 hack」,而是在一大类策略梯度方法中可证明最优的。
3.3 PyTorch 实现核心逻辑
python
import torch
import torch.nn.functional as F
def grpo_loss(
policy_logprobs: torch.Tensor, # [batch, group_size, seq_len]
ref_logprobs: torch.Tensor, # [batch, group_size, seq_len]
rewards: torch.Tensor, # [batch, group_size]
clip_eps: float = 0.2,
kl_coeff: float = 0.01,
) -> torch.Tensor:
"""
GRPO 损失函数核心实现
- 组内归一化替代 Critic 模型
- PPO-style clip 保证训练稳定性
"""
# 1. 组内归一化计算优势值(核心!无需 Critic 模型)
mean = rewards.mean(dim=1, keepdim=True)
std = rewards.std(dim=1, keepdim=True).clamp(min=1e-8)
advantages = (rewards - mean) / std # [batch, group_size]
# 2. 计算策略比率
log_ratio = (policy_logprobs - ref_logprobs).sum(dim=-1)
ratio = torch.exp(log_ratio) # [batch, group_size]
# 3. PPO-style clip
clipped_ratio = torch.clamp(ratio, 1 - clip_eps, 1 + clip_eps)
policy_loss = -torch.min(
ratio * advantages,
clipped_ratio * advantages
).mean()
# 4. KL 散度正则化
kl_div = (ref_logprobs - policy_logprobs).sum(dim=-1).mean()
return policy_loss + kl_coeff * kl_div
3.4 Prompt Replay:加速 GRPO 训练
据 arxiv 2603.21177v1(2026 年 3 月),Prompt Replay 技术通过重用之前采样的 prompt-response 对来减少在线采样开销。核心思想:不是每个训练步骤都重新采样全部响应,而是混合使用新采样和历史采样的数据,显著降低计算成本的同时保持训练效果。
四、DAPO:稳定长链推理训练
4.1 问题:长 CoT 训练为什么不稳定?
当训练推理模型(如数学证明、多步编程)时,Chain-of-Thought 输出可能长达数千 tokens。传统 RL 方法在这种场景下面临:
- 梯度消失:序列级别的损失在长序列上梯度信号极弱
- 熵崩塌:模型过早收敛到单一策略,失去探索能力
- 奖励噪声:超长响应被截断时的奖励信号不可靠
4.2 DAPO 的四项关键技术
DAPO(Dynamic Advantage Policy Optimization)由字节跳动和清华大学于 2025 年联合提出,针对长链推理 RL 训练设计了四项稳定化技术:
| 技术 | 解决的问题 | 核心机制 |
|---|---|---|
| Clip-Higher | 熵崩塌 | 增大策略比率的上界 clip 范围,保持探索性 |
| Dynamic Sampling | 梯度信号不一致 | 过滤 batch 中的无信息样本,保持梯度质量 |
| Token-level Loss | 长序列梯度消失 | Token 级别策略梯度损失替代序列级别 |
| Overlong Reward Shaping | 截断奖励噪声 | 对超长响应的奖励进行平滑处理 |
4.3 关键实现差异:Token-level vs Sequence-level
python
# ❌ 序列级别损失(传统方法)------ 长序列梯度消失
seq_loss = -log_prob_sequence * advantage # 单一标量乘以优势值
# ✅ Token 级别损失(DAPO)------ 每个 token 都有梯度信号
def dapo_token_level_loss(
token_logprobs: torch.Tensor, # [batch, seq_len]
advantages: torch.Tensor, # [batch]
mask: torch.Tensor, # [batch, seq_len] 有效 token 掩码
) -> torch.Tensor:
"""
DAPO Token-level Policy Gradient Loss
关键:将优势值广播到每个 token 位置
"""
# 优势值广播到 token 级别
token_advantages = advantages.unsqueeze(-1) * mask # [batch, seq_len]
# 每个 token 独立计算策略梯度
token_loss = -token_logprobs * token_advantages
# 按有效 token 数归一化
return token_loss.sum() / mask.sum()
4.4 效果对比
在 AIME 2024 数学竞赛基准上:
| 方法 | 基座模型 | AIME 2024 得分 | 训练步数 |
|---|---|---|---|
| DeepSeek-R1-Zero(PPO) | DeepSeek-V3 | 71.0 | ~10K |
| DAPO | Qwen2.5-32B | 50.0 | ~5K(少 50%) |
| GRPO(DeepSeek-R1) | DeepSeek-V3 | 79.8 | ~8K |
DAPO 在模型规模仅为 DeepSeek-R1 约 1/10 的情况下达到了 50 分的竞争力水平,且训练步数减少 50%,系统完全开源。
五、RLVR:用可验证奖励替代人工标注
5.1 核心思想
RLVR(Reinforcement Learning with Verifiable Rewards)的核心洞察简洁有力:对于数学、代码和结构化推理任务,你根本不需要人类来判断质量。
- 单元测试可以验证代码正确性
- 数学验证器可以检查证明过程
- 形式化规范可以评估逻辑一致性
这些自动验证器提供的二值信号比任何人类标注员都更快、更便宜、更一致。
生成响应
输出答案
✅ 正确
❌ 错误
验证器类型
策略模型
数学/代码问题
可验证奖励
奖励 = 1
奖励 = 0
GRPO/DAPO 更新策略
单元测试
数学验证器
证明检查器
5.2 DeepSeek-R1 的 RLVR 实验
据 DeepSeek-R1 论文(arxiv 2501.12948),纯 RLVR 训练产生了令人惊讶的涌现能力:
- 自我反思:模型学会了在推理过程中检查和修正自己的错误
- 动态策略切换:面对不同难度的问题自动调整推理深度
- Chain-of-Thought 自发生成:未经任何 CoT 数据训练,模型自发学会了逐步推理
这些能力完全通过 RL + 可验证奖励涌现,无需任何人类标注的推理轨迹。
5.3 RISE:自我验证能力训练
RLVR 存在一个微妙问题:模型学会了生成正确答案,但没有学会验证自己的推理过程。
RISE(Reinforced Self-Verification)在单一 RL 过程中同时训练问题求解和自我验证能力,使用相同的可验证奖励信号。结果是模型在推理阶段能够发现并纠正自己的错误。
5.4 处理噪声验证器
现实中的验证器并不完美------数学检查器有边界情况,代码测试可能不完整。最新研究开发了去偏校正算法,在验证器噪声条件下对观测奖励进行去偏,防止模型利用验证信号中的假阳性。
六、偏好优化新方向:超越 DPO
除了 RL 阶段的变革,偏好优化阶段也在快速演进:
| 方法 | 核心创新 | 关键优势 | 代表性结果 |
|---|---|---|---|
| SimPO | 用平均 log 概率作为隐式奖励 | 移除参考模型,节省显存 | AlpacaEval 2 +6.4, Arena-Hard +7.5 |
| KTO | 二值反馈替代偏好对 | 降低数据收集成本 | 适合生产系统(点赞/点踩信号) |
| ORPO | 合并 SFT 和偏好优化为单阶段 | 减少训练时间,消除分布偏移 | 零外部依赖(无 RM、无 Ref 模型) |
其中 ORPO 特别值得关注------它将 SFT 和偏好优化合并为单一训练目标,使用 odds ratio 完成两个阶段的工作,是目前最简化的对齐方法。
七、前沿:Agentic 后训练
后训练的最新前沿是训练模型执行多步工具使用和自主工作流,这需要交互式 RL 环境而非静态数据集。
7.1 NeMo Gym
NVIDIA 的 NeMo Gym 提供交互式 RL 环境,支持多轮 rollout、工具调用验证和解耦的 Agent/环境架构。Nemotron 3 Super 在 21 种环境配置中生成 120 万条 rollout 完成训练。
7.2 安全性:MOSAIC
MOSAIC(2026 年 3 月发布)解决了一个关键问题:如何训练 Agent 知道何时拒绝。它将推理结构化为「规划 → 检查 → 执行或拒绝」,在 Qwen 和 Phi 模型上测试显示有害行为减少 50%,同时保持任务性能。
八、工程实战:技术选型指南
8.1 决策树
是(数学/代码)
否(开放式生成)
是
否,只有二值反馈
否,想要极简流程
>10B 参数
<10B 且长 CoT
通用场景
你的任务类型?
有可验证的
正确性标准?
使用 RLVR
有偏好对数据?
DPO/SimPO
KTO
ORPO
模型规模?
GRPO(省显存)
DAPO(训练稳定)
GRPO(默认选择)
8.2 显存对比
| 方法 | 策略模型 | Critic 模型 | 参考模型 | 奖励模型 | 总显存(相对值) |
|---|---|---|---|---|---|
| PPO + RLHF | ✅ | ✅ | ✅ | ✅ | 4x |
| GRPO + RLVR | ✅ | ❌ | ✅ | ❌ | 2x |
| DAPO + RLVR | ✅ | ❌ | ❌ | ❌ | 1x |
| ORPO(合并 SFT+偏好) | ✅ | ❌ | ❌ | ❌ | 1x |
8.3 开源资源
| 项目 | 技术 | 链接 |
|---|---|---|
| OpenRLHF | GRPO / PPO / DPO 统一框架 | github.com/OpenRLHF/OpenRLHF |
| verl (Volcano Engine RL) | GRPO 高效分布式训练 | github.com/volcengine/verl |
| DAPO 官方实现 | DAPO 四项技术完整代码 | github.com/ByteDance/DAPO |
| NeMo Gym | Agentic RL 环境 | github.com/NVIDIA/NeMo |
九、未来展望
据 llm-stats.com 分析,三个方向将定义后训练研究的下一年:
- 统一流水线:ORPO 已经合并了 SFT 和偏好优化,下一步是将三个阶段合并为单一训练目标
- 环境原生训练:从静态数据集到交互式环境(NeMo Gym、RLFactory)的转变刚刚开始,纯文本对训练的模型在 Agentic 任务上将逐渐落后
- 自动课程生成:模型自动识别弱点、生成针对性训练数据、训练后重复,形成无需人工干预的闭环
如果这篇文章对你有帮助:
💬 你在生产环境中用过哪种后训练方法?GRPO 的效果相比 PPO 提升如何?欢迎评论区分享实战经验!
🔔 关注我,持续追踪 LLM 训练技术的最新突破
👍 点赞收藏,打造你的 AI 工程知识库