强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书 《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

[GPT多模态大模型与AI Agent智能体系列七十](#GPT多模态大模型与AI Agent智能体系列七十)
- 强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？
总结

GPT多模态大模型与AI Agent智能体系列七十

强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？

强化学习三大核心算法深度对比：从经典到前沿的进化之路

在强化学习的算法江湖中，PPO、GRPO、DPO凭借各自的独特设计，成为不同场景下的「利器」。从通用任务到大模型训练，从稳定更新到捕捉不确定性，三者的核心逻辑与适用场景大相径庭。下面逐一解析它们的底层逻辑与实战价值。

一、PPO：强化学习的「万能钥匙」，稳定高效的经典之作

作为OpenAI 2017年提出的策略梯度算法，PPO以「简单、稳定、高效」横扫强化学习领域，至今仍是多数任务的首选基线算法。

核心思想：给策略更新「上保险」

PPO的痛点解决：传统策略梯度算法常因参数更新幅度过大导致训练崩溃，而TRPO（信赖域策略优化）虽稳定但计算复杂。PPO用「裁剪机制」巧妙平衡------允许策略迭代优化，但严格限制每一步的更新幅度，确保新策略不偏离旧策略太远。

关键公式：裁剪目标函数

核心是通过概率比和裁剪操作限制更新：
L C L I P ( θ ) = E t [ min ⁡ ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]

$r_t(\\theta) = \\frac{\\pi_\\theta(a_t\|s_t)}{\\pi_{\\theta_{\\text{old}}}(a_t\|s_t)}$ ：新/旧策略的概率比，衡量策略变化幅度；
$\\text{clip}(r_t, 1-\\epsilon, 1+\\epsilon) ：将比率限制在：将比率限制在：将比率限制在 \[1-\\epsilon, 1+\\epsilon\] （通常（通常（通常 \\epsilon=0.2$ ），防止突变；
$A_t ：优势函数，评价动作相对好坏（：优势函数，评价动作相对好坏（：优势函数，评价动作相对好坏（ A_t\>0$ 表示动作优于平均水平）。

特点与适用场景

优势：实现简单（无需复杂约束优化）、训练稳定（裁剪机制防崩溃）、样本利用率高（可重复使用数据多轮更新）；
短板：对大语言模型（LLM）等序列生成任务的针对性不足；
适用场景：游戏AI、机器人控制、自动驾驶决策等通用强化学习任务。

二、GRPO：大模型推理的「专属优化器」，从PPO进化而来的序列王者

GRPO（Group Relative Policy Optimization）由DeepSeek提出，专为大语言模型（LLM）的推理任务设计，在PPO基础上强化了对「序列生成质量」和「策略多样性」的优化。

核心思想：让模型在「群体中」更懂优劣

LLM生成序列（如回答问题）时，单一输出的奖励难以反映真实优劣。GRPO通过「组内对比」和「动态奖励」，让模型更精准地学习「什么是好的输出」。

三大关键改进（对比PPO）

奖励计算：不止看绝对分，更看相对优

奖励不仅依赖奖励模型评分，还加入参考策略的熵约束，鼓励多样性：
r t = r ϕ ( q , a ≤ t ) − β log ⁡ π ref ( a t ∣ q , a < t ) π θ ( a t ∣ q , a < t ) r_t = r_\phi(q, a_{\le t}) - \beta \log \frac{\pi_{\text{ref}}(a_t|q, a_{<t})}{\pi_\theta(a_t|q, a_{<t})} rt=rϕ(q,a≤t)−βlogπθ(at∣q,a<t)πref(at∣q,a<t)
- $r_\\phi ：奖励模型对「问题：奖励模型对「问题：奖励模型对「问题 q + 已生成序列 +已生成序列 +已生成序列 a_{\\le t}$ 」的评分；
- 第二项：通过参考策略 $\\pi_{\\text{ref}}$ 与当前策略的概率比，避免模型生成过于单一的序列（熵越大，多样性越高）。
优势估计：组内归一化，放大差异

对同一问题的多个输出奖励做归一化，突出「相对优势」：
a ^ i , t = r i − mean ( r ) std ( r ) \hat{a}_{i,t} = \frac{r_i - \text{mean}(r)}{\text{std}(r)} a^i,t=std(r)ri−mean(r)

（ $r_i 为组内第为组内第为组内第 i$ 个输出的奖励，归一化后不同问题的奖励可直接对比）。
目标函数：强化约束，更稳更优

在PPO裁剪机制基础上，加入KL散度惩罚，进一步限制与参考策略的偏离：
J GRPO ( θ ) = ∑ i , t min ⁡ ( r t A t , clip ( r t , 1 − ϵ , 1 + ϵ ) A t ) − β D KL ( π θ ∥ π ref ) J_{\text{GRPO}}(\theta) = \sum_{i,t} \min \left( r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) JGRPO(θ)=i,t∑min(rtAt,clip(rt,1−ϵ,1+ϵ)At)−βDKL(πθ∥πref)

特点与适用场景

优势：针对性优化LLM序列生成（如问答、代码生成）、奖励信号更精准、策略多样性更强；
短板：仅适用于序列生成任务，通用性弱于PPO；
适用场景：大语言模型对齐（RLHF）、长文本生成、推理链优化等。

三、DPO：捕捉「不确定性」的高手，风险敏感任务的不二之选

DPO（Distributional Policy Optimization）跳出「只优化期望回报」的框架，直接建模「回报的完整概率分布」，更适合需要「规避风险」的场景。

核心思想：不只看平均收益，更看收益的「可能性」

传统方法（如PPO）用 $Q(s,a) = \\mathbb{E}\[Z(s,a)\] （（（ Z$ 为累积回报）描述动作价值，但忽略了回报的波动性（如"有50%概率得100分，50%得0分"与"稳定得50分"的期望相同，但风险迥异）。

DPO直接建模 $Z(s,a) 的分布（如正态分布的分布（如正态分布的分布（如正态分布 \\mathcal{N}(\\mu, \\sigma)$ ），通过优化分布与目标分布的距离（如KL散度）学习策略：
θ ← arg ⁡ min ⁡ θ D KL ( Z target ( s , a ) ∥ Z θ ( s , a ) ) \theta \leftarrow \arg\min_\theta D_{\text{KL}}\left( Z_{\text{target}}(s,a) \| Z_\theta(s,a) \right) θ←argθminDKL(Ztarget(s,a)∥Zθ(s,a))

特点与适用场景

优势：能捕捉环境不确定性（如自动驾驶中的突发障碍）、对风险敏感任务更友好（可优先选择「回报稳定」的动作）；
短板：实现复杂（需建模完整分布）、计算成本高；
适用场景：金融风控、自动驾驶安全决策、医疗诊断等高风险领域。

三巨头终极对比：选对算法，事半功倍

维度	PPO	GRPO	DPO
核心优化目标	限制策略更新幅度，稳定提升	强化序列生成质量与多样性	建模回报分布，捕捉不确定性
核心公式特点	概率比裁剪 + 优势函数	组内优势归一化 + KL惩罚	回报分布的KL散度优化
实现复杂度	低（数百行代码可落地）	中（需设计组内采样逻辑）	高（需建模分布参数）
典型应用	游戏、机器人控制	大语言模型推理、对话生成	金融风控、自动驾驶安全决策
一句话总结	通用任务的「稳定 baseline」	LLM序列生成的「专属优化器」	风险敏感场景的「不确定性专家」

结语：没有最好的算法，只有最对的场景

PPO是入门强化学习的「必经之路」，适用于多数通用任务；GRPO是LLM时代的「新宠」，专注提升序列生成质量；DPO则是高风险场景的「守护者」，擅长捕捉不确定性。

选择算法时，若你在训练游戏AI或机器人，PPO足够可靠；若在优化大模型的回答质量，GRPO会更高效；若需处理金融、医疗等高风险决策，DPO能帮你规避隐藏风险。

算法的进化永无止境，但理解它们的核心逻辑，才能让强化学习真正为你所用。

总结

此文章有对应的配套新书教材和视频：

新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。

全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。

本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】

视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？

文章目录

GPT多模态大模型与AI Agent智能体系列七十

强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？

强化学习三大核心算法深度对比：从经典到前沿的进化之路

一、PPO：强化学习的「万能钥匙」，稳定高效的经典之作

二、GRPO：大模型推理的「专属优化器」，从PPO进化而来的序列王者

三、DPO：捕捉「不确定性」的高手，风险敏感任务的不二之选

三巨头终极对比：选对算法，事半功倍

结语：没有最好的算法，只有最对的场景

更多技术内容

总结