强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列七十

强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?

强化学习三大核心算法深度对比:从经典到前沿的进化之路

在强化学习的算法江湖中,PPO、GRPO、DPO凭借各自的独特设计,成为不同场景下的「利器」。从通用任务到大模型训练,从稳定更新到捕捉不确定性,三者的核心逻辑与适用场景大相径庭。下面逐一解析它们的底层逻辑与实战价值。

一、PPO:强化学习的「万能钥匙」,稳定高效的经典之作

作为OpenAI 2017年提出的策略梯度算法,PPO以「简单、稳定、高效」横扫强化学习领域,至今仍是多数任务的首选基线算法。

核心思想:给策略更新「上保险」

PPO的痛点解决:传统策略梯度算法常因参数更新幅度过大导致训练崩溃,而TRPO(信赖域策略优化)虽稳定但计算复杂。PPO用「裁剪机制」巧妙平衡------允许策略迭代优化,但严格限制每一步的更新幅度,确保新策略不偏离旧策略太远。

关键公式:裁剪目标函数

核心是通过概率比和裁剪操作限制更新:
L C L I P ( θ ) = E t [ min ⁡ ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]

  • r_t(\\theta) = \\frac{\\pi_\\theta(a_t\|s_t)}{\\pi_{\\theta_{\\text{old}}}(a_t\|s_t)} :新/旧策略的概率比,衡量策略变化幅度;
  • \\text{clip}(r_t, 1-\\epsilon, 1+\\epsilon) :将比率限制在 :将比率限制在 :将比率限制在 \[1-\\epsilon, 1+\\epsilon\] (通常 (通常 (通常 \\epsilon=0.2 ),防止突变;
  • A_t :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( A_t\>0 表示动作优于平均水平)。

特点与适用场景

  • 优势:实现简单(无需复杂约束优化)、训练稳定(裁剪机制防崩溃)、样本利用率高(可重复使用数据多轮更新);
  • 短板:对大语言模型(LLM)等序列生成任务的针对性不足;
  • 适用场景:游戏AI、机器人控制、自动驾驶决策等通用强化学习任务。
二、GRPO:大模型推理的「专属优化器」,从PPO进化而来的序列王者

GRPO(Group Relative Policy Optimization)由DeepSeek提出,专为大语言模型(LLM)的推理任务设计,在PPO基础上强化了对「序列生成质量」和「策略多样性」的优化。

核心思想:让模型在「群体中」更懂优劣

LLM生成序列(如回答问题)时,单一输出的奖励难以反映真实优劣。GRPO通过「组内对比」和「动态奖励」,让模型更精准地学习「什么是好的输出」。

三大关键改进(对比PPO)

  1. 奖励计算:不止看绝对分,更看相对优

    奖励不仅依赖奖励模型评分,还加入参考策略的熵约束,鼓励多样性:
    r t = r ϕ ( q , a ≤ t ) − β log ⁡ π ref ( a t ∣ q , a < t ) π θ ( a t ∣ q , a < t ) r_t = r_\phi(q, a_{\le t}) - \beta \log \frac{\pi_{\text{ref}}(a_t|q, a_{<t})}{\pi_\theta(a_t|q, a_{<t})} rt=rϕ(q,a≤t)−βlogπθ(at∣q,a<t)πref(at∣q,a<t)

    • r_\\phi :奖励模型对「问题 :奖励模型对「问题 :奖励模型对「问题 q + 已生成序列 +已生成序列 +已生成序列 a_{\\le t} 」的评分;
    • 第二项:通过参考策略 \\pi_{\\text{ref}} 与当前策略的概率比,避免模型生成过于单一的序列(熵越大,多样性越高)。
  2. 优势估计:组内归一化,放大差异

    对同一问题的多个输出奖励做归一化,突出「相对优势」:
    a ^ i , t = r i − mean ( r ) std ( r ) \hat{a}_{i,t} = \frac{r_i - \text{mean}(r)}{\text{std}(r)} a^i,t=std(r)ri−mean(r)

    r_i 为组内第 为组内第 为组内第 i 个输出的奖励,归一化后不同问题的奖励可直接对比)。

  3. 目标函数:强化约束,更稳更优

    在PPO裁剪机制基础上,加入KL散度惩罚,进一步限制与参考策略的偏离:
    J GRPO ( θ ) = ∑ i , t min ⁡ ( r t A t , clip ( r t , 1 − ϵ , 1 + ϵ ) A t ) − β D KL ( π θ ∥ π ref ) J_{\text{GRPO}}(\theta) = \sum_{i,t} \min \left( r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) JGRPO(θ)=i,t∑min(rtAt,clip(rt,1−ϵ,1+ϵ)At)−βDKL(πθ∥πref)

特点与适用场景

  • 优势:针对性优化LLM序列生成(如问答、代码生成)、奖励信号更精准、策略多样性更强;
  • 短板:仅适用于序列生成任务,通用性弱于PPO;
  • 适用场景:大语言模型对齐(RLHF)、长文本生成、推理链优化等。
三、DPO:捕捉「不确定性」的高手,风险敏感任务的不二之选

DPO(Distributional Policy Optimization)跳出「只优化期望回报」的框架,直接建模「回报的完整概率分布」,更适合需要「规避风险」的场景。

核心思想:不只看平均收益,更看收益的「可能性」

传统方法(如PPO)用 Q(s,a) = \\mathbb{E}\[Z(s,a)\] ( ( ( Z 为累积回报)描述动作价值,但忽略了回报的波动性(如"有50%概率得100分,50%得0分"与"稳定得50分"的期望相同,但风险迥异)。

DPO直接建模 Z(s,a) 的分布(如正态分布 的分布(如正态分布 的分布(如正态分布 \\mathcal{N}(\\mu, \\sigma) ),通过优化分布与目标分布的距离(如KL散度)学习策略:
θ ← arg ⁡ min ⁡ θ D KL ( Z target ( s , a ) ∥ Z θ ( s , a ) ) \theta \leftarrow \arg\min_\theta D_{\text{KL}}\left( Z_{\text{target}}(s,a) \| Z_\theta(s,a) \right) θ←argθminDKL(Ztarget(s,a)∥Zθ(s,a))

特点与适用场景

  • 优势:能捕捉环境不确定性(如自动驾驶中的突发障碍)、对风险敏感任务更友好(可优先选择「回报稳定」的动作);
  • 短板:实现复杂(需建模完整分布)、计算成本高;
  • 适用场景:金融风控、自动驾驶安全决策、医疗诊断等高风险领域。
三巨头终极对比:选对算法,事半功倍
维度 PPO GRPO DPO
核心优化目标 限制策略更新幅度,稳定提升 强化序列生成质量与多样性 建模回报分布,捕捉不确定性
核心公式特点 概率比裁剪 + 优势函数 组内优势归一化 + KL惩罚 回报分布的KL散度优化
实现复杂度 低(数百行代码可落地) 中(需设计组内采样逻辑) 高(需建模分布参数)
典型应用 游戏、机器人控制 大语言模型推理、对话生成 金融风控、自动驾驶安全决策
一句话总结 通用任务的「稳定 baseline」 LLM序列生成的「专属优化器」 风险敏感场景的「不确定性专家」

结语:没有最好的算法,只有最对的场景

PPO是入门强化学习的「必经之路」,适用于多数通用任务;GRPO是LLM时代的「新宠」,专注提升序列生成质量;DPO则是高风险场景的「守护者」,擅长捕捉不确定性。

选择算法时,若你在训练游戏AI或机器人,PPO足够可靠;若在优化大模型的回答质量,GRPO会更高效;若需处理金融、医疗等高风险决策,DPO能帮你规避隐藏风险。

算法的进化永无止境,但理解它们的核心逻辑,才能让强化学习真正为你所用。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】

更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。

全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。

本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】

视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

相关推荐
数据智能老司机3 分钟前
让流浪汉都能学会的大模型教程——用大语言模型设计解决方案
架构·llm·aigc
BennuCTech9 分钟前
AI图片分类:探索zero-shot模型在分类领域的实现
aigc
岁月的眸13 分钟前
【科普】贝叶斯神经网络与分形神经网络
人工智能·深度学习·神经网络
AI是草卖哩13 分钟前
PINN+贝叶斯:深度学习中的魔改新思路
人工智能·深度学习·贝叶斯·pinn
阿里云大数据AI技术18 分钟前
【跨国数仓迁移最佳实践4】MaxCompute 企业级能力升级:跨域访问控制与数据安全特性增强
大数据·人工智能·云计算
AI 嗯啦22 分钟前
机械学习--逻辑回归
算法·机器学习·逻辑回归
Swift社区23 分钟前
用 AI 解析采购订单,从上传到自动生成 Draft 订单全流程实战
人工智能
山烛34 分钟前
逻辑回归详解:从数学原理到实际应用
python·算法·机器学习·逻辑回归
我要学习别拦我~42 分钟前
TikTok 视频审核模型:用逻辑回归找出特殊类型的视频
机器学习·数据分析·逻辑回归
TalkU浩克1 小时前
DoRA详解:从LoRA到权重分解的进化
人工智能·深度学习·机器学习