注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- [GPT多模态大模型与AI Agent智能体系列七十](#GPT多模态大模型与AI Agent智能体系列七十)
- 总结
GPT多模态大模型与AI Agent智能体系列七十
强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?
强化学习三大核心算法深度对比:从经典到前沿的进化之路
在强化学习的算法江湖中,PPO、GRPO、DPO凭借各自的独特设计,成为不同场景下的「利器」。从通用任务到大模型训练,从稳定更新到捕捉不确定性,三者的核心逻辑与适用场景大相径庭。下面逐一解析它们的底层逻辑与实战价值。
一、PPO:强化学习的「万能钥匙」,稳定高效的经典之作
作为OpenAI 2017年提出的策略梯度算法,PPO以「简单、稳定、高效」横扫强化学习领域,至今仍是多数任务的首选基线算法。
核心思想:给策略更新「上保险」
PPO的痛点解决:传统策略梯度算法常因参数更新幅度过大导致训练崩溃,而TRPO(信赖域策略优化)虽稳定但计算复杂。PPO用「裁剪机制」巧妙平衡------允许策略迭代优化,但严格限制每一步的更新幅度,确保新策略不偏离旧策略太远。
关键公式:裁剪目标函数
核心是通过概率比和裁剪操作限制更新:
L C L I P ( θ ) = E t [ min ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]
- r_t(\\theta) = \\frac{\\pi_\\theta(a_t\|s_t)}{\\pi_{\\theta_{\\text{old}}}(a_t\|s_t)} :新/旧策略的概率比,衡量策略变化幅度;
- \\text{clip}(r_t, 1-\\epsilon, 1+\\epsilon) :将比率限制在 :将比率限制在 :将比率限制在 \[1-\\epsilon, 1+\\epsilon\] (通常 (通常 (通常 \\epsilon=0.2 ),防止突变;
- A_t :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( :优势函数,评价动作相对好坏( A_t\>0 表示动作优于平均水平)。
特点与适用场景
- 优势:实现简单(无需复杂约束优化)、训练稳定(裁剪机制防崩溃)、样本利用率高(可重复使用数据多轮更新);
- 短板:对大语言模型(LLM)等序列生成任务的针对性不足;
- 适用场景:游戏AI、机器人控制、自动驾驶决策等通用强化学习任务。
二、GRPO:大模型推理的「专属优化器」,从PPO进化而来的序列王者
GRPO(Group Relative Policy Optimization)由DeepSeek提出,专为大语言模型(LLM)的推理任务设计,在PPO基础上强化了对「序列生成质量」和「策略多样性」的优化。
核心思想:让模型在「群体中」更懂优劣
LLM生成序列(如回答问题)时,单一输出的奖励难以反映真实优劣。GRPO通过「组内对比」和「动态奖励」,让模型更精准地学习「什么是好的输出」。
三大关键改进(对比PPO)
-
奖励计算:不止看绝对分,更看相对优
奖励不仅依赖奖励模型评分,还加入参考策略的熵约束,鼓励多样性:
r t = r ϕ ( q , a ≤ t ) − β log π ref ( a t ∣ q , a < t ) π θ ( a t ∣ q , a < t ) r_t = r_\phi(q, a_{\le t}) - \beta \log \frac{\pi_{\text{ref}}(a_t|q, a_{<t})}{\pi_\theta(a_t|q, a_{<t})} rt=rϕ(q,a≤t)−βlogπθ(at∣q,a<t)πref(at∣q,a<t)- r_\\phi :奖励模型对「问题 :奖励模型对「问题 :奖励模型对「问题 q + 已生成序列 +已生成序列 +已生成序列 a_{\\le t} 」的评分;
- 第二项:通过参考策略 \\pi_{\\text{ref}} 与当前策略的概率比,避免模型生成过于单一的序列(熵越大,多样性越高)。
-
优势估计:组内归一化,放大差异
对同一问题的多个输出奖励做归一化,突出「相对优势」:
a ^ i , t = r i − mean ( r ) std ( r ) \hat{a}_{i,t} = \frac{r_i - \text{mean}(r)}{\text{std}(r)} a^i,t=std(r)ri−mean(r)( r_i 为组内第 为组内第 为组内第 i 个输出的奖励,归一化后不同问题的奖励可直接对比)。
-
目标函数:强化约束,更稳更优
在PPO裁剪机制基础上,加入KL散度惩罚,进一步限制与参考策略的偏离:
J GRPO ( θ ) = ∑ i , t min ( r t A t , clip ( r t , 1 − ϵ , 1 + ϵ ) A t ) − β D KL ( π θ ∥ π ref ) J_{\text{GRPO}}(\theta) = \sum_{i,t} \min \left( r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) JGRPO(θ)=i,t∑min(rtAt,clip(rt,1−ϵ,1+ϵ)At)−βDKL(πθ∥πref)
特点与适用场景
- 优势:针对性优化LLM序列生成(如问答、代码生成)、奖励信号更精准、策略多样性更强;
- 短板:仅适用于序列生成任务,通用性弱于PPO;
- 适用场景:大语言模型对齐(RLHF)、长文本生成、推理链优化等。
三、DPO:捕捉「不确定性」的高手,风险敏感任务的不二之选
DPO(Distributional Policy Optimization)跳出「只优化期望回报」的框架,直接建模「回报的完整概率分布」,更适合需要「规避风险」的场景。
核心思想:不只看平均收益,更看收益的「可能性」
传统方法(如PPO)用 Q(s,a) = \\mathbb{E}\[Z(s,a)\] ( ( ( Z 为累积回报)描述动作价值,但忽略了回报的波动性(如"有50%概率得100分,50%得0分"与"稳定得50分"的期望相同,但风险迥异)。
DPO直接建模 Z(s,a) 的分布(如正态分布 的分布(如正态分布 的分布(如正态分布 \\mathcal{N}(\\mu, \\sigma) ),通过优化分布与目标分布的距离(如KL散度)学习策略:
θ ← arg min θ D KL ( Z target ( s , a ) ∥ Z θ ( s , a ) ) \theta \leftarrow \arg\min_\theta D_{\text{KL}}\left( Z_{\text{target}}(s,a) \| Z_\theta(s,a) \right) θ←argθminDKL(Ztarget(s,a)∥Zθ(s,a))
特点与适用场景
- 优势:能捕捉环境不确定性(如自动驾驶中的突发障碍)、对风险敏感任务更友好(可优先选择「回报稳定」的动作);
- 短板:实现复杂(需建模完整分布)、计算成本高;
- 适用场景:金融风控、自动驾驶安全决策、医疗诊断等高风险领域。
三巨头终极对比:选对算法,事半功倍
维度 | PPO | GRPO | DPO |
---|---|---|---|
核心优化目标 | 限制策略更新幅度,稳定提升 | 强化序列生成质量与多样性 | 建模回报分布,捕捉不确定性 |
核心公式特点 | 概率比裁剪 + 优势函数 | 组内优势归一化 + KL惩罚 | 回报分布的KL散度优化 |
实现复杂度 | 低(数百行代码可落地) | 中(需设计组内采样逻辑) | 高(需建模分布参数) |
典型应用 | 游戏、机器人控制 | 大语言模型推理、对话生成 | 金融风控、自动驾驶安全决策 |
一句话总结 | 通用任务的「稳定 baseline」 | LLM序列生成的「专属优化器」 | 风险敏感场景的「不确定性专家」 |
结语:没有最好的算法,只有最对的场景
PPO是入门强化学习的「必经之路」,适用于多数通用任务;GRPO是LLM时代的「新宠」,专注提升序列生成质量;DPO则是高风险场景的「守护者」,擅长捕捉不确定性。
选择算法时,若你在训练游戏AI或机器人,PPO足够可靠;若在优化大模型的回答质量,GRPO会更高效;若需处理金融、医疗等高风险决策,DPO能帮你规避隐藏风险。
算法的进化永无止境,但理解它们的核心逻辑,才能让强化学习真正为你所用。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄