目录
[(二)Clipped Objective](#(二)Clipped Objective)
[十二、PPO vs 传统强化学习](#十二、PPO vs 传统强化学习)
[(一)策略 = 语言模型](#(一)策略 = 语言模型)
[(二)动作 = token生成](#(二)动作 = token生成)
[(三)奖励 = RM评分](#(三)奖励 = RM评分)
[十六、PPO vs DPO](#十六、PPO vs DPO)
一、前言
在现代大语言模型训练体系中,Reinforcement Learning from Human Feedback已经成为"对齐人类偏好"的标准方法。
在RLHF三阶段流程中:
SFT → Reward Model → PPO优化
其中真正"让模型变聪明、变符合人类偏好"的关键一步,就是:
PPO(Proximal Policy Optimization)
它决定了模型最终输出质量的上限。
二、RLHF中的PPO位置
(一)整体流程
1. SFT:学习基础语言能力
2. RM:学习人类偏好评分
3. PPO:优化生成策略
(二)直观理解
PPO = 让模型"按奖励模型评分不断改进回答"
三、什么是PPO
Proximal Policy Optimization是一种强化学习算法,核心思想是:
在不让策略变化太剧烈的前提下,持续提升收益
(一)一句话理解
小步快跑式优化策略
(二)核心目标
最大化奖励,同时保持模型稳定性
四、PPO在语言模型中的角色
在RLHF中:
Policy Model = 语言模型
Reward = 奖励模型输出
(一)流程结构
Prompt → Policy Model → Response
↓
Reward Model评分
↓
PPO更新策略
五、PPO核心思想
(一)为什么不能直接优化?
如果直接最大化奖励:
模型会"发疯式优化",导致输出崩坏
(二)解决方案
限制每次更新幅度(clip机制)
六、PPO核心公式
(一)概率比率
r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}
(二)Clipped Objective
L^{CLIP}(\theta)=\mathbb{E}\\min(r_t(\\theta)A_t,\\text{clip}(r_t(\\theta),1-\\epsilon,1+\\epsilon)A_t)
(三)含义
-
r_t:策略变化比例
-
A_t:优势函数(advantage)
-
ε:限制更新幅度
七、优势函数(Advantage)
(一)定义
A_t = 当前策略好坏程度
(二)理解
比"平均水平"好多少
(三)作用
指导优化方向
八、PPO在RLHF中的训练信号
(一)奖励来源
- Reward Model
(二)组合奖励
最终奖励 = RM评分 - KL惩罚项
(三)KL约束
防止模型偏离SFT太远
九、KL散度约束
(一)作用
保持模型输出稳定
(二)公式
D_{KL}(\pi_\theta || \pi_{SFT})
(三)理解
不让模型"忘记基础能力"
十、PPO训练流程
(一)步骤
1. 输入prompt
2. 模型生成回答
3. RM打分
4. 计算优势函数
5. 更新策略网络
(二)循环迭代
不断优化 → 不断对齐人类偏好
十一、PPO的关键机制
(一)Clip机制
防止策略变化过大
(二)小步更新
保证训练稳定
(三)KL惩罚
保持语言能力
十二、PPO vs 传统强化学习
| 对比项 | 传统RL | PPO |
|---|---|---|
| 稳定性 | 差 | 高 |
| 更新幅度 | 不受控 | clip限制 |
| 训练难度 | 高 | 中等 |
十三、PPO在LLM中的特点
(一)策略 = 语言模型
πθ = GPT类模型
(二)动作 = token生成
(三)奖励 = RM评分
十四、PPO的优点
(一)训练稳定
(二)效果好
(三)易实现
十五、PPO的缺点
(一)计算成本高
需要多次采样
(二)训练复杂
多模块协同
(三)依赖奖励模型
RM质量决定上限
十六、PPO vs DPO
Direct Preference Optimization
(一)区别
| 方法 | 是否用RL | 是否用RM |
|---|---|---|
| PPO | 是 | 是 |
| DPO | 否 | 否 |
(二)趋势
从PPO → DPO(更简单、更稳定)
十七、PPO在RLHF中的作用总结
SFT → 学能力
RM → 学偏好
PPO → 优化行为
十八、RLHF完整闭环
Prompt
↓
SFT Model
↓
Reward Model
↓
PPO Optimization
↓
Aligned LLM
十九、应用场景
(一)对话系统
- ChatGPT优化核心
(二)内容生成
- 文案优化
(三)安全对齐
- 有害内容抑制
二十、发展趋势
(一)减少PPO依赖
- DPO替代趋势明显
(二)更强奖励模型
- 多目标RM
(三)端到端对齐
- 更少中间步骤
二十一、总结
PPO是RLHF中实现模型对齐的核心优化算法,它通过"限制策略更新幅度 + 利用奖励模型反馈"实现稳定而高效的训练,使大语言模型能够逐步逼近人类偏好。
本文系统讲解了:
1、PPO在RLHF中的位置
2、核心思想与直觉
3、关键数学公式
4、优势函数机制
5、KL约束作用
6、训练流程
7、Clip机制
8、与传统RL对比
9、与DPO对比
10、应用场景
11、发展趋势
可以将PPO理解为:
"在奖励模型指导下,通过小步稳定更新,让语言模型逐渐学会更符合人类偏好的表达方式。"
掌握PPO,就掌握了RLHF优化阶段的核心引擎。