OpenAI RLHF的理解
1. RLHF 的优化目标
objective=E(x,y)∼DπθRL[rθ(x,y)−βlogπθ(y∣x)πref(y∣x)]+γ Ex∼Dpretrain[logπθRL(x)] \text{objective} = \mathbb{E}{(x,y) \sim D{\pi_\theta^{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{ref}}(y \mid x)} \right] + \gamma \, \mathbb{E}{x \sim D{\text{pretrain}}} \left[ \log \pi_\theta^{RL}(x) \right] objective=E(x,y)∼DπθRL[rθ(x,y)−βlogπref(y∣x)πθ(y∣x)]+γEx∼Dpretrain[logπθRL(x)]
2. 用 PPO-clip 来优化上述目标
argmaxθ E(x,y)∼Dπold[min(πnew(y∣x)πold(y∣x)A, clip (πnew(y∣x)πold(y∣x), 1−ε, 1+ε)A)] \arg\max_{\theta} \, \mathbb{E}{(x,y) \sim D{\pi_{old}}} \left[ \min \left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)} A,\; \text{clip}\!\left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)},\, 1-\varepsilon,\, 1+\varepsilon \right) A \right) \right] argθmaxE(x,y)∼Dπold[min(πold(y∣x)πnew(y∣x)A,clip(πold(y∣x)πnew(y∣x),1−ε,1+ε)A)]
3. 为此需要计算如下变量
需要估计以下三个量:
- πnew(y∣x)\pi_{\text{new}}(y \mid x)πnew(y∣x):当前策略在给定 xxx 下生成 yyy 的概率
- πold(y∣x)\pi_{\text{old}}(y \mid x)πold(y∣x):旧策略在给定 xxx 下生成 yyy 的概率
- AAA:优势函数(Advantage)
变量说明: 在上述表达式中,xxx 是用户 prompt,yyy 是生成的 token,π(y∣x)\pi(y \mid x)π(y∣x) 是在策略π\piπ 下prompt xxx 生成 yyy 的概率。
优势函数定义:
A=R−Value(x) A = R - \text{Value}(x) A=R−Value(x)
其中 Value\text{Value}Value 是一个神经网络结构(价值网络)。
4. 完整 RLHF 流程示例
用一个具体例子描述完整的 RLHF 流程:
| 变量 | 值 |
|---|---|
| xxx(用户问) | "如何减肥" |
| yyy(回答) | "每天控制饮食并运动" |
| πθ(y∣x)\pi_\theta(y \mid x)πθ(y∣x) 当前策略下,已知 xxx生成yyy的概率 | 0.4 |
| πSFT(y∣x)\pi_{SFT}(y \mid x)πSFT(y∣x) 当SFT模型下,已知 xxx生成yyy的概率 | 0.3 |
| Reward Model 打分 | rθ(x,y)=0.8r_\theta(x, y) = 0.8rθ(x,y)=0.8 |
| 价值网络打分 | Value(x)=0.2\text{Value}(x) = 0.2Value(x)=0.2 |
计算 Advantage:
KL=logπθ(y∣x)πSFT(y∣x) KL = \log \frac{\pi_{\theta}(y \mid x)}{\pi_{SFT}(y \mid x)} KL=logπSFT(y∣x)πθ(y∣x)
A=rθ(x,y)−β∗KL−Value(x) A = r_\theta(x, y) - \beta* KL -\text{Value}(x) A=rθ(x,y)−β∗KL−Value(x)
至此,πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)、πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x) 以及 AAA 全部就绪,
结合 Advantage 引入到 PPO-clip 中的所有变量均已确定。其中初始时令:
πnew=π训练时候(y∣x) \pi_{\text{new}} = \pi_{\text{训练时候}}(y \mid x) πnew=π训练时候(y∣x)
πold=πrollout时模型(y∣x) \pi_{\text{old}} = \pi_{\text{rollout时模型}}(y \mid x) πold=πrollout时模型(y∣x)
5. 用工程语言描述 RLHF 的完整流程
涉及的模型
| 模型 | 作用 | 输入输出 |
|---|---|---|
| Actor Model | 训练目标模型,生成回复 | x→Actoryx \xrightarrow{\text{Actor}} yxActor y,输出 P(y)P(y)P(y) 的概率分布 |
| Reward Model | 打分模型 | (x,y)→Rewardr∼(0,1)(x, y) \xrightarrow{\text{Reward}} r \sim (0, 1)(x,y)Reward r∼(0,1) |
| Reference Model | SFT 基准模型,用于计算 KL 散度 | x→Refyx \xrightarrow{\text{Ref}} yxRef y,输出 P(y)P(y)P(y) 概率 |
| Critic Model | Value 价值网络,估计状态价值 | x→CriticV∼(0,1)x \xrightarrow{\text{Critic}} V \sim (0, 1)xCritic V∼(0,1) |
| Pretrain Model | OpenAI 的底层语言模型 | --- |
步骤
- 输入 prompt: "如何减肥"
- 通过 Actor Model 生成 response :"每天控制饮食并运动",得到 πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)
- 用 Reward Model 打分 :(x,y)→Reward Modelr(x, y) \xrightarrow{\text{Reward Model}} r(x,y)Reward Model r
- 计算 KL 散度 :用 Reference Model 算出 rθ(x,y)r_\theta(x,y)rθ(x,y),用sft模型得到 πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x),按 OpenAI 方式计算:FinalReward=rθ(x,y)−β⋅KL (πθ∥πSFT)+LLM \text{FinalReward} = r_\theta(x,y) - \beta \cdot \text{KL}\!\left(\pi_\theta \| \pi_{\text{SFT}}\right) + \mathcal{L}_{\text{LM}}FinalReward=rθ(x,y)−β⋅KL(πθ∥πSFT)+LLM
- 用 Critic Model 估算 Value 值 :V=Critic(x)V = \text{Critic}(x)V=Critic(x)
- 计算优势函数 AAA :
A=FinalReward−Critic Model 的值 A = \text{FinalReward} - \text{Critic Model 的值} A=FinalReward−Critic Model 的值 - 用 PPO-clip 更新策略 (loop):
- πnew\pi_{\text{new}}πnew:训练时候一个epoch的更新后的模型,用这个模型得到的这个 token 的输出概率
- πold\pi_{\text{old}}πold:Rollout时候的token输出概率
参考:
1\] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelley, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., \& Lowe, R. (2022). Training language models to follow instructions with human feedback. *Advances in Neural Information Processing Systems*, 35, 27730--27744. https://arxiv.org/abs/2203.02155