OpenAI RLHF的理解

OpenAI RLHF的理解

1. RLHF 的优化目标

objective=E(x,y)∼DπθRLrθ(x,y)−βlog⁡πθ(y∣x)πref(y∣x)+γ Ex∼Dpretrainlog⁡πθRL(x) \text{objective} = \mathbb{E}{(x,y) \sim D{\pi_\theta^{RL}}} \left r_\\theta(x, y) - \\beta \\log \\frac{\\pi_\\theta(y \\mid x)}{\\pi_{\\text{ref}}(y \\mid x)} \\right + \gamma \, \mathbb{E}{x \sim D{\text{pretrain}}} \left \\log \\pi_\\theta\^{RL}(x) \\right objective=E(x,y)∼DπθRLrθ(x,y)−βlogπref(y∣x)πθ(y∣x)+γEx∼DpretrainlogπθRL(x)


2. 用 PPO-clip 来优化上述目标

arg⁡max⁡θ E(x,y)∼Dπoldmin⁡(πnew(y∣x)πold(y∣x)A,  clip ⁣(πnew(y∣x)πold(y∣x), 1−ε, 1+ε)A) \arg\max_{\theta} \, \mathbb{E}{(x,y) \sim D{\pi_{old}}} \left \\min \\left( \\frac{\\pi_{\\text{new}}(y \\mid x)}{\\pi_{\\text{old}}(y \\mid x)} A,\\; \\text{clip}\\!\\left( \\frac{\\pi_{\\text{new}}(y \\mid x)}{\\pi_{\\text{old}}(y \\mid x)},\\, 1-\\varepsilon,\\, 1+\\varepsilon \\right) A \\right) \\right argθmaxE(x,y)∼Dπoldmin(πold(y∣x)πnew(y∣x)A,clip(πold(y∣x)πnew(y∣x),1−ε,1+ε)A)


3. 为此需要计算如下变量

需要估计以下三个量:

  • πnew(y∣x)\pi_{\text{new}}(y \mid x)πnew(y∣x):当前策略在给定 xxx 下生成 yyy 的概率
  • πold(y∣x)\pi_{\text{old}}(y \mid x)πold(y∣x):旧策略在给定 xxx 下生成 yyy 的概率
  • AAA:优势函数(Advantage)

变量说明: 在上述表达式中,xxx 是用户 prompt,yyy 是生成的 token,π(y∣x)\pi(y \mid x)π(y∣x) 是在策略π\piπ 下prompt xxx 生成 yyy 的概率。

优势函数定义:

A=R−Value(x) A = R - \text{Value}(x) A=R−Value(x)

其中 Value\text{Value}Value 是一个神经网络结构(价值网络)。


4. 完整 RLHF 流程示例

用一个具体例子描述完整的 RLHF 流程:

变量
xxx(用户问) "如何减肥"
yyy(回答) "每天控制饮食并运动"
πθ(y∣x)\pi_\theta(y \mid x)πθ(y∣x) 当前策略下,已知 xxx生成yyy的概率 0.4
πSFT(y∣x)\pi_{SFT}(y \mid x)πSFT(y∣x) 当SFT模型下,已知 xxx生成yyy的概率 0.3
Reward Model 打分 rθ(x,y)=0.8r_\theta(x, y) = 0.8rθ(x,y)=0.8
价值网络打分 Value(x)=0.2\text{Value}(x) = 0.2Value(x)=0.2

计算 Advantage:

KL=log⁡πθ(y∣x)πSFT(y∣x) KL = \log \frac{\pi_{\theta}(y \mid x)}{\pi_{SFT}(y \mid x)} KL=logπSFT(y∣x)πθ(y∣x)

A=rθ(x,y)−β∗KL−Value(x) A = r_\theta(x, y) - \beta* KL -\text{Value}(x) A=rθ(x,y)−β∗KL−Value(x)

至此,πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)、πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x) 以及 AAA 全部就绪,


结合 Advantage 引入到 PPO-clip 中的所有变量均已确定。其中初始时令:

πnew=π训练时候(y∣x) \pi_{\text{new}} = \pi_{\text{训练时候}}(y \mid x) πnew=π训练时候(y∣x)

πold=πrollout时模型(y∣x) \pi_{\text{old}} = \pi_{\text{rollout时模型}}(y \mid x) πold=πrollout时模型(y∣x)


5. 用工程语言描述 RLHF 的完整流程

涉及的模型

模型 作用 输入输出
Actor Model 训练目标模型,生成回复 x→Actoryx \xrightarrow{\text{Actor}} yxActor y,输出 P(y)P(y)P(y) 的概率分布
Reward Model 打分模型 (x,y)→Rewardr∼(0,1)(x, y) \xrightarrow{\text{Reward}} r \sim (0, 1)(x,y)Reward r∼(0,1)
Reference Model SFT 基准模型,用于计算 KL 散度 x→Refyx \xrightarrow{\text{Ref}} yxRef y,输出 P(y)P(y)P(y) 概率
Critic Model Value 价值网络,估计状态价值 x→CriticV∼(0,1)x \xrightarrow{\text{Critic}} V \sim (0, 1)xCritic V∼(0,1)
Pretrain Model OpenAI 的底层语言模型 ---

步骤

  1. 输入 prompt: "如何减肥"
  2. 通过 Actor Model 生成 response :"每天控制饮食并运动",得到 πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)
  3. 用 Reward Model 打分 :(x,y)→Reward Modelr(x, y) \xrightarrow{\text{Reward Model}} r(x,y)Reward Model r
  4. 计算 KL 散度 :用 Reference Model 算出 rθ(x,y)r_\theta(x,y)rθ(x,y),用sft模型得到 πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x),按 OpenAI 方式计算:FinalReward=rθ(x,y)−β⋅KL ⁣(πθ∥πSFT)+LLM \text{FinalReward} = r_\theta(x,y) - \beta \cdot \text{KL}\!\left(\pi_\theta \| \pi_{\text{SFT}}\right) + \mathcal{L}_{\text{LM}}FinalReward=rθ(x,y)−β⋅KL(πθ∥πSFT)+LLM
  5. 用 Critic Model 估算 Value 值 :V=Critic(x)V = \text{Critic}(x)V=Critic(x)
  6. 计算优势函数 AAA
    A=FinalReward−Critic Model 的值 A = \text{FinalReward} - \text{Critic Model 的值} A=FinalReward−Critic Model 的值
  7. 用 PPO-clip 更新策略 (loop):
    • πnew\pi_{\text{new}}πnew:训练时候一个epoch的更新后的模型,用这个模型得到的这个 token 的输出概率
    • πold\pi_{\text{old}}πold:Rollout时候的token输出概率

参考:

1 Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelley, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730--27744. https://arxiv.org/abs/2203.02155

相关推荐
修己xj2 小时前
告别手动画图:用自然语言生成可直接发布的 SVG+PNG 技术图
aigc
用户5191495848458 小时前
Windows 渗透测试载荷加载器 POC 工具集
人工智能·aigc
AI创界者9 小时前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
英勇无比的消炎药10 小时前
一行命令背后:TinyRobot CLI 如何重构 AI 对话接入的效率范式
vue.js·aigc
用户51914958484510 小时前
Flowise预认证任意文件上传漏洞分析(CVE-2025-26319)
人工智能·aigc
DigitalOcean10 小时前
砍掉 60% AI 推理成本:深度解构 DigitalOcean 推理路由器的 MoE 门控与智能分流机制
llm·aigc·agent
Vergelight11 小时前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
AI袋鼠帝11 小时前
终于找到一键做爆款AI短视频的办法了!OiiOii 2.0升级实测【保姆级教程】
人工智能·aigc
星纬智联技术16 小时前
AI搜索引擎引用逻辑的三个新变化:从相关性到可信度的结构性迁移
人工智能·aigc·geo
后端小肥肠1 天前
小红书笔记爆了 17 万后,我用 Obsidian + Skill 实现了“一句话选品”
人工智能·aigc·agent