InstructGPT 2022详细解读

InstructGPT 2022 decoder only

InstructGPT是大语言模型对齐人类意识的里程碑工作,解决模型幻觉等问题,更能理解符合人类的期望
核心思想 :通过人类反馈feedback微调模型,使其输出更听话、更安全、更有用helpful, honest, harmless。
InstructGPT 训练分为三阶段:

三阶段训练流程:

SFT 模型 = 学生(回答题)

RM 模型 = 老师(打分)

RL 阶段 = 学生根据老师打分不断改进答题方式

1.监督微调supervised fine-tuning,SFT标准的语言建模目标,自回归生成 的回复 token 序列(response) 纯文本指令(instruction)

(1)13k条指令-回复对(instruction,response)在GPT-3基座模型上标准监督学习,全部参数full fine-tuning微调

(2)模型初步学会按指令办事,而不是输出无关内容,得到初步具备指令遵循能力的SFT模型

SFT 模型 = 原始 GPT-3 架构 + 所有参数被更新过一次。

SFT模型作用:

a. 用于生成 RM阶段所需的多个候选回复;

b. 在 RL 阶段冻结作为参考策略(reference policy) 计算 KL 散度,初始化参数成为可训练的策略网络policy;

2.奖励模型训练reward modeling,RM,本质二分类排序任务

基于GPT-3结构的独立打分模型,初始化GPT-3权重不同于其网络,新增一个线性层linear head作为reward head,量化打分。全部参数训练,训练完后不再微调,冻结model。

量化同个指令不同回答哪个更好,主观性打分,RM 必须能处理 (instruction + response) 的总长度(可能比 SFT 更长)。

(1)上一阶段SFT模型同一指令生成多个(通常4~9个)不同回复

(2)按照偏好排序标注(A>B>C...)

(3)训练模型,输入为instruction+response拼接,标签/输出为标量分数r,偏好越大,分值越高,使用pairwise ranking loss优化,损失函数:Bradley-Terry pairwise loss

(4)得到自动评估回复质量的reward model

RM = GPT-3 backbone(初始化) + 新增 reward head(随机初始化) → 端到端微调。

3.强化学习微调reinforcement learning from human feedback,RLHF,本质强化学习任务

使用近端策略优化PPO(Proximal Policy Optimization)算法微调策略网络Policy Network(SFT网络)π,符合人类偏好对齐指令遵循模型。 全部参数full fine-tuning微调

策略网络,强化学习中专业名词。

(1)阶段1的SFT冻结模型生成回复

(2)阶段2的RM冻结模型对回复打分

(3)copy SFT模型为策略网络,生成回复文本,参数可调

(4)loss来自外部,而不是生成模型loss,包含两项:奖励项和KL penalty项,最大化奖励(RM 打分),而不是最小化交叉熵

loss加入KL penalty惩罚项,比较当前策略和 SFT 策略的 log-prob,防止模型偏离原始SFT模型(reference policy)太远(避免过度优化或胡言乱语或多样性丧失)

KL penalty 相当于一个"正则化锚点",让模型在 遵循人类偏好 和 保持语言建模能力 之间取得平衡。

RLHF 的 loss 来自 RM 打分 + KL 约束,没有 ground-truth 文本监督!SFT 的 loss 来自 真实回复的 token。

(5)目的得到经过人类偏好对齐的指令遵循语言模型InstructGPT

RLHF 微调 = SFT 模型的所有参数 + PPO 更新 + KL 正则化约束。

4.影响

首次系统性地将人类偏好融入 LLM 训练,形成"生成→评价→优化"闭环,RLHF 成为 LLM 对齐的标准范式

RLHF 范式确立,为后续 ChatGPT、Claude、Gemini 等所有主流对话模型奠定技术基础

ChatGPT = InstructGPT + 更大数据 + 更强基座 + 工程优化

引发大量改进工作:DPO(直接偏好优化)、KTO、RAHF 等(试图绕过 RL 的复杂性)

Tokenization:三个阶段使用相同的 tokenizer(如 GPT 的 BPE),确保格式一致。

推理时:只有 RLHF 最终模型被部署,RM 和 SFT 模型都不参与线上服务。

后续:DPO 2023新的替代方案,更简单稳定。

相关推荐
小超同学你好2 小时前
LangGraph 14. MCP:把“外部能力”标准化接入 LLM
人工智能·语言模型·transformer
播播资源4 小时前
OpenAI2026 年 3 月 18 日最新 gpt-5.4-nano模型:AI 智能体的“神经末梢”,以极低成本驱动高频任务
大数据·人工智能·gpt
洛阳泰山6 小时前
MaxKB4j Docker Compose 部署指南
java·docker·llm·springboot·rag·maxkb4j
WenGyyyL7 小时前
ColBERT论文研读——NLP(IR)里程碑之作
人工智能·python·语言模型·自然语言处理
华农DrLai8 小时前
什么是Prompt工程?为什么提示词的质量决定AI输出的好坏?
数据库·人工智能·gpt·大模型·nlp·prompt
cuguanren9 小时前
MuleRun vs OpenClaw vs 网页服务:云端安全与本地自由的取舍之道
安全·大模型·llm·agent·智能体·openclaw·mulerun
大数据AI人工智能培训专家培训讲师叶梓9 小时前
FaithLens:8B 参数大模型幻觉检测器,性能超 GPT-4.1 且低成本可解释
大模型·llm·大模型幻觉·人工智能讲师·大模型讲师·大模型培训·llm幻觉
哈哈很哈哈9 小时前
深度学习中的分布式并行策略和内存优化技术
人工智能·语言模型
qq_2816842110 小时前
Transformer-XL:突破固定长度枷锁,重构长文本语言模型
人工智能·深度学习·语言模型·重构·transformer
星始流年11 小时前
AI Agent 开发系列 之 01 🔎重新认识 LLM
人工智能·llm·agent