从 In-context Learning 到 RLHF:大语言模型的范式跃迁
------ CS224n Lecture 10 深度笔记
自然语言处理(NLP)在过去几年经历了一场无声的革命。我们不再为每个任务微调(Fine-tune)一个专用模型,而是转向了通用大模型的训练。
这一转变并非一蹴而就。从 GPT-2 的零样本尝试,到 GPT-3 的惊艳涌现,再到 InstructGPT 引入的强化学习,这是一条从"预测下一个词"走向"理解人类意图"的进化之路。
一、 涌现:从 Zero-shot 到 In-context Learning
在 BERT 时代,范式是"预训练 + 下游任务微调"。但 GPT 系列证明了,当模型足够大、语料足够多时,任务处理能力会自然涌现。
1. GPT-2 与 零样本学习 (Zero-shot)
GPT-2 展示了只要你有足够的提示词(Prompt)创造力,模型就能完成未见过的任务。
- 摘要任务 :研究人员发现,只需在文章末尾加上
TL;DR:(Too Long; Didn't Read),模型就会自动进入"总结模式"。 - 问答与指代消歧 :通过构建特定的序列预测问题(如 Winograd Schema Challenge),模型利用概率分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( context ) P(\text{context}) </math>P(context) 就能在没有梯度更新的情况下做出选择。
2. GPT-3 与 上下文学习 (In-context Learning)
GPT-3 进一步提出了 Few-shot Learning ,或者更准确地说是 In-context Learning。
- 机制 :在输入中前置几个示例(Examples),例如
gaot => goat,模型就能理解"拼写纠正"的任务意图。 - 本质 :关键在于 No Gradient Updates 。模型参数 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ 没有改变,模型是在推理阶段通过 Attention 机制,利用上下文中的示例来定位任务分布。
二、 规训:指令微调 (Instruction Finetuning)
虽然 GPT-3 很强,但它本质上还是一个"文本补全机",而非"助手"。为了让模型听懂指令,我们进入了 Instruction Finetuning 阶段。
- 方法:将大量 NLP 任务(翻译、推理、问答)转化为指令格式,对预训练模型(如 T5)进行全量微调,得到 Flan-T5。
- 效果 :实验表明,模型越大,指令微调带来的性能增益( <math xmlns="http://www.w3.org/1998/Math/MathML"> Δ \Delta </math>Δ)越显著(Scaling Law)。
局限性 (The Limitations)
然而,传统的监督微调(SFT)存在瓶颈:
- 数据昂贵:收集高质量的"标准答案"成本极高。
- 缺乏细微差别:对于开放式任务(如"写一个关于狗和蚱蜢的故事"),没有唯一的正确答案。
- 惩罚机制僵化:在 Cross-Entropy Loss 下,将"冒险片"预测为"奇幻片"(接近正确)和预测为"音乐剧"(完全错误)受到的惩罚是一样的。
三、 对齐:基于人类反馈的强化学习 (RLHF)
为了解决 SFT 的局限,我们需要一种能理解"好坏优劣"而非单纯"对错"的机制。这正是 RLHF (Reinforcement Learning from Human Feedback) 的用武之地。
1. 为什么是 RL?
虽然 RL 在游戏领域(AlphaGo)早已大放异彩,但在语言模型上的应用是较新的突破(PPO 算法的出现解决了稳定性问题)。RL 允许我们要针对不可导的奖励函数(人类偏好)进行优化。
2. 核心组件:奖励模型 (Reward Model)
既然人类打分噪声太大,我们采用了 Pairwise Comparison(成对比较) 。
-
让模型生成两个回答 <math xmlns="http://www.w3.org/1998/Math/MathML"> s w s^w </math>sw 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> s l s^l </math>sl,人类只需判断 <math xmlns="http://www.w3.org/1998/Math/MathML"> s w > s l s^w > s^l </math>sw>sl。
-
通过 Bradley-Terry 模型 训练奖励模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> R M ϕ RM_\phi </math>RMϕ,使其满足:
<math xmlns="http://www.w3.org/1998/Math/MathML"> J R M ( ϕ ) = − E ( s w , s l ) ∼ D [ log σ ( R M ϕ ( s w ) − R M ϕ ( s l ) ) ] J_{RM}(\phi) = -\mathbb{E}{(s^w, s^l) \sim D} [\log \sigma (RM\phi(s^w) - RM_\phi(s^l))] </math>JRM(ϕ)=−E(sw,sl)∼D[logσ(RMϕ(sw)−RMϕ(sl))]
这一步将人类模糊的价值观固化为了一个可计算的神经网络。
3. 终极循环:PPO 与 KL 散度惩罚
这是 ChatGPT 训练流程的最后一块拼图。我们需要训练一个新的策略模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> p θ R L p_\theta^{RL} </math>pθRL,优化目标如下:
<math xmlns="http://www.w3.org/1998/Math/MathML"> R ( s ) = R M ϕ ( s ) − β log ( p θ R L ( s ) p P T ( s ) ) R(s) = RM_\phi(s) - \beta \log \left( \frac{p_\theta^{RL}(s)}{p^{PT}(s)} \right) </math>R(s)=RMϕ(s)−βlog(pPT(s)pθRL(s))
-
<math xmlns="http://www.w3.org/1998/Math/MathML"> R M ϕ ( s ) RM_\phi(s) </math>RMϕ(s) :驱使模型尽可能获得高分(讨好人类)。
-
KL Penalty : <math xmlns="http://www.w3.org/1998/Math/MathML"> − β log ( ... ) -\beta \log (\dots) </math>−βlog(...) 是一道紧箍咒。它强迫新模型的分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> p R L p^{RL} </math>pRL 不能偏离原始预训练模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> p P T p^{PT} </math>pPT 太远。
- 如果没有它:模型会利用 Reward Model 的漏洞进行"刷分"(Reward Hacking),输出人类无法理解的乱码。
- 有了它:模型在保持语言流利度(不忘初心)的前提下,尽可能符合人类偏好。
四、 未来:Constitutional AI
RLHF 虽然强大,但依赖大量人类标注(Data Expensive)。未来的方向是 RLAIF (RL from AI Feedback) ,即"宪法 AI"。
通过给定一套原则(Constitution),让 AI 自己对自己生成的回答进行 Critique(批判) 和 Revision(修正) ,从而实现自我迭代。如果说 RLHF 是"依人法治",那么 RLAIF 就是"依宪法治"。
结语
从 GPT-2 的 TL;DR 到 GPT-4 的 RLHF,本质上是我们不仅希望 AI 懂得多(Pre-training),更希望 AI 懂我们(Alignment)。这一过程,正是从"统计概率"向"类人智能"跨越的关键一步。