从 In-context Learning 到 RLHF：大语言模型的范式跃迁

------ CS224n Lecture 10 深度笔记

自然语言处理（NLP）在过去几年经历了一场无声的革命。我们不再为每个任务微调（Fine-tune）一个专用模型，而是转向了通用大模型的训练。

这一转变并非一蹴而就。从 GPT-2 的零样本尝试，到 GPT-3 的惊艳涌现，再到 InstructGPT 引入的强化学习，这是一条从"预测下一个词"走向"理解人类意图"的进化之路。

一、涌现：从 Zero-shot 到 In-context Learning

在 BERT 时代，范式是"预训练 + 下游任务微调"。但 GPT 系列证明了，当模型足够大、语料足够多时，任务处理能力会自然涌现。

1. GPT-2 与零样本学习 (Zero-shot)

GPT-2 展示了只要你有足够的提示词（Prompt）创造力，模型就能完成未见过的任务。

摘要任务 ：研究人员发现，只需在文章末尾加上 TL;DR:（Too Long; Didn't Read），模型就会自动进入"总结模式"。
问答与指代消歧 ：通过构建特定的序列预测问题（如 Winograd Schema Challenge），模型利用概率分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( context ) P(\text{context}) </math>P(context) 就能在没有梯度更新的情况下做出选择。

2. GPT-3 与上下文学习 (In-context Learning)

GPT-3 进一步提出了 Few-shot Learning ，或者更准确地说是 In-context Learning。

机制：在输入中前置几个示例（Examples），例如 gaot => goat，模型就能理解"拼写纠正"的任务意图。
本质：关键在于 No Gradient Updates 。模型参数 <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ 没有改变，模型是在推理阶段通过 Attention 机制，利用上下文中的示例来定位任务分布。

二、规训：指令微调 (Instruction Finetuning)

虽然 GPT-3 很强，但它本质上还是一个"文本补全机"，而非"助手"。为了让模型听懂指令，我们进入了 Instruction Finetuning 阶段。

方法：将大量 NLP 任务（翻译、推理、问答）转化为指令格式，对预训练模型（如 T5）进行全量微调，得到 Flan-T5。
效果：实验表明，模型越大，指令微调带来的性能增益（ <math xmlns="http://www.w3.org/1998/Math/MathML"> Δ \Delta </math>Δ）越显著（Scaling Law）。

局限性 (The Limitations)

然而，传统的监督微调（SFT）存在瓶颈：

数据昂贵：收集高质量的"标准答案"成本极高。
缺乏细微差别：对于开放式任务（如"写一个关于狗和蚱蜢的故事"），没有唯一的正确答案。
惩罚机制僵化：在 Cross-Entropy Loss 下，将"冒险片"预测为"奇幻片"（接近正确）和预测为"音乐剧"（完全错误）受到的惩罚是一样的。

三、对齐：基于人类反馈的强化学习 (RLHF)

为了解决 SFT 的局限，我们需要一种能理解"好坏优劣"而非单纯"对错"的机制。这正是 RLHF (Reinforcement Learning from Human Feedback) 的用武之地。

1. 为什么是 RL？

虽然 RL 在游戏领域（AlphaGo）早已大放异彩，但在语言模型上的应用是较新的突破（PPO 算法的出现解决了稳定性问题）。RL 允许我们要针对不可导的奖励函数（人类偏好）进行优化。

2. 核心组件：奖励模型 (Reward Model)

既然人类打分噪声太大，我们采用了 Pairwise Comparison（成对比较） 。

让模型生成两个回答 <math xmlns="http://www.w3.org/1998/Math/MathML"> s w s^w </math>sw 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> s l s^l </math>sl，人类只需判断 <math xmlns="http://www.w3.org/1998/Math/MathML"> s w > s l s^w > s^l </math>sw>sl。
通过 Bradley-Terry 模型训练奖励模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> R M ϕ RM_\phi </math>RMϕ，使其满足：

<math xmlns="http://www.w3.org/1998/Math/MathML"> J R M ( ϕ ) = − E ( s w , s l ) ∼ D [ log ⁡ σ ( R M ϕ ( s w ) − R M ϕ ( s l ) ) ] J_{RM}(\phi) = -\mathbb{E}{(s^w, s^l) \sim D} [\log \sigma (RM\phi(s^w) - RM_\phi(s^l))] </math>JRM(ϕ)=−E(sw,sl)∼D[logσ(RMϕ(sw)−RMϕ(sl))]

这一步将人类模糊的价值观固化为了一个可计算的神经网络。

3. 终极循环：PPO 与 KL 散度惩罚

这是 ChatGPT 训练流程的最后一块拼图。我们需要训练一个新的策略模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> p θ R L p_\theta^{RL} </math>pθRL，优化目标如下：

<math xmlns="http://www.w3.org/1998/Math/MathML"> R ( s ) = R M ϕ ( s ) − β log ⁡ ( p θ R L ( s ) p P T ( s ) ) R(s) = RM_\phi(s) - \beta \log \left( \frac{p_\theta^{RL}(s)}{p^{PT}(s)} \right) </math>R(s)=RMϕ(s)−βlog(pPT(s)pθRL(s))

<math xmlns="http://www.w3.org/1998/Math/MathML"> R M ϕ ( s ) RM_\phi(s) </math>RMϕ(s) ：驱使模型尽可能获得高分（讨好人类）。
KL Penalty ： <math xmlns="http://www.w3.org/1998/Math/MathML"> − β log ⁡ ( ... ) -\beta \log (\dots) </math>−βlog(...) 是一道紧箍咒。它强迫新模型的分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> p R L p^{RL} </math>pRL 不能偏离原始预训练模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> p P T p^{PT} </math>pPT 太远。
- 如果没有它：模型会利用 Reward Model 的漏洞进行"刷分"（Reward Hacking），输出人类无法理解的乱码。
- 有了它：模型在保持语言流利度（不忘初心）的前提下，尽可能符合人类偏好。

四、未来：Constitutional AI

RLHF 虽然强大，但依赖大量人类标注（Data Expensive）。未来的方向是 RLAIF (RL from AI Feedback) ，即"宪法 AI"。

通过给定一套原则（Constitution），让 AI 自己对自己生成的回答进行 Critique（批判） 和 Revision（修正） ，从而实现自我迭代。如果说 RLHF 是"依人法治"，那么 RLAIF 就是"依宪法治"。

结语

从 GPT-2 的 TL;DR 到 GPT-4 的 RLHF，本质上是我们不仅希望 AI 懂得多（Pre-training），更希望 AI 懂我们（Alignment）。这一过程，正是从"统计概率"向"类人智能"跨越的关键一步。

从 In-context Learning 到 RLHF：大语言模型的范式跃迁