一个LLM从"一堆随机参数"变成"ChatGPT那样能用",要经过三个阶段。这篇文章把三步全部讲透------前两步定义清楚、流程画清楚、成本算清楚,重点拆解第三步(对齐训练)在2026年已经分化出的5条路线。
一句话总结
LLM训练分三阶段:预训练 (让它会说话,TB级数据,千卡月级训练)→ SFT (让它会回答,万级指令数据,单机几小时)→ 对齐(让它说得好,五条路线按需选)。2026年的对齐训练已经从"RLHF vs DPO"的二选一,演化为RLHF/DPO/GRPO/RLVR/RLAIF五条路线的组合工程。
1. 三阶段总览
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Stage 1 │ │ Stage 2 │ │ Stage 3 │
│ 预训练 │ → │ SFT │ → │ 对齐 │
│ Pre-training│ │ 指令微调 │ │ Alignment │
└──────────────┘ └──────────────┘ └──────────────┘
会说话 会回答 说得好
Base Model Chat Model Aligned Model
(LLaMA-Base) (LLaMA-Instruct) (LLaMA-Chat-RLHF)
| 阶段 | 目标 | 数据规模 | 训练成本 | 产出 |
|---|---|---|---|---|
| 预训练 | 学习语言/知识/推理 | 万亿Token级 | 千卡月级,百万到千万美元 | Base模型 |
| SFT | 学会遵循指令 | 万到十万级对话 | 单机几小时(LoRA)到多卡几天 | Chat/Instruct模型 |
| 对齐 | 符合人类偏好+事实正确 | 万到十万级偏好对/可验证答案 | 中等(DPO低,RLHF高) | 对齐后模型 |
📊 成本对比:预训练占整个训练成本的80-90%,是绝对的大头;SFT和对齐加起来不到20%。这也是为什么99%的企业不自己做预训练,而是基于开源Base模型(LLaMA、Qwen、DeepSeek)直接做SFT+对齐。
2. Stage 1:预训练(Pre-training)
2.1 目标和方法
目标:让模型从"一堆随机参数"学会语言的统计规律、世界知识、基础推理能力。
核心任务:自监督学习------预测下一个Token(自回归LM,GPT/LLaMA路线)或预测被遮盖的Token(Masked LM,BERT路线)。
输入: "苹果很美味,我每天都吃一个___"
模型预测: "苹果" ← 计算损失,反向传播更新参数
💡 自监督学习(Self-Supervised Learning):不需要人工标注,从数据本身构造监督信号。预训练用的就是这个------把一段话里的某个词遮住让模型预测,正确答案就藏在原文里。这就是为什么预训练能用海量无标注网页数据。
2.2 数据来源和规模
预训练数据是TB级别的纯文本:
| 数据源 | 占比示意 | 说明 |
|---|---|---|
| 网页爬取(Common Crawl) | ~60% | 互联网公开网页,需大量清洗 |
| 书籍 | ~15% | 出版书籍、电子书 |
| 代码(GitHub) | ~10% | 提升代码能力和逻辑推理 |
| 学术论文(arXiv等) | ~5% | 提升专业知识 |
| 百科(Wikipedia等) | ~5% | 高质量结构化知识 |
| 对话/论坛 | ~5% | Reddit、StackExchange |
Token规模在持续暴涨:
| 模型 | 预训练Token数 | 参数量 | 发布时间 |
|---|---|---|---|
| GPT-3 | 0.3T | 175B | 2020 |
| LLaMA 2 | 2T | 7B-70B | 2023 |
| LLaMA 3 | 15T | 8B-405B | 2024 |
| DeepSeek V3 | 14.8T | 671B (37B激活) | 2024 |
| LLaMA 4 / DeepSeek V4 | 20T+ | 万亿级 | 2025-2026 |
💡 Chinchilla定律 :DeepMind 2022年发现,在固定算力预算下,模型参数量和数据量应当按1:20的比例同步增长。GPT-3用300B Token训175B参数(比例1:1.7),是严重欠训;LLaMA 3用15T训8B(比例1:1875),属于"小模型大数据"路线,性价比极高。
2.3 工程细节
算力:GPT-4级别的训练用了约25,000张A100 GPU跑100天,电费约50 GWh(够4500个美国家庭用一年)。LLaMA 3.1 405B用了16,000张H100跑54天。
优化器:AdamW + 学习率Warmup + Cosine衰减,是行业标准。
关键挑战:
- 训练不稳定:Loss突然飙升(Loss Spike),需要checkpoint回滚
- 硬件故障:千卡集群每天都有GPU出故障,需要自动恢复机制
- 数据质量:Garbage In Garbage Out,数据清洗常占整个训练时间的30-50%
产出:Base模型------会续写文本,但不会"对答"。你问它"你好",它可能续写"你好,今天天气不错,我去公园散步了...",完全不理解人类指令意图。
3. Stage 2:SFT(监督微调)
3.1 目标和方法
目标:让Base模型从"只会续写"变成"能理解指令并对答"。
核心方法:用"指令-回答"格式的标注数据继续训练,损失函数还是预测下一个Token,但只在"回答"部分计算损失。
输入(Prompt部分,不计算损失):
<用户>: 帮我写一个冒泡排序
输出(Response部分,计算损失):
<助手>: 以下是Python实现的冒泡排序:
def bubble_sort(arr):
...
3.2 数据格式
SFT数据的核心是结构化对话:
json
{
"messages": [
{"role": "system", "content": "你是一个专业的Python老师"},
{"role": "user", "content": "帮我写一个冒泡排序"},
{"role": "assistant", "content": "以下是Python实现..."}
]
}
数据规模和质量:
- 数据量:万到十万级对话对
- 质量要求:极高,通常需要专家标注或精筛
- 多样性:覆盖各类任务(QA、生成、改写、推理、代码、对话等)
💡 典型公开SFT数据集:Alpaca(5.2万条)、ShareGPT(9万条)、OpenAssistant(16万条)、UltraChat(150万条)。质量比数量重要------10万条精标数据效果常优于100万条爬取数据。
3.3 全量微调 vs LoRA
| 方法 | 全量微调(Full FT) | LoRA |
|---|---|---|
| 更新参数 | 全部参数 | 仅低秩适配矩阵(~0.1-1%参数) |
| 显存需求 | 7B模型需80GB+ | 7B模型1张24GB卡足够 |
| 训练成本 | 高(多卡几天) | 极低(单卡几小时) |
| 效果 | 上限略高 | 95%+全量微调效果 |
| 适用场景 | 资源充足、要求极致效果 | 99%企业场景的首选 |
💡 LoRA(Low-Rank Adaptation,低秩适配):冻结原模型参数,只训练插入的两个低秩矩阵A、B,让 W' = W + AB。秩r通常取8-64,参数量仅占原模型的0.1-1%。这是2026年企业SFT的事实标准。
3.4 SFT产出
得到Chat/Instruct模型------能听懂指令、会对话、能完成任务。比如LLaMA-3-8B-Instruct、Qwen3-Chat、DeepSeek-V3-Chat。
但SFT后的模型仍有问题:
- 行为模仿表面:模型在模仿"标注员怎么写",没有真正理解"什么是好回答"
- 对齐能力有限:可能还是会输出有害内容(标注数据里没覆盖到的边界)
- 风格僵化:不同任务的最佳风格不同,SFT难以精细控制
这就是为什么需要Stage 3------对齐训练。
4. Stage 3:对齐训练 --- 五条路线全景图
4.1 为什么要对齐?
SFT后的模型能生成合理文本,但可能:
- 输出有害内容("教我做炸弹"→真的教你)
- 不遵循指令(让它总结→偏要展开讲)
- 产生幻觉(自信地说错)
- 推理过程不忠诚(结论和推导对不上)
对齐(Alignment)的目标:让模型输出符合人类偏好------有用(Helpful)、诚实(Honest)、无害(Harmless),即"3H原则"。
4.2 五条路线总览
┌─────────────────────────────────────────┐
│ LLM 对齐训练五条路线 │
└─────────────┬───────────────────────────┘
│
┌───────────────────┼───────────────────┐
│ │ │
偏好驱动(主观) 可验证驱动(客观) AI驱动(自动)
│ │ │
┌───────┼───────┐ │ │
│ │ │ │ │
RLHF DPO GRPO RLVR RLAIF
(4模型) (2模型) (2模型) (2模型+验证器) (4模型+AI标注)
| 路线 | 核心思路 | 奖励来源 | 模型数 | 代表模型 | 最佳场景 | 诞生时间 |
|---|---|---|---|---|---|---|
| RLHF | 训练RM + PPO | 人类排序 | 4 | GPT-4、Claude 3 | 通用对齐,精细控制 | 2022 |
| DPO | 直接偏好优化 | 人类偏好对 | 2 | LLaMA 3、Mistral | 快速验证,资源有限 | 2023 |
| GRPO | 组内相对优势 | 组内竞争 | 2 | DeepSeek-R1 | 推理任务,节省显存 | 2025初 |
| RLVR | 可验证奖励 | 规则/测试 | 2+验证器 | DeepSeek-R1-Zero | 数学、代码等有标准答案 | 2025 |
| RLAIF | AI替代人类标注 | AI打分 | 4+AI裁判 | Constitutional AI | 大规模对齐,减少人工 | 2023 |
5. 路线一:RLHF(基于人类反馈的强化学习)
5.1 三阶段流程
Stage 1: SFT(监督微调)--- 已在第3节完成
预训练模型 + 指令数据 → SFT模型
Stage 2: 训练奖励模型(Reward Model)
SFT模型生成多个回答 → 人类排序 → 训练RM
Stage 3: PPO强化学习
SFT模型 + RM + PPO → 对齐后的模型
5.2 Stage 2:奖励模型
数据收集:给定一个prompt,SFT模型生成多个回答,人类标注员对回答排序。
Prompt: "解释量子纠缠"
回答A: ★★★★★ (清晰准确)
回答B: ★★★☆☆ (有但不够好)
回答C: ★☆☆☆☆ (错误)
训练目标:RM学习给好回答打高分、差回答打低分:
L R M = − E [ log σ ( r ( x , y w ) − r ( x , y l ) ) ] L_{RM} = -\mathbb{E}\left[\log\sigma(r(x, y_w) - r(x, y_l))\right] LRM=−E[logσ(r(x,yw)−r(x,yl))]
💡 RM(Reward Model,奖励模型):一个神经网络,输入是(prompt, 回答),输出是一个标量分数。它学会了"人类觉得哪个回答更好"。
5.3 Stage 3:PPO
💡 PPO(Proximal Policy Optimization,近端策略优化):一种强化学习算法,让模型朝着RM给高分的方向优化,但限制每步更新幅度,防止策略跑偏。
核心目标:
objective = E [ r ( x , y ) − β ⋅ K L ( π θ ∥ π r e f ) ] \text{objective} = \mathbb{E}\left[r(x, y) - \beta \cdot KL(\pi_\theta \| \pi_{ref})\right] objective=E[r(x,y)−β⋅KL(πθ∥πref)]
- r ( x , y ) r(x, y) r(x,y):奖励模型打分
- K L ( π θ ∥ π r e f ) KL(\pi_\theta \| \pi_{ref}) KL(πθ∥πref):当前策略和参考策略的KL散度
- β \beta β:KL惩罚系数
💡 KL散度(Kullback-Leibler Divergence):衡量两个概率分布的差异。这里用来确保训练后的模型不会偏离原模型太远,防止"对齐税"------为了拿高分把基础能力丢了。
PPO需要4个模型同时加载到GPU:
| 模型 | 作用 | 是否更新 |
|---|---|---|
| Actor(策略模型) | 生成回答 | 是 |
| Critic(价值模型) | 估计状态价值 | 是 |
| Reward Model | 给回答打分 | 否 |
| Reference Model | 计算KL散度 | 否 |
4个模型同时驻留GPU,是RLHF成本高的根源。对于671B的模型,Critic也是671B------显存直接翻倍。
5.4 RLHF的已知问题
| 问题 | 原因 | 表现 |
|---|---|---|
| Reward Hacking | Actor钻RM空子 | 生成RM打高分但人类不认可的内容 |
| PPO不稳定 | 对超参敏感 | 学习率大→策略崩溃,KL惩罚大→不更新 |
| 标注成本高 | 需要人类排序 | 一条偏好对~$0.5-2,需数十万条 |
| 对齐税 | 优化偏好导致基础能力下降 | 数学/代码能力可能退化 |
6. 路线二:DPO(直接偏好优化)
6.1 核心洞察
DPO的作者发现:奖励模型和最优策略之间有闭式映射------最优奖励函数可以由最优策略和参考策略的log-ratio表示。所以不需要显式训练RM,可以直接从偏好数据优化策略。
💡 闭式映射(Closed-form mapping):两个量之间有明确的数学公式可以直接换算,不需要迭代求解。就像"温度°C = (°F - 32) × 5/9"一样,知道一个就能直接算出另一个。
6.2 DPO损失函数
L D P O = − E [ log σ ( β log π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] L_{DPO} = -\mathbb{E}\left[\log\sigma\left(\beta \log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right] LDPO=−E[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))]
直觉解读:
- 增大偏好回答 y w y_w yw 的概率
- 减小不偏好回答 y l y_l yl 的概率
- 用参考模型 π r e f \pi_{ref} πref 做基线,防止跑偏
6.3 DPO只需要2个模型
| 模型 | 作用 | 是否更新 |
|---|---|---|
| Policy Model | 当前训练的策略 | 是 |
| Reference Model | 参考基线 | 否 |
比RLHF少了Reward Model和Critic,训练更简单,成本约1/3-1/2。
6.4 DPO的变体
| 方法 | 改进点 | 简要说明 |
|---|---|---|
| IPO | 用更温和的损失替代logistic损失 | 避免对偏好对过拟合 |
| KTO | 只需二元反馈(好/坏),不需要偏好对 | 大幅降低数据收集难度 |
| ORPO | 将SFT和对齐合并为一步 | 一箭双雕,省一轮训练 |
| SimPO | 去掉Reference Model | 只需1个模型,进一步简化 |
💡 KTO(Kahneman-Tversky Optimization):以行为经济学家命名,借用了"前景理论"------人类对损失比对收益更敏感。KTO不要求"A比B好"的配对数据,只要"这个回答好不好"的单独打分,因此可以直接用线上"点赞/点踩"数据训练。
7. 路线三:GRPO(组相对策略优化)⭐ DeepSeek-R1核心
7.1 GRPO要解决什么问题?
PPO需要Critic模型来估计"这个状态有多好"(基线值),然后算优势(Advantage = 实际奖励 - 基线值)。Critic和Actor一样大,显存翻倍。
GRPO的核心突破:不要Critic,用"组内竞争"代替。
7.2 GRPO工作流程
对同一个问题,模型生成一组回答(比如8个)
↓
用规则或RM给每个回答打分
↓
算组内相对优势:优势 = (我的分 - 组均值) / 组标准差
↓
优势大的回答被强化,优势小的被抑制
↓
加上KL散度约束,防止跑偏
举个具体例子:
问题:"8 + 5等于多少?"
模型生成4个回答:
o1: "答案是13" → r1 = 1.0(正确+格式好)
o2: "十三" → r2 = 0.9(正确但非标准格式)
o3: "是12" → r3 = 0.0(错误)
o4: "和是13" → r4 = 1.0(正确+格式好)
组均值 = (1.0+0.9+0.0+1.0)/4 = 0.725
组标准差 = 0.42
优势计算:
A1 = (1.0 - 0.725) / 0.42 = +0.65 → 强化
A2 = (0.9 - 0.725) / 0.42 = +0.42 → 小幅强化
A3 = (0.0 - 0.725) / 0.42 = -1.73 → 抑制
A4 = (1.0 - 0.725) / 0.42 = +0.65 → 强化
关键:GRPO不关心绝对分数,只关心"你比同组平均水平好多少"。8个答案全错?大家一起被抑制,不更新。7个错1个对?对的那个获得巨大奖励。
7.3 GRPO vs PPO
| 维度 | PPO | GRPO |
|---|---|---|
| 基线估计 | Critic模型(=Actor大小) | 组内均值(无需额外模型) |
| 优势计算 | 实际奖励 - Critic估计 | (奖励 - 组均值) / 组标准差 |
| 需要几个模型 | 4个 | 2个(Actor + Reference) |
| 显存占用 | 高(Critic=Actor大小) | 约省一半 |
| 训练稳定性 | 对超参敏感 | 更稳定(组归一化自带方差控制) |
7.4 DeepSeek-R1的GRPO实践
DeepSeek-R1用GRPO做出了一个震撼业界的实验------R1-Zero:直接在Base模型上跑纯GRPO,不给任何推理过程的示范,只给最终答案的对错作为奖励。模型居然自己演化出了自我反思、多步验证等高级推理行为。
💡 Aha Moment(顿悟时刻):DeepSeek-R1-Zero训练中,模型在解题过程中突然插入"Wait, wait. That's an aha moment I can flag here."------它不是被教出来的,是在GRPO的组内竞争中自发涌现的。这项成果2025年9月登上Nature封面,是中国团队首次以"大模型第一作者"身份登上Nature。
但R1-Zero存在问题:语言混用(中英文夹杂)、可读性差。最终版DeepSeek-R1采用四阶段训练:冷启动SFT → 推理GRPO → 拒绝采样SFT → 全场景GRPO,把推理能力和通用能力统一。
7.5 GRPO的进一步演化(2026最新)
| 方法 | 改进点 |
|---|---|
| f-GRPO | 用f-散度统一RLVR和偏好对齐,可以同时处理"对错"和"好坏"两种信号(普渡大学 2026) |
| DAPO | Clip-decoupled优化,提升大模型可扩展性 |
| f-HAL | 混合对齐损失,缓解reward hacking |
8. 路线四:RLVR(基于可验证奖励的强化学习)
8.1 RLVR要解决什么问题?
RLHF/DPO/GRPO都依赖"偏好信号"------人类或RM来判断"哪个更好"。但在数学、代码等有标准答案的领域,答案对就是对、错就是错,不需要人类来"品鉴"。
💡 RLVR(Reinforcement Learning from Verifiable Rewards):用程序化验证器替代人类标注。模型做数学题,对答案用程序校验;写代码,跑单元测试。通过就给奖励,不通过就不给。零人工、高确定性、可审计。
8.2 常见验证器
| 验证器类型 | 工作方式 | 适用场景 |
|---|---|---|
| 数学等式校验 | 答案是否精确匹配 | 数学推理 |
| 代码单元测试 | 编译运行,检查输出 | 代码生成 |
| JSON Schema验证 | 输出是否符合结构定义 | API调用、数据抽取 |
| 引文解析校验 | 引用来源是否真实存在 | RAG、研究报告 |
8.3 RLVR的优势和局限
优势:
- 零人工标注成本,完全自动化
- 信号无噪声(对就是对,错就是错)
- 可审计(每条奖励都有明确验证记录)
- 可规模化(不受人类标注速度限制)
局限:
- 只适用于有标准答案的领域(数学/代码/逻辑推理)
- 开放性任务(创意写作、对话风格)无法用RLVR
- 基础模型必须有一定正确率(否则全组答案都错,学不到东西)
- 推理忠诚度问题:模型可能蒙对答案但推理过程错乱(UCLA/NYU/Google 2026研究)
8.4 RLVR + RLHF 的最佳实践
2026年的共识是RLVR和RLHF互补:
RLVR守住底线 → 确保输出事实正确、结构合规
↓
RLHF打磨体验 → 在正确性基础上优化语气、清晰度、安全性
↓
产出:既可通过验证、又有良好用户体验的AI输出
DeepSeek-R1就是这个思路的典范:推理阶段用RLVR(规则奖励),通用对齐阶段用偏好信号。
9. 路线五:RLAIF(基于AI反馈的强化学习)
9.1 RLAIF要解决什么问题?
RLHF的瓶颈是人类标注------贵、慢、规模上不去。如果让AI替代人类做标注呢?
💡 RLAIF(Reinforcement Learning from AI Feedback):用一个强模型(如GPT-5.5、Claude Opus 4.7)来替代人类标注员,对回答排序或打分。Anthropic的Constitutional AI就是RLAIF的代表作------用一组"宪法原则"指导AI裁判做判断。
9.2 Constitutional AI流程
Step 1: AI生成回答 + 自我批评
模型生成回答 → 对照"宪法原则"自我批评 → 生成修改后的回答
Step 2: AI标注偏好
用另一个模型对(原始回答, 修改后回答)做偏好标注
Step 3: 训练RM + PPO
用AI标注的数据训练RM,再做PPO(流程同RLHF,标注者从人类变成AI)
💡 宪法原则(Constitutional Principles):一组预定义的规则,比如"回答不应包含歧视性内容"、"回答应诚实承认不确定性"等。AI裁判根据这些原则来做判断,而不是凭"感觉"。
9.3 RLAIF的优势和风险
| 维度 | 优势 | 风险 |
|---|---|---|
| 成本 | 仅为人类标注的1/10-1/100 | --- |
| 速度 | 批量标注,不受人力限制 | --- |
| 一致性 | 同一输入同一输出 | AI偏见可能被放大 |
| 覆盖面 | 可覆盖人类难以判断的领域 | AI判断可能和人类偏好不一致 |
核心风险:AI裁判的偏见会被注入训练模型,形成"偏见放大循环"------模型A标注数据训练模型B,B再标注数据训练C,错误层层放大。
10. 五条路线对比总结
| 维度 | RLHF | DPO | GRPO | RLVR | RLAIF |
|---|---|---|---|---|---|
| 核心思想 | RM+PPO | 直接偏好 | 组内竞争 | 可验证奖励 | AI替代人类 |
| 奖励来源 | 人类排序 | 偏好对 | 组内相对分 | 规则/测试 | AI裁判 |
| 模型数量 | 4 | 2 | 2 | 2+验证器 | 4+AI裁判 |
| 训练稳定性 | ⚠️ 敏感 | ✅ 稳定 | ✅ 稳定 | ✅ 稳定 | ⚠️ 敏感 |
| 人工标注 | 多(排序) | 中(偏好对) | 少 | 无 | 极少(宪法原则) |
| 适用场景 | 通用对齐 | 快速验证 | 推理任务 | 数学/代码 | 大规模对齐 |
| 计算成本 | 高 | 低 | 中 | 低 | 中 |
| 代表模型 | GPT-4、Claude 3 | LLaMA 3 | DeepSeek-R1 | R1-Zero | Constitutional AI |
| 诞生时间 | 2022 | 2023 | 2025初 | 2025 | 2023 |
11. 选型决策树
你的任务是什么?
│
├─ 有标准答案?(数学/代码/逻辑)
│ └─ ✅ 用 RLVR + GRPO
│ (DeepSeek-R1路线:规则奖励+组内竞争)
│
├─ 需要精细控制输出风格?
│ └─ ✅ 用 RLHF
│ (4模型方案,RM可动态调整)
│
├─ 快速验证 / 资源有限?
│ └─ ✅ 用 DPO
│ (2模型方案,类似SFT训练一样简单)
│
├─ 需要大规模对齐但标注资源不足?
│ └─ ✅ 用 RLAIF
│ (AI裁判+宪法原则)
│
└─ 混合场景(推理+通用)
└─ ✅ RLVR + DPO/RLHF 组合
(推理走RLVR,对话走DPO/RLHF)
12. 代码示例:DPO训练
python
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer, DPOConfig
# 加载模型(基于已SFT过的Instruct模型)
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
ref_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")
# DPO偏好数据格式
train_dataset = [
{
"prompt": "解释什么是机器学习",
"chosen": "机器学习是AI的一个分支,让计算机从数据中学习规律...", # 人类偏好
"rejected": "机器学习就是学机器..." # 人类不偏好
},
# ... 更多数据
]
# DPO训练配置
training_args = DPOConfig(
output_dir="./dpo-output",
beta=0.1, # KL惩罚系数
learning_rate=5e-7,
per_device_train_batch_size=4,
num_train_epochs=3,
)
# 训练
trainer = DPOTrainer(
model=model,
ref_model=ref_model,
args=training_args,
train_dataset=train_dataset,
tokenizer=tokenizer,
)
trainer.train()
使用Hugging Face的
trl库,DPO/GRPO训练和SFT训练一样简单。GRPO只需换成GRPOTrainer。
13. 面试高频问题
Q1:为什么需要KL散度约束?
不加约束,策略会朝着RM打高分的方向无限偏移,生成RM"喜欢"但人类不认可的内容(reward hacking)。KL散度把策略"拉回"参考模型附近,防止"对齐税"。
Q2:DPO为什么能跳过奖励模型?
因为存在闭式映射:最优奖励函数可以由最优策略和参考策略的log-ratio表示。DPO直接优化策略,等价于隐式地优化了奖励函数。
Q3:GRPO相比PPO的核心优势?
去掉Critic模型,用组内相对优势代替。省一半显存,训练更稳定(组归一化自带方差控制),同时保留了在线学习能力(DPO是离线的)。
Q4:RLVR为什么不能完全替代RLHF?
RLVR只适用于有标准答案的领域(数学/代码)。开放性任务(创意写作、对话风格、安全判断)没有客观验证器,仍然需要偏好信号。
Q5:DeepSeek-R1-Zero为什么能"无师自通"?
GRPO的组内竞争机制天然驱动探索:每次生成多个答案,组内比较让模型自然发现更好的推理路径。加上RLVR的规则奖励(只看最终答案对错),模型被迫自己发明中间推理步骤------这就是"顿悟时刻"涌现的原因。
Q6:为什么99%的企业不自己做预训练?
预训练成本极高(百万到千万美元、千卡月级),且开源Base模型(LLaMA、Qwen、DeepSeek)已经足够好。企业的最佳路径是"开源Base + 领域SFT + 对齐",成本可降到原来的1%以下。
总结
| 阶段 | 目标 | 数据 | 成本 | 方法 | 产出 |
|---|---|---|---|---|---|
| 预训练 | 学会语言/知识 | 万亿Token级 | 80-90%总成本 | Next-token prediction | Base模型 |
| SFT | 学会执行指令 | 万到十万对话 | 单机几小时(LoRA) | 监督学习 | Chat模型 |
| 对齐-RLHF | 符合人类偏好 | 十万级排序 | 高(4模型) | RM + PPO | 通用对齐 |
| 对齐-DPO | 符合人类偏好 | 偏好对 | 低(2模型) | 直接偏好优化 | 快速对齐 |
| 对齐-GRPO | 推理能力 | 组内竞争 | 中(2模型) | 组内相对优势 | 推理模型 |
| 对齐-RLVR | 事实正确 | 验证器 | 低 | 可验证奖励 | 数学/代码 |
| 对齐-RLAIF | 大规模对齐 | AI标注 | 中 | AI裁判 | 减少人工 |
LLM从"一堆随机参数"到"ChatGPT那样能用",要走完三个阶段。预训练 是基础,最贵但已经被开源Base模型覆盖;SFT 让模型会对话,企业能做也必须做;对齐让模型说得好,2026年已经分化为五条路线,不是非此即彼,而是按场景组合使用------最终的生产级模型往往是多种路线的合奏。
路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块03-LLM基础 · 第三篇
以下是近期发布的《系统学AI》相关文章,推荐阅读:
【系统学AI】0 一文搞定AI Agent与RAG:从入门到工程实战的完整学习路线
1.【系统学AI】01 Transformer原理全解:从Self-Attention到GPT的架构进化
2. 【系统学AI】02 token机制全解:LLM如何'读懂'人类语言
3. 【系统学AI】03 LLM训练全流程:预训练→SFT→对齐五条路线
未完待续
想要系统学习的朋友,快收藏起来慢慢看吧,更多更新请关注账号~
