【系统学AI】03 LLM训练全流程：预训练→SFT→对齐五条路线

一个LLM从"一堆随机参数"变成"ChatGPT那样能用"，要经过三个阶段。这篇文章把三步全部讲透------前两步定义清楚、流程画清楚、成本算清楚，重点拆解第三步（对齐训练）在2026年已经分化出的5条路线。

一句话总结

LLM训练分三阶段：预训练 （让它会说话，TB级数据，千卡月级训练）→ SFT （让它会回答，万级指令数据，单机几小时）→ 对齐（让它说得好，五条路线按需选）。2026年的对齐训练已经从"RLHF vs DPO"的二选一，演化为RLHF/DPO/GRPO/RLVR/RLAIF五条路线的组合工程。

1. 三阶段总览

复制代码

┌──────────────┐    ┌──────────────┐    ┌──────────────┐
│  Stage 1     │    │  Stage 2     │    │  Stage 3     │
│  预训练       │ →  │  SFT         │ →  │  对齐         │
│  Pre-training│    │  指令微调     │    │  Alignment   │
└──────────────┘    └──────────────┘    └──────────────┘
   会说话                会回答              说得好
   Base Model         Chat Model          Aligned Model
   (LLaMA-Base)       (LLaMA-Instruct)    (LLaMA-Chat-RLHF)

阶段	目标	数据规模	训练成本	产出
预训练	学习语言/知识/推理	万亿Token级	千卡月级，百万到千万美元	Base模型
SFT	学会遵循指令	万到十万级对话	单机几小时（LoRA）到多卡几天	Chat/Instruct模型
对齐	符合人类偏好+事实正确	万到十万级偏好对/可验证答案	中等（DPO低，RLHF高）	对齐后模型

📊 成本对比：预训练占整个训练成本的80-90%，是绝对的大头；SFT和对齐加起来不到20%。这也是为什么99%的企业不自己做预训练，而是基于开源Base模型（LLaMA、Qwen、DeepSeek）直接做SFT+对齐。

2. Stage 1：预训练（Pre-training）

2.1 目标和方法

目标：让模型从"一堆随机参数"学会语言的统计规律、世界知识、基础推理能力。

核心任务：自监督学习------预测下一个Token（自回归LM，GPT/LLaMA路线）或预测被遮盖的Token（Masked LM，BERT路线）。

复制代码

输入: "苹果很美味，我每天都吃一个___"
模型预测: "苹果"  ← 计算损失，反向传播更新参数

💡 自监督学习（Self-Supervised Learning）：不需要人工标注，从数据本身构造监督信号。预训练用的就是这个------把一段话里的某个词遮住让模型预测，正确答案就藏在原文里。这就是为什么预训练能用海量无标注网页数据。

2.2 数据来源和规模

预训练数据是TB级别的纯文本：

数据源	占比示意	说明
网页爬取（Common Crawl）	~60%	互联网公开网页，需大量清洗
书籍	~15%	出版书籍、电子书
代码（GitHub）	~10%	提升代码能力和逻辑推理
学术论文（arXiv等）	~5%	提升专业知识
百科（Wikipedia等）	~5%	高质量结构化知识
对话/论坛	~5%	Reddit、StackExchange

Token规模在持续暴涨：

模型	预训练Token数	参数量	发布时间
GPT-3	0.3T	175B	2020
LLaMA 2	2T	7B-70B	2023
LLaMA 3	15T	8B-405B	2024
DeepSeek V3	14.8T	671B (37B激活)	2024
LLaMA 4 / DeepSeek V4	20T+	万亿级	2025-2026

💡 Chinchilla定律 ：DeepMind 2022年发现，在固定算力预算下，模型参数量和数据量应当按1:20的比例同步增长。GPT-3用300B Token训175B参数（比例1:1.7），是严重欠训；LLaMA 3用15T训8B（比例1:1875），属于"小模型大数据"路线，性价比极高。

2.3 工程细节

算力：GPT-4级别的训练用了约25,000张A100 GPU跑100天，电费约50 GWh（够4500个美国家庭用一年）。LLaMA 3.1 405B用了16,000张H100跑54天。

优化器：AdamW + 学习率Warmup + Cosine衰减，是行业标准。

关键挑战：

训练不稳定：Loss突然飙升（Loss Spike），需要checkpoint回滚
硬件故障：千卡集群每天都有GPU出故障，需要自动恢复机制
数据质量：Garbage In Garbage Out，数据清洗常占整个训练时间的30-50%

产出：Base模型------会续写文本，但不会"对答"。你问它"你好"，它可能续写"你好，今天天气不错，我去公园散步了..."，完全不理解人类指令意图。

3. Stage 2：SFT（监督微调）

3.1 目标和方法

目标：让Base模型从"只会续写"变成"能理解指令并对答"。

核心方法：用"指令-回答"格式的标注数据继续训练，损失函数还是预测下一个Token，但只在"回答"部分计算损失。

复制代码

输入（Prompt部分，不计算损失）:
  <用户>: 帮我写一个冒泡排序

输出（Response部分，计算损失）:
  <助手>: 以下是Python实现的冒泡排序：
          def bubble_sort(arr):
              ...

3.2 数据格式

SFT数据的核心是结构化对话：

json 复制代码

{
  "messages": [
    {"role": "system", "content": "你是一个专业的Python老师"},
    {"role": "user", "content": "帮我写一个冒泡排序"},
    {"role": "assistant", "content": "以下是Python实现..."}
  ]
}

数据规模和质量：

数据量：万到十万级对话对
质量要求：极高，通常需要专家标注或精筛
多样性：覆盖各类任务（QA、生成、改写、推理、代码、对话等）

💡 典型公开SFT数据集：Alpaca（5.2万条）、ShareGPT（9万条）、OpenAssistant（16万条）、UltraChat（150万条）。质量比数量重要------10万条精标数据效果常优于100万条爬取数据。

3.3 全量微调 vs LoRA

方法	全量微调（Full FT）	LoRA
更新参数	全部参数	仅低秩适配矩阵（~0.1-1%参数）
显存需求	7B模型需80GB+	7B模型1张24GB卡足够
训练成本	高（多卡几天）	极低（单卡几小时）
效果	上限略高	95%+全量微调效果
适用场景	资源充足、要求极致效果	99%企业场景的首选

💡 LoRA（Low-Rank Adaptation，低秩适配）：冻结原模型参数，只训练插入的两个低秩矩阵A、B，让 W' = W + AB。秩r通常取8-64，参数量仅占原模型的0.1-1%。这是2026年企业SFT的事实标准。

3.4 SFT产出

得到Chat/Instruct模型------能听懂指令、会对话、能完成任务。比如LLaMA-3-8B-Instruct、Qwen3-Chat、DeepSeek-V3-Chat。

但SFT后的模型仍有问题：

行为模仿表面：模型在模仿"标注员怎么写"，没有真正理解"什么是好回答"
对齐能力有限：可能还是会输出有害内容（标注数据里没覆盖到的边界）
风格僵化：不同任务的最佳风格不同，SFT难以精细控制

这就是为什么需要Stage 3------对齐训练。

4. Stage 3：对齐训练 --- 五条路线全景图

4.1 为什么要对齐？

SFT后的模型能生成合理文本，但可能：

输出有害内容（"教我做炸弹"→真的教你）
不遵循指令（让它总结→偏要展开讲）
产生幻觉（自信地说错）
推理过程不忠诚（结论和推导对不上）

对齐（Alignment）的目标：让模型输出符合人类偏好------有用（Helpful）、诚实（Honest）、无害（Harmless），即"3H原则"。

4.2 五条路线总览

复制代码

                    ┌─────────────────────────────────────────┐
                    │          LLM 对齐训练五条路线            │
                    └─────────────┬───────────────────────────┘
                                  │
              ┌───────────────────┼───────────────────┐
              │                   │                   │
      偏好驱动（主观）      可验证驱动（客观）       AI驱动（自动）
              │                   │                   │
      ┌───────┼───────┐           │                   │
      │       │       │           │                   │
    RLHF    DPO     GRPO        RLVR               RLAIF
   (4模型) (2模型)  (2模型)    (2模型+验证器)    (4模型+AI标注)

路线	核心思路	奖励来源	模型数	代表模型	最佳场景	诞生时间
RLHF	训练RM + PPO	人类排序	4	GPT-4、Claude 3	通用对齐，精细控制	2022
DPO	直接偏好优化	人类偏好对	2	LLaMA 3、Mistral	快速验证，资源有限	2023
GRPO	组内相对优势	组内竞争	2	DeepSeek-R1	推理任务，节省显存	2025初
RLVR	可验证奖励	规则/测试	2+验证器	DeepSeek-R1-Zero	数学、代码等有标准答案	2025
RLAIF	AI替代人类标注	AI打分	4+AI裁判	Constitutional AI	大规模对齐，减少人工	2023

5. 路线一：RLHF（基于人类反馈的强化学习）

5.1 三阶段流程

复制代码

Stage 1: SFT（监督微调）--- 已在第3节完成
  预训练模型 + 指令数据 → SFT模型

Stage 2: 训练奖励模型（Reward Model）
  SFT模型生成多个回答 → 人类排序 → 训练RM

Stage 3: PPO强化学习
  SFT模型 + RM + PPO → 对齐后的模型

5.2 Stage 2：奖励模型

数据收集：给定一个prompt，SFT模型生成多个回答，人类标注员对回答排序。

复制代码

Prompt: "解释量子纠缠"
  回答A: ★★★★★ (清晰准确)
  回答B: ★★★☆☆ (有但不够好)
  回答C: ★☆☆☆☆ (错误)

训练目标：RM学习给好回答打高分、差回答打低分：

L R M = − E $log σ ( r ( x , y w ) - r ( x , y l ) )$ L_{RM} = -\mathbb{E}\left $\\log\\sigma(r(x, y_w) - r(x, y_l))\\right$ LRM=−E $logσ(r(x,yw)-r(x,yl))$

💡 RM（Reward Model，奖励模型）：一个神经网络，输入是(prompt, 回答)，输出是一个标量分数。它学会了"人类觉得哪个回答更好"。

5.3 Stage 3：PPO

💡 PPO（Proximal Policy Optimization，近端策略优化）：一种强化学习算法，让模型朝着RM给高分的方向优化，但限制每步更新幅度，防止策略跑偏。

核心目标：

objective = E $r ( x , y ) - β \cdot K L ( π θ ∥ π r e f )$ \text{objective} = \mathbb{E}\left $r(x, y) - \\beta \\cdot KL(\\pi_\\theta \\\| \\pi_{ref})\\right$ objective=E $r(x,y)-β\cdotKL(πθ∥πref)$

r ( x , y ) r(x, y) r(x,y)：奖励模型打分
K L ( π θ ∥ π r e f ) KL(\pi_\theta \| \pi_{ref}) KL(πθ∥πref)：当前策略和参考策略的KL散度
β \beta β：KL惩罚系数

💡 KL散度（Kullback-Leibler Divergence）：衡量两个概率分布的差异。这里用来确保训练后的模型不会偏离原模型太远，防止"对齐税"------为了拿高分把基础能力丢了。

PPO需要4个模型同时加载到GPU：

模型	作用	是否更新
Actor（策略模型）	生成回答	是
Critic（价值模型）	估计状态价值	是
Reward Model	给回答打分	否
Reference Model	计算KL散度	否

4个模型同时驻留GPU，是RLHF成本高的根源。对于671B的模型，Critic也是671B------显存直接翻倍。

5.4 RLHF的已知问题

问题	原因	表现
Reward Hacking	Actor钻RM空子	生成RM打高分但人类不认可的内容
PPO不稳定	对超参敏感	学习率大→策略崩溃，KL惩罚大→不更新
标注成本高	需要人类排序	一条偏好对~$0.5-2，需数十万条
对齐税	优化偏好导致基础能力下降	数学/代码能力可能退化

6. 路线二：DPO（直接偏好优化）

6.1 核心洞察

DPO的作者发现：奖励模型和最优策略之间有闭式映射------最优奖励函数可以由最优策略和参考策略的log-ratio表示。所以不需要显式训练RM，可以直接从偏好数据优化策略。

💡 闭式映射（Closed-form mapping）：两个量之间有明确的数学公式可以直接换算，不需要迭代求解。就像"温度°C = (°F - 32) × 5/9"一样，知道一个就能直接算出另一个。

6.2 DPO损失函数

L D P O = − E $log σ ( β log π θ ( y w ∣ x ) π r e f ( y w ∣ x ) - β log π θ ( y l ∣ x ) π r e f ( y l ∣ x ) )$ L_{DPO} = -\mathbb{E}\left $\\log\\sigma\\left(\\beta \\log\\frac{\\pi_\\theta(y_w\|x)}{\\pi_{ref}(y_w\|x)} - \\beta \\log\\frac{\\pi_\\theta(y_l\|x)}{\\pi_{ref}(y_l\|x)}\\right)\\right$ LDPO=−E $logσ(βlogπref(yw∣x)πθ(yw∣x)-βlogπref(yl∣x)πθ(yl∣x))$

直觉解读：

增大偏好回答 y w y_w yw 的概率
减小不偏好回答 y l y_l yl 的概率
用参考模型 π r e f \pi_{ref} πref 做基线，防止跑偏

6.3 DPO只需要2个模型

模型	作用	是否更新
Policy Model	当前训练的策略	是
Reference Model	参考基线	否

比RLHF少了Reward Model和Critic，训练更简单，成本约1/3-1/2。

6.4 DPO的变体

方法	改进点	简要说明
IPO	用更温和的损失替代logistic损失	避免对偏好对过拟合
KTO	只需二元反馈（好/坏），不需要偏好对	大幅降低数据收集难度
ORPO	将SFT和对齐合并为一步	一箭双雕，省一轮训练
SimPO	去掉Reference Model	只需1个模型，进一步简化

💡 KTO（Kahneman-Tversky Optimization）：以行为经济学家命名，借用了"前景理论"------人类对损失比对收益更敏感。KTO不要求"A比B好"的配对数据，只要"这个回答好不好"的单独打分，因此可以直接用线上"点赞/点踩"数据训练。

7. 路线三：GRPO（组相对策略优化）⭐ DeepSeek-R1核心

7.1 GRPO要解决什么问题？

PPO需要Critic模型来估计"这个状态有多好"（基线值），然后算优势（Advantage = 实际奖励 - 基线值）。Critic和Actor一样大，显存翻倍。

GRPO的核心突破：不要Critic，用"组内竞争"代替。

7.2 GRPO工作流程

复制代码

对同一个问题，模型生成一组回答（比如8个）
  ↓
用规则或RM给每个回答打分
  ↓
算组内相对优势：优势 = (我的分 - 组均值) / 组标准差
  ↓
优势大的回答被强化，优势小的被抑制
  ↓
加上KL散度约束，防止跑偏

举个具体例子：

复制代码

问题："8 + 5等于多少？"

模型生成4个回答：
  o1: "答案是13"   → r1 = 1.0（正确+格式好）
  o2: "十三"       → r2 = 0.9（正确但非标准格式）
  o3: "是12"       → r3 = 0.0（错误）
  o4: "和是13"     → r4 = 1.0（正确+格式好）

组均值 = (1.0+0.9+0.0+1.0)/4 = 0.725
组标准差 = 0.42

优势计算：
  A1 = (1.0 - 0.725) / 0.42 = +0.65  → 强化
  A2 = (0.9 - 0.725) / 0.42 = +0.42  → 小幅强化
  A3 = (0.0 - 0.725) / 0.42 = -1.73  → 抑制
  A4 = (1.0 - 0.725) / 0.42 = +0.65  → 强化

关键：GRPO不关心绝对分数，只关心"你比同组平均水平好多少"。8个答案全错？大家一起被抑制，不更新。7个错1个对？对的那个获得巨大奖励。

7.3 GRPO vs PPO

维度	PPO	GRPO
基线估计	Critic模型（=Actor大小）	组内均值（无需额外模型）
优势计算	实际奖励 - Critic估计	(奖励 - 组均值) / 组标准差
需要几个模型	4个	2个（Actor + Reference）
显存占用	高（Critic=Actor大小）	约省一半
训练稳定性	对超参敏感	更稳定（组归一化自带方差控制）

7.4 DeepSeek-R1的GRPO实践

DeepSeek-R1用GRPO做出了一个震撼业界的实验------R1-Zero：直接在Base模型上跑纯GRPO，不给任何推理过程的示范，只给最终答案的对错作为奖励。模型居然自己演化出了自我反思、多步验证等高级推理行为。

💡 Aha Moment（顿悟时刻）：DeepSeek-R1-Zero训练中，模型在解题过程中突然插入"Wait, wait. That's an aha moment I can flag here."------它不是被教出来的，是在GRPO的组内竞争中自发涌现的。这项成果2025年9月登上Nature封面，是中国团队首次以"大模型第一作者"身份登上Nature。

但R1-Zero存在问题：语言混用（中英文夹杂）、可读性差。最终版DeepSeek-R1采用四阶段训练：冷启动SFT → 推理GRPO → 拒绝采样SFT → 全场景GRPO，把推理能力和通用能力统一。

7.5 GRPO的进一步演化（2026最新）

方法	改进点
f-GRPO	用f-散度统一RLVR和偏好对齐，可以同时处理"对错"和"好坏"两种信号（普渡大学 2026）
DAPO	Clip-decoupled优化，提升大模型可扩展性
f-HAL	混合对齐损失，缓解reward hacking

8. 路线四：RLVR（基于可验证奖励的强化学习）

8.1 RLVR要解决什么问题？

RLHF/DPO/GRPO都依赖"偏好信号"------人类或RM来判断"哪个更好"。但在数学、代码等有标准答案的领域，答案对就是对、错就是错，不需要人类来"品鉴"。

💡 RLVR（Reinforcement Learning from Verifiable Rewards）：用程序化验证器替代人类标注。模型做数学题，对答案用程序校验；写代码，跑单元测试。通过就给奖励，不通过就不给。零人工、高确定性、可审计。

8.2 常见验证器

验证器类型	工作方式	适用场景
数学等式校验	答案是否精确匹配	数学推理
代码单元测试	编译运行，检查输出	代码生成
JSON Schema验证	输出是否符合结构定义	API调用、数据抽取
引文解析校验	引用来源是否真实存在	RAG、研究报告

8.3 RLVR的优势和局限

优势：

零人工标注成本，完全自动化
信号无噪声（对就是对，错就是错）
可审计（每条奖励都有明确验证记录）
可规模化（不受人类标注速度限制）

局限：

只适用于有标准答案的领域（数学/代码/逻辑推理）
开放性任务（创意写作、对话风格）无法用RLVR
基础模型必须有一定正确率（否则全组答案都错，学不到东西）
推理忠诚度问题：模型可能蒙对答案但推理过程错乱（UCLA/NYU/Google 2026研究）

8.4 RLVR + RLHF 的最佳实践

2026年的共识是RLVR和RLHF互补：

复制代码

RLVR守住底线 → 确保输出事实正确、结构合规
    ↓
RLHF打磨体验 → 在正确性基础上优化语气、清晰度、安全性
    ↓
产出：既可通过验证、又有良好用户体验的AI输出

DeepSeek-R1就是这个思路的典范：推理阶段用RLVR（规则奖励），通用对齐阶段用偏好信号。

9. 路线五：RLAIF（基于AI反馈的强化学习）

9.1 RLAIF要解决什么问题？

RLHF的瓶颈是人类标注------贵、慢、规模上不去。如果让AI替代人类做标注呢？

💡 RLAIF（Reinforcement Learning from AI Feedback）：用一个强模型（如GPT-5.5、Claude Opus 4.7）来替代人类标注员，对回答排序或打分。Anthropic的Constitutional AI就是RLAIF的代表作------用一组"宪法原则"指导AI裁判做判断。

9.2 Constitutional AI流程

复制代码

Step 1: AI生成回答 + 自我批评
  模型生成回答 → 对照"宪法原则"自我批评 → 生成修改后的回答

Step 2: AI标注偏好
  用另一个模型对(原始回答, 修改后回答)做偏好标注

Step 3: 训练RM + PPO
  用AI标注的数据训练RM，再做PPO（流程同RLHF，标注者从人类变成AI）

💡 宪法原则（Constitutional Principles）：一组预定义的规则，比如"回答不应包含歧视性内容"、"回答应诚实承认不确定性"等。AI裁判根据这些原则来做判断，而不是凭"感觉"。

9.3 RLAIF的优势和风险

维度	优势	风险
成本	仅为人类标注的1/10-1/100	---
速度	批量标注，不受人力限制	---
一致性	同一输入同一输出	AI偏见可能被放大
覆盖面	可覆盖人类难以判断的领域	AI判断可能和人类偏好不一致

核心风险：AI裁判的偏见会被注入训练模型，形成"偏见放大循环"------模型A标注数据训练模型B，B再标注数据训练C，错误层层放大。

10. 五条路线对比总结

维度	RLHF	DPO	GRPO	RLVR	RLAIF
核心思想	RM+PPO	直接偏好	组内竞争	可验证奖励	AI替代人类
奖励来源	人类排序	偏好对	组内相对分	规则/测试	AI裁判
模型数量	4	2	2	2+验证器	4+AI裁判
训练稳定性	⚠️ 敏感	✅ 稳定	✅ 稳定	✅ 稳定	⚠️ 敏感
人工标注	多（排序）	中（偏好对）	少	无	极少（宪法原则）
适用场景	通用对齐	快速验证	推理任务	数学/代码	大规模对齐
计算成本	高	低	中	低	中
代表模型	GPT-4、Claude 3	LLaMA 3	DeepSeek-R1	R1-Zero	Constitutional AI
诞生时间	2022	2023	2025初	2025	2023

11. 选型决策树

复制代码

你的任务是什么？
  │
  ├─ 有标准答案？（数学/代码/逻辑）
  │    └─ ✅ 用 RLVR + GRPO
  │       （DeepSeek-R1路线：规则奖励+组内竞争）
  │
  ├─ 需要精细控制输出风格？
  │    └─ ✅ 用 RLHF
  │       （4模型方案，RM可动态调整）
  │
  ├─ 快速验证 / 资源有限？
  │    └─ ✅ 用 DPO
  │       （2模型方案，类似SFT训练一样简单）
  │
  ├─ 需要大规模对齐但标注资源不足？
  │    └─ ✅ 用 RLAIF
  │       （AI裁判+宪法原则）
  │
  └─ 混合场景（推理+通用）
       └─ ✅ RLVR + DPO/RLHF 组合
          （推理走RLVR，对话走DPO/RLHF）

12. 代码示例：DPO训练

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer, DPOConfig

# 加载模型（基于已SFT过的Instruct模型）
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
ref_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")

# DPO偏好数据格式
train_dataset = [
    {
        "prompt": "解释什么是机器学习",
        "chosen": "机器学习是AI的一个分支，让计算机从数据中学习规律...",  # 人类偏好
        "rejected": "机器学习就是学机器..."  # 人类不偏好
    },
    # ... 更多数据
]

# DPO训练配置
training_args = DPOConfig(
    output_dir="./dpo-output",
    beta=0.1,           # KL惩罚系数
    learning_rate=5e-7,
    per_device_train_batch_size=4,
    num_train_epochs=3,
)

# 训练
trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
)

trainer.train()

使用Hugging Face的trl库，DPO/GRPO训练和SFT训练一样简单。GRPO只需换成GRPOTrainer。

13. 面试高频问题

Q1：为什么需要KL散度约束？

不加约束，策略会朝着RM打高分的方向无限偏移，生成RM"喜欢"但人类不认可的内容（reward hacking）。KL散度把策略"拉回"参考模型附近，防止"对齐税"。

Q2：DPO为什么能跳过奖励模型？

因为存在闭式映射：最优奖励函数可以由最优策略和参考策略的log-ratio表示。DPO直接优化策略，等价于隐式地优化了奖励函数。

Q3：GRPO相比PPO的核心优势？

去掉Critic模型，用组内相对优势代替。省一半显存，训练更稳定（组归一化自带方差控制），同时保留了在线学习能力（DPO是离线的）。

Q4：RLVR为什么不能完全替代RLHF？

RLVR只适用于有标准答案的领域（数学/代码）。开放性任务（创意写作、对话风格、安全判断）没有客观验证器，仍然需要偏好信号。

Q5：DeepSeek-R1-Zero为什么能"无师自通"？

GRPO的组内竞争机制天然驱动探索：每次生成多个答案，组内比较让模型自然发现更好的推理路径。加上RLVR的规则奖励（只看最终答案对错），模型被迫自己发明中间推理步骤------这就是"顿悟时刻"涌现的原因。

Q6：为什么99%的企业不自己做预训练？

预训练成本极高（百万到千万美元、千卡月级），且开源Base模型（LLaMA、Qwen、DeepSeek）已经足够好。企业的最佳路径是"开源Base + 领域SFT + 对齐"，成本可降到原来的1%以下。

总结

阶段	目标	数据	成本	方法	产出
预训练	学会语言/知识	万亿Token级	80-90%总成本	Next-token prediction	Base模型
SFT	学会执行指令	万到十万对话	单机几小时(LoRA)	监督学习	Chat模型
对齐-RLHF	符合人类偏好	十万级排序	高（4模型）	RM + PPO	通用对齐
对齐-DPO	符合人类偏好	偏好对	低（2模型）	直接偏好优化	快速对齐
对齐-GRPO	推理能力	组内竞争	中（2模型）	组内相对优势	推理模型
对齐-RLVR	事实正确	验证器	低	可验证奖励	数学/代码
对齐-RLAIF	大规模对齐	AI标注	中	AI裁判	减少人工

LLM从"一堆随机参数"到"ChatGPT那样能用"，要走完三个阶段。预训练 是基础，最贵但已经被开源Base模型覆盖；SFT 让模型会对话，企业能做也必须做；对齐让模型说得好，2026年已经分化为五条路线，不是非此即彼，而是按场景组合使用------最终的生产级模型往往是多种路线的合奏。

路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块03-LLM基础 · 第三篇

以下是近期发布的《系统学AI》相关文章，推荐阅读：

【系统学AI】0 一文搞定AI Agent与RAG：从入门到工程实战的完整学习路线

1.【系统学AI】01 Transformer原理全解：从Self-Attention到GPT的架构进化
 2. 【系统学AI】02 token机制全解：LLM如何'读懂'人类语言
 3. 【系统学AI】03 LLM训练全流程：预训练→SFT→对齐五条路线

未完待续

想要系统学习的朋友，快收藏起来慢慢看吧，更多更新请关注账号～