【系统学AI】03 LLM训练全流程:预训练→SFT→对齐五条路线

一个LLM从"一堆随机参数"变成"ChatGPT那样能用",要经过三个阶段。这篇文章把三步全部讲透------前两步定义清楚、流程画清楚、成本算清楚,重点拆解第三步(对齐训练)在2026年已经分化出的5条路线。


一句话总结

LLM训练分三阶段:预训练 (让它会说话,TB级数据,千卡月级训练)→ SFT (让它会回答,万级指令数据,单机几小时)→ 对齐(让它说得好,五条路线按需选)。2026年的对齐训练已经从"RLHF vs DPO"的二选一,演化为RLHF/DPO/GRPO/RLVR/RLAIF五条路线的组合工程。


1. 三阶段总览

复制代码
┌──────────────┐    ┌──────────────┐    ┌──────────────┐
│  Stage 1     │    │  Stage 2     │    │  Stage 3     │
│  预训练       │ →  │  SFT         │ →  │  对齐         │
│  Pre-training│    │  指令微调     │    │  Alignment   │
└──────────────┘    └──────────────┘    └──────────────┘
   会说话                会回答              说得好
   Base Model         Chat Model          Aligned Model
   (LLaMA-Base)       (LLaMA-Instruct)    (LLaMA-Chat-RLHF)
阶段 目标 数据规模 训练成本 产出
预训练 学习语言/知识/推理 万亿Token级 千卡月级,百万到千万美元 Base模型
SFT 学会遵循指令 万到十万级对话 单机几小时(LoRA)到多卡几天 Chat/Instruct模型
对齐 符合人类偏好+事实正确 万到十万级偏好对/可验证答案 中等(DPO低,RLHF高) 对齐后模型

📊 成本对比:预训练占整个训练成本的80-90%,是绝对的大头;SFT和对齐加起来不到20%。这也是为什么99%的企业不自己做预训练,而是基于开源Base模型(LLaMA、Qwen、DeepSeek)直接做SFT+对齐。


2. Stage 1:预训练(Pre-training)

2.1 目标和方法

目标:让模型从"一堆随机参数"学会语言的统计规律、世界知识、基础推理能力。

核心任务:自监督学习------预测下一个Token(自回归LM,GPT/LLaMA路线)或预测被遮盖的Token(Masked LM,BERT路线)。

复制代码
输入: "苹果很美味,我每天都吃一个___"
模型预测: "苹果"  ← 计算损失,反向传播更新参数

💡 自监督学习(Self-Supervised Learning):不需要人工标注,从数据本身构造监督信号。预训练用的就是这个------把一段话里的某个词遮住让模型预测,正确答案就藏在原文里。这就是为什么预训练能用海量无标注网页数据。

2.2 数据来源和规模

预训练数据是TB级别的纯文本:

数据源 占比示意 说明
网页爬取(Common Crawl) ~60% 互联网公开网页,需大量清洗
书籍 ~15% 出版书籍、电子书
代码(GitHub) ~10% 提升代码能力和逻辑推理
学术论文(arXiv等) ~5% 提升专业知识
百科(Wikipedia等) ~5% 高质量结构化知识
对话/论坛 ~5% Reddit、StackExchange

Token规模在持续暴涨

模型 预训练Token数 参数量 发布时间
GPT-3 0.3T 175B 2020
LLaMA 2 2T 7B-70B 2023
LLaMA 3 15T 8B-405B 2024
DeepSeek V3 14.8T 671B (37B激活) 2024
LLaMA 4 / DeepSeek V4 20T+ 万亿级 2025-2026

💡 Chinchilla定律 :DeepMind 2022年发现,在固定算力预算下,模型参数量和数据量应当按1:20的比例同步增长。GPT-3用300B Token训175B参数(比例1:1.7),是严重欠训;LLaMA 3用15T训8B(比例1:1875),属于"小模型大数据"路线,性价比极高。

2.3 工程细节

算力:GPT-4级别的训练用了约25,000张A100 GPU跑100天,电费约50 GWh(够4500个美国家庭用一年)。LLaMA 3.1 405B用了16,000张H100跑54天。

优化器:AdamW + 学习率Warmup + Cosine衰减,是行业标准。

关键挑战

  • 训练不稳定:Loss突然飙升(Loss Spike),需要checkpoint回滚
  • 硬件故障:千卡集群每天都有GPU出故障,需要自动恢复机制
  • 数据质量:Garbage In Garbage Out,数据清洗常占整个训练时间的30-50%

产出:Base模型------会续写文本,但不会"对答"。你问它"你好",它可能续写"你好,今天天气不错,我去公园散步了...",完全不理解人类指令意图。


3. Stage 2:SFT(监督微调)

3.1 目标和方法

目标:让Base模型从"只会续写"变成"能理解指令并对答"。

核心方法:用"指令-回答"格式的标注数据继续训练,损失函数还是预测下一个Token,但只在"回答"部分计算损失。

复制代码
输入(Prompt部分,不计算损失):
  <用户>: 帮我写一个冒泡排序

输出(Response部分,计算损失):
  <助手>: 以下是Python实现的冒泡排序:
          def bubble_sort(arr):
              ...

3.2 数据格式

SFT数据的核心是结构化对话:

json 复制代码
{
  "messages": [
    {"role": "system", "content": "你是一个专业的Python老师"},
    {"role": "user", "content": "帮我写一个冒泡排序"},
    {"role": "assistant", "content": "以下是Python实现..."}
  ]
}

数据规模和质量

  • 数据量:万到十万级对话对
  • 质量要求:极高,通常需要专家标注或精筛
  • 多样性:覆盖各类任务(QA、生成、改写、推理、代码、对话等)

💡 典型公开SFT数据集:Alpaca(5.2万条)、ShareGPT(9万条)、OpenAssistant(16万条)、UltraChat(150万条)。质量比数量重要------10万条精标数据效果常优于100万条爬取数据。

3.3 全量微调 vs LoRA

方法 全量微调(Full FT) LoRA
更新参数 全部参数 仅低秩适配矩阵(~0.1-1%参数)
显存需求 7B模型需80GB+ 7B模型1张24GB卡足够
训练成本 高(多卡几天) 极低(单卡几小时)
效果 上限略高 95%+全量微调效果
适用场景 资源充足、要求极致效果 99%企业场景的首选

💡 LoRA(Low-Rank Adaptation,低秩适配):冻结原模型参数,只训练插入的两个低秩矩阵A、B,让 W' = W + AB。秩r通常取8-64,参数量仅占原模型的0.1-1%。这是2026年企业SFT的事实标准。

3.4 SFT产出

得到Chat/Instruct模型------能听懂指令、会对话、能完成任务。比如LLaMA-3-8B-Instruct、Qwen3-Chat、DeepSeek-V3-Chat。

但SFT后的模型仍有问题

  • 行为模仿表面:模型在模仿"标注员怎么写",没有真正理解"什么是好回答"
  • 对齐能力有限:可能还是会输出有害内容(标注数据里没覆盖到的边界)
  • 风格僵化:不同任务的最佳风格不同,SFT难以精细控制

这就是为什么需要Stage 3------对齐训练


4. Stage 3:对齐训练 --- 五条路线全景图

4.1 为什么要对齐?

SFT后的模型能生成合理文本,但可能:

  • 输出有害内容("教我做炸弹"→真的教你)
  • 不遵循指令(让它总结→偏要展开讲)
  • 产生幻觉(自信地说错)
  • 推理过程不忠诚(结论和推导对不上)

对齐(Alignment)的目标:让模型输出符合人类偏好------有用(Helpful)、诚实(Honest)、无害(Harmless),即"3H原则"。

4.2 五条路线总览

复制代码
                    ┌─────────────────────────────────────────┐
                    │          LLM 对齐训练五条路线            │
                    └─────────────┬───────────────────────────┘
                                  │
              ┌───────────────────┼───────────────────┐
              │                   │                   │
      偏好驱动(主观)      可验证驱动(客观)       AI驱动(自动)
              │                   │                   │
      ┌───────┼───────┐           │                   │
      │       │       │           │                   │
    RLHF    DPO     GRPO        RLVR               RLAIF
   (4模型) (2模型)  (2模型)    (2模型+验证器)    (4模型+AI标注)
路线 核心思路 奖励来源 模型数 代表模型 最佳场景 诞生时间
RLHF 训练RM + PPO 人类排序 4 GPT-4、Claude 3 通用对齐,精细控制 2022
DPO 直接偏好优化 人类偏好对 2 LLaMA 3、Mistral 快速验证,资源有限 2023
GRPO 组内相对优势 组内竞争 2 DeepSeek-R1 推理任务,节省显存 2025初
RLVR 可验证奖励 规则/测试 2+验证器 DeepSeek-R1-Zero 数学、代码等有标准答案 2025
RLAIF AI替代人类标注 AI打分 4+AI裁判 Constitutional AI 大规模对齐,减少人工 2023

5. 路线一:RLHF(基于人类反馈的强化学习)

5.1 三阶段流程

复制代码
Stage 1: SFT(监督微调)--- 已在第3节完成
  预训练模型 + 指令数据 → SFT模型

Stage 2: 训练奖励模型(Reward Model)
  SFT模型生成多个回答 → 人类排序 → 训练RM

Stage 3: PPO强化学习
  SFT模型 + RM + PPO → 对齐后的模型

5.2 Stage 2:奖励模型

数据收集:给定一个prompt,SFT模型生成多个回答,人类标注员对回答排序。

复制代码
Prompt: "解释量子纠缠"
  回答A: ★★★★★ (清晰准确)
  回答B: ★★★☆☆ (有但不够好)
  回答C: ★☆☆☆☆ (错误)

训练目标:RM学习给好回答打高分、差回答打低分:

L R M = − E [ log ⁡ σ ( r ( x , y w ) − r ( x , y l ) ) ] L_{RM} = -\mathbb{E}\left[\log\sigma(r(x, y_w) - r(x, y_l))\right] LRM=−E[logσ(r(x,yw)−r(x,yl))]

💡 RM(Reward Model,奖励模型):一个神经网络,输入是(prompt, 回答),输出是一个标量分数。它学会了"人类觉得哪个回答更好"。

5.3 Stage 3:PPO

💡 PPO(Proximal Policy Optimization,近端策略优化):一种强化学习算法,让模型朝着RM给高分的方向优化,但限制每步更新幅度,防止策略跑偏。

核心目标

objective = E [ r ( x , y ) − β ⋅ K L ( π θ ∥ π r e f ) ] \text{objective} = \mathbb{E}\left[r(x, y) - \beta \cdot KL(\pi_\theta \| \pi_{ref})\right] objective=E[r(x,y)−β⋅KL(πθ∥πref)]

  • r ( x , y ) r(x, y) r(x,y):奖励模型打分
  • K L ( π θ ∥ π r e f ) KL(\pi_\theta \| \pi_{ref}) KL(πθ∥πref):当前策略和参考策略的KL散度
  • β \beta β:KL惩罚系数

💡 KL散度(Kullback-Leibler Divergence):衡量两个概率分布的差异。这里用来确保训练后的模型不会偏离原模型太远,防止"对齐税"------为了拿高分把基础能力丢了。

PPO需要4个模型同时加载到GPU

模型 作用 是否更新
Actor(策略模型) 生成回答
Critic(价值模型) 估计状态价值
Reward Model 给回答打分
Reference Model 计算KL散度

4个模型同时驻留GPU,是RLHF成本高的根源。对于671B的模型,Critic也是671B------显存直接翻倍。

5.4 RLHF的已知问题

问题 原因 表现
Reward Hacking Actor钻RM空子 生成RM打高分但人类不认可的内容
PPO不稳定 对超参敏感 学习率大→策略崩溃,KL惩罚大→不更新
标注成本高 需要人类排序 一条偏好对~$0.5-2,需数十万条
对齐税 优化偏好导致基础能力下降 数学/代码能力可能退化

6. 路线二:DPO(直接偏好优化)

6.1 核心洞察

DPO的作者发现:奖励模型和最优策略之间有闭式映射------最优奖励函数可以由最优策略和参考策略的log-ratio表示。所以不需要显式训练RM,可以直接从偏好数据优化策略。

💡 闭式映射(Closed-form mapping):两个量之间有明确的数学公式可以直接换算,不需要迭代求解。就像"温度°C = (°F - 32) × 5/9"一样,知道一个就能直接算出另一个。

6.2 DPO损失函数

L D P O = − E [ log ⁡ σ ( β log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] L_{DPO} = -\mathbb{E}\left[\log\sigma\left(\beta \log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right] LDPO=−E[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))]

直觉解读:

  • 增大偏好回答 y w y_w yw 的概率
  • 减小不偏好回答 y l y_l yl 的概率
  • 用参考模型 π r e f \pi_{ref} πref 做基线,防止跑偏

6.3 DPO只需要2个模型

模型 作用 是否更新
Policy Model 当前训练的策略
Reference Model 参考基线

比RLHF少了Reward Model和Critic,训练更简单,成本约1/3-1/2。

6.4 DPO的变体

方法 改进点 简要说明
IPO 用更温和的损失替代logistic损失 避免对偏好对过拟合
KTO 只需二元反馈(好/坏),不需要偏好对 大幅降低数据收集难度
ORPO 将SFT和对齐合并为一步 一箭双雕,省一轮训练
SimPO 去掉Reference Model 只需1个模型,进一步简化

💡 KTO(Kahneman-Tversky Optimization):以行为经济学家命名,借用了"前景理论"------人类对损失比对收益更敏感。KTO不要求"A比B好"的配对数据,只要"这个回答好不好"的单独打分,因此可以直接用线上"点赞/点踩"数据训练。


7. 路线三:GRPO(组相对策略优化)⭐ DeepSeek-R1核心

7.1 GRPO要解决什么问题?

PPO需要Critic模型来估计"这个状态有多好"(基线值),然后算优势(Advantage = 实际奖励 - 基线值)。Critic和Actor一样大,显存翻倍。

GRPO的核心突破:不要Critic,用"组内竞争"代替。

7.2 GRPO工作流程

复制代码
对同一个问题,模型生成一组回答(比如8个)
  ↓
用规则或RM给每个回答打分
  ↓
算组内相对优势:优势 = (我的分 - 组均值) / 组标准差
  ↓
优势大的回答被强化,优势小的被抑制
  ↓
加上KL散度约束,防止跑偏

举个具体例子

复制代码
问题:"8 + 5等于多少?"

模型生成4个回答:
  o1: "答案是13"   → r1 = 1.0(正确+格式好)
  o2: "十三"       → r2 = 0.9(正确但非标准格式)
  o3: "是12"       → r3 = 0.0(错误)
  o4: "和是13"     → r4 = 1.0(正确+格式好)

组均值 = (1.0+0.9+0.0+1.0)/4 = 0.725
组标准差 = 0.42

优势计算:
  A1 = (1.0 - 0.725) / 0.42 = +0.65  → 强化
  A2 = (0.9 - 0.725) / 0.42 = +0.42  → 小幅强化
  A3 = (0.0 - 0.725) / 0.42 = -1.73  → 抑制
  A4 = (1.0 - 0.725) / 0.42 = +0.65  → 强化

关键:GRPO不关心绝对分数,只关心"你比同组平均水平好多少"。8个答案全错?大家一起被抑制,不更新。7个错1个对?对的那个获得巨大奖励。

7.3 GRPO vs PPO

维度 PPO GRPO
基线估计 Critic模型(=Actor大小) 组内均值(无需额外模型)
优势计算 实际奖励 - Critic估计 (奖励 - 组均值) / 组标准差
需要几个模型 4个 2个(Actor + Reference)
显存占用 高(Critic=Actor大小) 约省一半
训练稳定性 对超参敏感 更稳定(组归一化自带方差控制)

7.4 DeepSeek-R1的GRPO实践

DeepSeek-R1用GRPO做出了一个震撼业界的实验------R1-Zero:直接在Base模型上跑纯GRPO,不给任何推理过程的示范,只给最终答案的对错作为奖励。模型居然自己演化出了自我反思、多步验证等高级推理行为。

💡 Aha Moment(顿悟时刻):DeepSeek-R1-Zero训练中,模型在解题过程中突然插入"Wait, wait. That's an aha moment I can flag here."------它不是被教出来的,是在GRPO的组内竞争中自发涌现的。这项成果2025年9月登上Nature封面,是中国团队首次以"大模型第一作者"身份登上Nature。

但R1-Zero存在问题:语言混用(中英文夹杂)、可读性差。最终版DeepSeek-R1采用四阶段训练:冷启动SFT → 推理GRPO → 拒绝采样SFT → 全场景GRPO,把推理能力和通用能力统一。

7.5 GRPO的进一步演化(2026最新)

方法 改进点
f-GRPO 用f-散度统一RLVR和偏好对齐,可以同时处理"对错"和"好坏"两种信号(普渡大学 2026)
DAPO Clip-decoupled优化,提升大模型可扩展性
f-HAL 混合对齐损失,缓解reward hacking

8. 路线四:RLVR(基于可验证奖励的强化学习)

8.1 RLVR要解决什么问题?

RLHF/DPO/GRPO都依赖"偏好信号"------人类或RM来判断"哪个更好"。但在数学、代码等有标准答案的领域,答案对就是对、错就是错,不需要人类来"品鉴"。

💡 RLVR(Reinforcement Learning from Verifiable Rewards):用程序化验证器替代人类标注。模型做数学题,对答案用程序校验;写代码,跑单元测试。通过就给奖励,不通过就不给。零人工、高确定性、可审计。

8.2 常见验证器

验证器类型 工作方式 适用场景
数学等式校验 答案是否精确匹配 数学推理
代码单元测试 编译运行,检查输出 代码生成
JSON Schema验证 输出是否符合结构定义 API调用、数据抽取
引文解析校验 引用来源是否真实存在 RAG、研究报告

8.3 RLVR的优势和局限

优势

  • 零人工标注成本,完全自动化
  • 信号无噪声(对就是对,错就是错)
  • 可审计(每条奖励都有明确验证记录)
  • 可规模化(不受人类标注速度限制)

局限

  • 只适用于有标准答案的领域(数学/代码/逻辑推理)
  • 开放性任务(创意写作、对话风格)无法用RLVR
  • 基础模型必须有一定正确率(否则全组答案都错,学不到东西)
  • 推理忠诚度问题:模型可能蒙对答案但推理过程错乱(UCLA/NYU/Google 2026研究)

8.4 RLVR + RLHF 的最佳实践

2026年的共识是RLVR和RLHF互补

复制代码
RLVR守住底线 → 确保输出事实正确、结构合规
    ↓
RLHF打磨体验 → 在正确性基础上优化语气、清晰度、安全性
    ↓
产出:既可通过验证、又有良好用户体验的AI输出

DeepSeek-R1就是这个思路的典范:推理阶段用RLVR(规则奖励),通用对齐阶段用偏好信号。


9. 路线五:RLAIF(基于AI反馈的强化学习)

9.1 RLAIF要解决什么问题?

RLHF的瓶颈是人类标注------贵、慢、规模上不去。如果让AI替代人类做标注呢?

💡 RLAIF(Reinforcement Learning from AI Feedback):用一个强模型(如GPT-5.5、Claude Opus 4.7)来替代人类标注员,对回答排序或打分。Anthropic的Constitutional AI就是RLAIF的代表作------用一组"宪法原则"指导AI裁判做判断。

9.2 Constitutional AI流程

复制代码
Step 1: AI生成回答 + 自我批评
  模型生成回答 → 对照"宪法原则"自我批评 → 生成修改后的回答

Step 2: AI标注偏好
  用另一个模型对(原始回答, 修改后回答)做偏好标注

Step 3: 训练RM + PPO
  用AI标注的数据训练RM,再做PPO(流程同RLHF,标注者从人类变成AI)

💡 宪法原则(Constitutional Principles):一组预定义的规则,比如"回答不应包含歧视性内容"、"回答应诚实承认不确定性"等。AI裁判根据这些原则来做判断,而不是凭"感觉"。

9.3 RLAIF的优势和风险

维度 优势 风险
成本 仅为人类标注的1/10-1/100 ---
速度 批量标注,不受人力限制 ---
一致性 同一输入同一输出 AI偏见可能被放大
覆盖面 可覆盖人类难以判断的领域 AI判断可能和人类偏好不一致

核心风险:AI裁判的偏见会被注入训练模型,形成"偏见放大循环"------模型A标注数据训练模型B,B再标注数据训练C,错误层层放大。


10. 五条路线对比总结

维度 RLHF DPO GRPO RLVR RLAIF
核心思想 RM+PPO 直接偏好 组内竞争 可验证奖励 AI替代人类
奖励来源 人类排序 偏好对 组内相对分 规则/测试 AI裁判
模型数量 4 2 2 2+验证器 4+AI裁判
训练稳定性 ⚠️ 敏感 ✅ 稳定 ✅ 稳定 ✅ 稳定 ⚠️ 敏感
人工标注 多(排序) 中(偏好对) 极少(宪法原则)
适用场景 通用对齐 快速验证 推理任务 数学/代码 大规模对齐
计算成本
代表模型 GPT-4、Claude 3 LLaMA 3 DeepSeek-R1 R1-Zero Constitutional AI
诞生时间 2022 2023 2025初 2025 2023

11. 选型决策树

复制代码
你的任务是什么?
  │
  ├─ 有标准答案?(数学/代码/逻辑)
  │    └─ ✅ 用 RLVR + GRPO
  │       (DeepSeek-R1路线:规则奖励+组内竞争)
  │
  ├─ 需要精细控制输出风格?
  │    └─ ✅ 用 RLHF
  │       (4模型方案,RM可动态调整)
  │
  ├─ 快速验证 / 资源有限?
  │    └─ ✅ 用 DPO
  │       (2模型方案,类似SFT训练一样简单)
  │
  ├─ 需要大规模对齐但标注资源不足?
  │    └─ ✅ 用 RLAIF
  │       (AI裁判+宪法原则)
  │
  └─ 混合场景(推理+通用)
       └─ ✅ RLVR + DPO/RLHF 组合
          (推理走RLVR,对话走DPO/RLHF)

12. 代码示例:DPO训练

python 复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer, DPOConfig

# 加载模型(基于已SFT过的Instruct模型)
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
ref_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")

# DPO偏好数据格式
train_dataset = [
    {
        "prompt": "解释什么是机器学习",
        "chosen": "机器学习是AI的一个分支,让计算机从数据中学习规律...",  # 人类偏好
        "rejected": "机器学习就是学机器..."  # 人类不偏好
    },
    # ... 更多数据
]

# DPO训练配置
training_args = DPOConfig(
    output_dir="./dpo-output",
    beta=0.1,           # KL惩罚系数
    learning_rate=5e-7,
    per_device_train_batch_size=4,
    num_train_epochs=3,
)

# 训练
trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,
)

trainer.train()

使用Hugging Face的trl库,DPO/GRPO训练和SFT训练一样简单。GRPO只需换成GRPOTrainer


13. 面试高频问题

Q1:为什么需要KL散度约束?

不加约束,策略会朝着RM打高分的方向无限偏移,生成RM"喜欢"但人类不认可的内容(reward hacking)。KL散度把策略"拉回"参考模型附近,防止"对齐税"。

Q2:DPO为什么能跳过奖励模型?

因为存在闭式映射:最优奖励函数可以由最优策略和参考策略的log-ratio表示。DPO直接优化策略,等价于隐式地优化了奖励函数。

Q3:GRPO相比PPO的核心优势?

去掉Critic模型,用组内相对优势代替。省一半显存,训练更稳定(组归一化自带方差控制),同时保留了在线学习能力(DPO是离线的)。

Q4:RLVR为什么不能完全替代RLHF?

RLVR只适用于有标准答案的领域(数学/代码)。开放性任务(创意写作、对话风格、安全判断)没有客观验证器,仍然需要偏好信号。

Q5:DeepSeek-R1-Zero为什么能"无师自通"?

GRPO的组内竞争机制天然驱动探索:每次生成多个答案,组内比较让模型自然发现更好的推理路径。加上RLVR的规则奖励(只看最终答案对错),模型被迫自己发明中间推理步骤------这就是"顿悟时刻"涌现的原因。

Q6:为什么99%的企业不自己做预训练?

预训练成本极高(百万到千万美元、千卡月级),且开源Base模型(LLaMA、Qwen、DeepSeek)已经足够好。企业的最佳路径是"开源Base + 领域SFT + 对齐",成本可降到原来的1%以下。


总结

阶段 目标 数据 成本 方法 产出
预训练 学会语言/知识 万亿Token级 80-90%总成本 Next-token prediction Base模型
SFT 学会执行指令 万到十万对话 单机几小时(LoRA) 监督学习 Chat模型
对齐-RLHF 符合人类偏好 十万级排序 高(4模型) RM + PPO 通用对齐
对齐-DPO 符合人类偏好 偏好对 低(2模型) 直接偏好优化 快速对齐
对齐-GRPO 推理能力 组内竞争 中(2模型) 组内相对优势 推理模型
对齐-RLVR 事实正确 验证器 可验证奖励 数学/代码
对齐-RLAIF 大规模对齐 AI标注 AI裁判 减少人工

LLM从"一堆随机参数"到"ChatGPT那样能用",要走完三个阶段。预训练 是基础,最贵但已经被开源Base模型覆盖;SFT 让模型会对话,企业能做也必须做;对齐让模型说得好,2026年已经分化为五条路线,不是非此即彼,而是按场景组合使用------最终的生产级模型往往是多种路线的合奏。


路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块03-LLM基础 · 第三篇

以下是近期发布的《系统学AI》相关文章,推荐阅读:

【系统学AI】0 一文搞定AI Agent与RAG:从入门到工程实战的完整学习路线

1.【系统学AI】01 Transformer原理全解:从Self-Attention到GPT的架构进化
2. 【系统学AI】02 token机制全解:LLM如何'读懂'人类语言
3. 【系统学AI】03 LLM训练全流程:预训练→SFT→对齐五条路线

未完待续

想要系统学习的朋友,快收藏起来慢慢看吧,更多更新请关注账号~

相关推荐
阿里云大数据AI技术5 小时前
DataWorks Data Agent:助力淘宝闪购一句话搞定数据开发,让周期从天级到分钟级
人工智能·agent
秋95 小时前
WorkBuddy下载、安装和使用详解
人工智能
No8g攻城狮6 小时前
【AI工具】wsl2 + ubuntu22.04安装部署sub2api详细教程
人工智能·ai·go·vue
zhangfeng11336 小时前
v100 是否支持MoE,缺少现代优化内核 FlashAttention、PagedAttention
人工智能
L、2186 小时前
昇腾NPU性能调优Checklist——从“能跑“到“跑得快“的20步
服务器·人工智能·深度学习
数智工坊6 小时前
《普通人打造AI小团队:通用智能体与企业级智能体搭建》第1、2、3章
人工智能
AKAMAI6 小时前
黄仁勋喊出“推理拐点”,边缘推理的机会窗口打开了吗
人工智能·云计算
zxsz_com_cn6 小时前
设备预测性维护的核心价值与实施路径
人工智能·物联网
SmartBrain6 小时前
AI全栈开发(SDD):慢病管理系统工程级设计
java·大数据·开发语言·人工智能·架构·aigc