大模型基础(三):大模型是怎么炼成的-从预训练到强化学习的完整流程

你有没有好奇过,ChatGPT是怎么从一个只会"预测下一个字"的语言模型,变成能理解你问题、给出优质回答的智能助手?这篇文章带你一探究竟。


一、引言:大模型的"成长之路"

想象一下,如果要把一个孩子培养成优秀的作家,你会怎么教?

  1. 读书识字:先让他阅读海量书籍,掌握语言的基本规律和知识
  2. 练习写作:教他怎么按照要求写文章,比如"写一篇游记"
  3. 评价反馈:告诉他写得好的地方和不好的地方
  4. 精益求精:不断改进,越来越会写

大模型的训练过程,和这个教育流程惊人地相似!


二、第一阶段:预训练------海量数据的"读书识字"

2.1 预训练是什么?

预训练(Pretraining),就是让模型"阅读"海量文本,学习语言的基本规律和世界知识。

数据量有多大?

  • GPT-3的训练数据:约5000亿个Token(相当于几千本书的内容)
  • 来源:网页、维基百科、书籍、GitHub代码、论文、问答网站等

举个类比

预训练就像让学生读遍图书馆里所有的书。虽然他可能不理解每本书的深意,但他学会了语言的规律,记住了很多知识。

2.2 数据是怎么处理的?

原始数据质量参差不齐,需要精心处理:

数据来源 原始大小 过滤后大小 说明
CommonCrawl(网页爬虫) 45TB 570GB 过滤掉低质量网页
WebText2(Reddit推荐) - 较小 高质量讨论内容
Books1/Books2 - 较小 互联网书籍
Wikipedia - 较小 维基百科百科知识

数据处理流程

  1. 质量过滤:删除低质量、乱码内容
  2. 去重:避免重复内容
  3. 隐私消除:去除个人敏感信息
  4. 分词(Tokenization):把文本切成一个个Token

2.3 什么是Token?

Token是大模型处理文本的基本单位,可以理解为"字"或"词"。

换算关系

  • 1个英文字符 ≈ 0.3个Token
  • 1个中文字符 ≈ 0.6个Token

举例

复制代码
原文:"我爱学习AI"
Token化:["我", "爱", "学习", "AI"]
Token数量:约4个

2.4 训练需要多少算力?

预训练是"烧钱"的环节:

模型 参数量 GPU数量 训练时间
GPT-3 1750亿 约1000块 数周
BLOOM 1760亿 384块A100 3.5个月

为什么这么贵?

  • 模型参数庞大(数百亿到千亿级别)
  • 数据量巨大(数千亿Token)
  • 需要高性能GPU集群

2.5 预训练后得到什么?

预训练完成后,得到基础模型(Base Model)

基础模型的能力:

  • 掌握了大量语言规律
  • 记住了很多世界知识
  • 但不会按照人类指令回答问题

🤔 思考题:为什么基础模型不能直接用?

因为它的训练目标是"预测下一个字",而不是"回答问题"。你问"今天天气怎么样",它可能会继续写"怎么样呢,我也不知道"------因为它以为你在让它续写句子,而不是问问题!


三、第二阶段:有监督微调(SFT)------学会"听指令"

3.1 SFT是什么?

有监督微调(Supervised Finetuning,SFT),也叫指令微调,就是教模型理解人类指令并按要求回答。

类比

预训练学会了"说话",SFT学会了"听话"------理解用户想要什么。

3.2 SFT数据长什么样?

SFT数据是"指令+回答"的配对:

示例数据

json 复制代码
{
  "instruction": "复旦大学有几个校区?",
  "output": "复旦大学现有4个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区..."
}

数据量 :通常只需要几万条高质量数据(比预训练少得多!)

3.3 数据怎么构建?

有四种主要方法:

方法 说明 优点 缺点
手动构建 人工编写指令和回答 高质量、可解释 费时费力
数据集转换 整合现有开源数据集 多样性、规模大 需格式标准化
自动构建 用LLM生成指令(Self-Instruct) 高效、可扩展 质量需过滤
综合模式 结合多种方法 兼顾各方面 流程复杂

Self-Instruct流程

  1. 用GPT生成任务指令
  2. 生成对应的输入输出
  3. 过滤低质量数据(相似度过滤)
  4. 形成训练数据集

3.4 一个有趣的发现:表层对齐假设

研究发现,高质量的数据量可能不需要那么多

实验结果:LLaMA 65B + 1000条高质量数据(LIMA)的效果,竟然和52000条数据(Alpaca)差不多!

这说明:模型的能力主要来自预训练,SFT只是教它怎么"展示"这些能力

3.5 SFT后的模型能做什么?

SFT模型具备:

  • 理解用户指令的能力
  • 基本的问答、翻译、摘要能力
  • 对未知任务的泛化能力

很多开源模型(如ChatGLM、Vicuna、MOSS)都是SFT模型,效果可以达到ChatGPT的90%!


四、第三阶段:奖励建模(RM)------学会"评判好坏"

4.1 RM是什么?

奖励建模(Reward Modeling),就是训练一个模型来判断回答的质量高低

类比

RM就像一个"阅卷老师",给每个答案打分。

4.2 RM数据怎么构建?

RM数据是"指令+多个回答+排序":

示例数据

复制代码
指令:"如何提高写作能力?"

回答A(排第1):多读多写,刻意练习...
回答B(排第2):每天写日记...
回答C(排第3):随便写就行...

标注者按质量排序:A > B > C

数据量 :通常需要百万条对比数据!

4.3 RM模型怎么训练?

RM本质上是一个二分类模型

给定两个回答A和B,判断哪个更好:

  • 输入:指令 + 回答A + 回答B
  • 输出:A更好的概率

4.4 RM为什么重要?

RM的准确率直接决定下一阶段强化学习的效果!

如果RM判断错误,模型就会"学歪"------把差的回答当成好的。


五、第四阶段:强化学习(RL)------最终"精益求精"

5.1 RL是什么?

强化学习(Reinforcement Learning),就是用RM的反馈,进一步优化模型。

类比

RL就像学生根据老师的评分,不断改进自己的写作技巧。

5.2 RL的核心流程

详细流程

  1. 用户给出指令
  2. SFT模型生成回答
  3. RM对回答打分(奖励)
  4. 根据奖励调整模型参数
  5. 使得模型倾向于生成高分回答

5.3 RL有什么问题?

RL有几个挑战:

  • 稳定性不高:训练容易发散
  • 超参数众多:调参难度大
  • 多样性降低:模型可能变得"保守"

💡 有趣发现:Andrej Karpathy指出,RL会使模型输出的"熵降低",也就是变得更确定、更安全,但也可能减少创造性。

5.4 RL之后得到什么?

最终得到的RL模型,就是像ChatGPT、Claude这样的产品级模型。

它具备:

  • 理解复杂指令
  • 生成高质量回答
  • 较少的幻觉和错误

六、完整流程回顾

让我们用一个表格总结四个阶段:

阶段 目标 数据 算力 时间 产出
预训练 学习语言和知识 数千亿Token 1000+GPU 数周 Base Model
SFT 学会理解指令 数万条指令-回答 1-100GPU 数天 SFT Model
RM 学会评判质量 百万条对比排序 1-100GPU 数天 RM Model
RL 优化回答质量 十万条指令 1-100GPU 数天 ChatGPT

成本分布

  • 预训练:最昂贵(90%以上成本)
  • 后三个阶段:相对便宜

七、给技术人员的启示

7.1 为什么开源SFT模型效果很好?

因为模型的能力主要来自预训练!只要预训练做得好,SFT用几千条数据就能获得不错的效果。

7.2 自己训练模型需要什么?

场景 推荐方案
快速验证 用开源SFT模型(如ChatGLM)
领域定制 在开源模型基础上微调
完全自研 需要巨额算力(不建议)

7.3 LoRA:低成本的微调方案

如果只是想微调,LoRA是一个好选择:

  • 只训练少量参数(原本参数的1%以下)
  • 效果接近全量微调
  • 一块GPU就能微调7B模型

八、总结

大模型的训练流程可以概括为:

预训练打基础 (学知识) → SFT学指令 (懂用户) → RM学评判 (知好坏) → RL精益求精(更优秀)

每个阶段都有其独特的作用:

  • 预训练:决定了模型的"天花板"
  • SFT:让模型"落地"
  • RM+RL:让模型"升华"

理解这个流程,你就理解了大模型为什么能如此强大!


参考资源

  • Andrej Karpathy演讲:《State of GPT》
  • InstructGPT论文:OpenAI, 2022
  • LIMA论文:Zhou et al., 2023
  • Self-Instruct论文:Wang et al., 2022

下一篇预告:强化学习入门:从斯金纳箱到大模型推理

相关推荐
DanCheOo2 小时前
开源 | ai-memory v2.6.2:不用配 API Key,一行命令把 Cursor 对话变成结构化知识库
人工智能·ai·ai编程
维元码簿4 小时前
Claude Code 深度拆解:多 Agent 协作 3 — Task 状态机、SendMessage 与消息邮箱
ai·agent·claude code·ai coding
二哈赛车手4 小时前
新人笔记---实现简易版的rag的bm25检索(利用ES),以及RAG上传时的ES与向量数据库双写
java·数据库·笔记·spring·elasticsearch·ai
AI进化营-智能译站5 小时前
ROS2 C++开发系列07-高效构建机器人决策逻辑,运算符与控制流实战
开发语言·c++·ai·机器人
运维小子5 小时前
Claude Code 权限配置完全指南
ai·claude
AI进化营-智能译站6 小时前
ROS2 C++开发系列13-运算符重载让ROS2消息处理更自然
java·开发语言·c++·ai
翔云1234566 小时前
大模型训练框架全景解析(2026最新)
ai·大模型
翔云1234567 小时前
大模型部署全流程深度解析
人工智能·ai·大模型
孟柯coding7 小时前
教程:在 Windows WSL 中为 Codex 接入 DeepSeek V4 Pro
ai·ai编程