6. 大模型是怎么训练出来的?
大模型训练我理解是分三个阶段,每个阶段解决不同层次的问题。我用一个类比来记忆:预训练就像一个人从小到大读了海量的书,积累了语言能力和世界知识,训练目标就是「预测下一个词」,简单但威力巨大;SFT 是给这个博学的人做面试培训,让他学会把知识转化成有问有答的对话形式,而不是一直续写文章;对齐阶段是给他做职业素养培训,用 RLHF 或 DPO 让他的回答方式更符合人类偏好、更安全。三个阶段缺一不可,预训练决定能力天花板,SFT 给格式,对齐给价值观,这是目前所有主流大模型训练的基本框架。
先理一个直觉:训练大模型为什么要分阶段?
很多人第一次听说「大模型训练分三个阶段」会很困惑,为什么不能一次性训完?为什么要分这么麻烦?
要回答这个问题,先做个类比。培养一个能在公司独当一面的员工,至少要经过三件事。
他得先有基础知识 ,从小学读到大学,掌握语言、数学、逻辑、各种学科常识。没有这个基础,进了公司啥也干不了。然后他得会公司的流程 ,哪怕他知识再渊博,进了公司也不知道「怎么写汇报邮件、怎么和客户对话、怎么提交工单」。这些不是知识问题,是「适配工作场景」的问题。最后他得懂职业素养,知道该说什么、不该说什么、什么时候要谦虚、什么时候要拒绝不合理要求。这些不是技能问题,是「价值观和分寸感」的问题。
大模型的三个训练阶段对应的就是这三件事。预训练让它读万卷书,SFT 让它学会问答格式,对齐让它学会好好说话。每个阶段解决一个完全不同层面的问题,所以缺一不可。
有了这个类比打底,下面分别看每个阶段具体在做什么。
第一阶段:预训练,读万卷书
预训练是大模型能力的根基,所有上层能力都从这里来。
数据从哪来?
预训练用的数据规模大到夸张。GPT-3 用了 3000 亿 token,Llama 3 用了 15 万亿 token,相当于把整个互联网的公开文本资源差不多都吞了一遍。
具体数据来源你可以理解成「能爬到的所有公开文本」,互联网网页(Common Crawl 项目专门干这事)、GitHub 上的所有代码、维基百科全部条目、扫描过的图书、学术论文、新闻报道,几乎所有形式的人类知识都在里面。
但原始爬到的数据是不能直接用的,里面充满垃圾,包括重复内容、机器生成的乱码、低质量论坛灌水、广告页面这些。预训练前要做大量清洗工作,去重、过滤低质量内容、识别语言、剔除有害信息。一个高质量训练集的清洗成本可能比模型训练本身还贵,这是大模型公司之间的核心竞争力之一。
训练目标长什么样?
这一点其实很反直觉。你猜大模型的训练目标是什么?是「回答正确率」?还是「写得通不通顺」?都不是,是一个看起来简单到让人怀疑的任务,预测下一个 token。
学术上叫 CLM(Causal Language Modeling,因果语言模型)。每条训练样本就是「给前 N 个 token,预测第 N+1 个 token」,对整个语料库做这件事,反复调整模型参数让它的预测越来越准。
「预测下一个词」就这么简单?没错,就是这么简单。但威力大到吓人。为什么呢?因为想要在不同上下文里准确预测下一个词,模型必须真的理解语法、记住事实、推理逻辑。
举几个例子你就明白了。要预测「北京是中国的____」,模型必须知道「北京是首都」这个事实;要预测「如果 x=2,那么 x²=____」,模型必须会算数;要预测一段代码的下一行,模型必须理解编程逻辑;要预测一首诗的下一句,模型必须懂韵律和意境。所有这些能力都被「预测下一个词」这一个目标逼着学会了 。
这就是为什么「预测下一个词」这个看起来简单的目标,能造就一个能写代码、能解数学题、能创作诗歌的通用智能模型。简单的目标 + 海量数据 = 涌现的智能。
计算开销有多大?
惊人的离谱。训练 GPT-3 据估算花了约 3.14×10²³ 次浮点运算(FLOPs)。这是什么概念?用一张 A100 GPU 算需要 36 万年。OpenAI 实际是用了几百到几千张 GPU 并行训练了几个月才搞定。算力成本上千万美元,这就是为什么早期只有少数巨头能玩得起预训练。
预训练完之后,模型有了一个「大脑」,里面塞满了语言能力和世界知识。但这个大脑还有个问题,它不会回答问题,只会续写。
第二阶段:SFT,从「续写机器」变「对话机器」
预训练后的模型本质上是一个「文本续写机器」。
什么意思?你给它一段文字,它会继续往下写,但不真的理解你在「问问题」 。打个比方,你问它「天空为什么是蓝色的?」,它可能续写成「天空为什么是蓝色的?这是个有趣的科学问题。今天天气不错,让我们看看......」一直发散下去,根本没在回答你。
SFT 的目的就是把这个「续写机器」改造成「对话机器」。
模型在这种数据上继续训练,慢慢学会「啊,看到这种格式我就该给一个完整答案,不要无限续写下去」。这就是从「续写模式」切换到「对话模式」的关键。
数据质量比数量更重要。Llama 2 用了大约 100 万条 SFT 数据,但每条都是精心标注的。AlpacaFarm 的研究还发现一个反直觉的结论,几千条高质量数据训出来的效果,比几十万条低质量数据要好。所以工业界做 SFT 不会盲目堆数量,而是花大量人力打磨数据质量。
数据多样性也很关键,不能只覆盖一种任务。一份合格的 SFT 数据集会涵盖问答、写作、代码、角色扮演、数学推理、翻译等各种场景。覆盖面不够的话,模型在没见过的任务上就会表现拉胯。
SFT 之后,模型已经会按指令回答问题了。但它的回答方式不一定是你喜欢的,可能太啰嗦、太简洁、或者偶尔说出一些不该说的话。这就需要第三阶段。
第三阶段:对齐,学会「好好说话」
对齐(Alignment)的目标是让模型的行为更符合人类的价值观和偏好。
举个例子。同一个问题「怎么学好 Python」,可以有很多种「合格」的回答。有的简洁、有的详细、有的带代码示例、有的纯文字、有的承认「我不熟悉这块」、有的硬装专家胡说。SFT 只教会了模型「这种格式叫合格回答」,但没告诉它「哪种回答用户更喜欢」。对齐就是补这一课。
对齐的主流方法是 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),OpenAI 在 InstructGPT 里首次引入。
它的流程是这样的。先让人类标注员对同一个问题的多个回答做排序(A 比 B 好、B 比 C 好),收集大量这种「偏好排序」数据。然后用这些数据训一个独立的「奖励模型」,让它学会自动给回答打分(代替人类,因为人类标注太慢太贵)。最后用强化学习算法(PPO)调整大模型的参数,让它生成的回答尽量得高分。
RLHF 听起来挺合理,但工程上很难。流程长、要同时维护好几个模型、训练不稳定。一不小心模型会学会「钻空子」,讨好奖励模型而不是真的变好,业内叫「奖励 Hacking」。能驾驭 RLHF 的团队在业界凤毛麟角。
后来斯坦福提出了 DPO (Direct Preference Optimization,直接偏好优化),把对齐流程大幅简化。它发现 RLHF 的优化目标可以用数学等价的方式改写成纯监督学习,不需要奖励模型,也不需要 PPO。直接拿(问题,好回答,差回答)三元组训练,让模型学会「好回答的概率要比差回答提升得多」就行。
DPO 训练简单、稳定、容易实现,很多开源 Instruct 模型会把它作为偏好对齐方案之一。但这里要注意别把所有模型都说成 DPO 训出来的。比如 Llama 2-Chat 公开论文里的主线是 SFT、拒绝采样和 PPO/RLHF,并不是 DPO;Llama 3 系列则使用了更复杂的多阶段 post-training。面试里说「DPO 是开源社区常见方案」可以,说「Llama 2 都是 DPO」就不严谨了。
到这里,三个阶段都讲完了。最后回头看一遍,理解为什么这三件事缺一不可。
三阶段为什么缺一不可
如果只做预训练,不做 SFT,模型只会续写文本,根本不会以对话方式回答问题。你问它问题,它给你接下去写一篇文章。这种模型只能当「智能补全工具」用,做不了对话产品。
如果只做预训练加 SFT,不做对齐,模型会以对话方式回答了,但回答质量参差不齐。它可能生成有害内容、歧视性言论,或者回答方式让用户不爽(过于啰嗦、过于简洁、自信地胡说)。这种模型上线之后用户体验不好,公司可能还会被监管找麻烦。
如果只做 SFT 和对齐,跳过预训练,那就是在「空壳」上优化。模型没有底层知识,给它再多对话数据也学不出真正的智能。这也是为什么所有大模型公司都在拼预训练,预训练决定了模型能力的天花板 ,SFT 和对齐只是在这个天花板内做优化,决定能不能把天花板的潜力发挥出来。
理解了这一点,再看大模型公司之间的竞争就清楚了。OpenAI、Anthropic、DeepSeek 这些公司之所以能领先,最大的护城河不是 SFT 或对齐技巧(这些公开材料都有),而是预训练阶段的「数据 + 算力 + 工程经验」。这些东西要么靠时间积累,要么靠真金白银,是后来者难以追赶的。
面试总结
回到开头那段对话,问到「大模型是怎么训练出来的」,最关键的是把「分三个阶段」这件事的逻辑讲清楚,而不是只会说三个阶段的名字。
预训练是地基,让模型学会语言和世界知识,训练目标是「预测下一个 token」,看起来简单但威力极大。这一步是最贵的,几百到几千张 GPU 训几个月,烧的是真金白银。
SFT 是格式适配,把「续写机器」改造成「对话机器」。数据格式从连续文本变成(指令,期望回答)对,质量比数量重要,几千条精心标注的数据能赢几十万条粗糙数据。
对齐是价值观训练,让模型「好好说话」。经典路线是 RLHF(奖励模型 + PPO),开源社区也大量使用 DPO、ORPO、KTO 这类更容易落地的偏好优化方法。不同模型会把这些方法组合起来用,这一阶段决定模型上线后用户体验好不好。
最关键的一句话是,这三个阶段缺一不可,预训练定天花板,SFT 给格式,对齐给价值观。能讲清楚「为什么缺一不可」,比单纯背三个阶段名字深刻得多。
如果还想加分,可以提一句大模型公司之间真正的护城河在预训练阶段(数据 + 算力 + 工程经验),SFT 和对齐相对来说技巧已经透明化了。这种「站在产业视角」的回答会让面试官印象深刻。
7. 什么是 Scaling Law?大模型的「涌现能力」是怎么回事?
我理解 Scaling Law(缩放定律)讲的是大模型的损失值如何随模型规模、训练数据量、训练算力这三个量变化的可预测关系。OpenAI 在 2020 年提出,DeepMind 在 2022 年的 Chinchilla 论文里精修。
核心发现是三个。
第一,损失值随这三个量按幂律下降(loss ∝ N^-α,N 是规模)。意思是规模翻倍,损失值按可预测的比例下降,没有「饱和点」。
第二 ,参数和数据要按一定比例配。Chinchilla 给的最优比例是 1:20(每个参数配 20 tokens)。GPT-3 175B 用 300B tokens 是「严重欠训」,比例只有 1:1.7;DeepMind 训了一个 70B 模型配 1.4T tokens(1:20),反而超过了 GPT-3 和自家更大的 280B Gopher。
第三,Llama 3 这类后续模型用了远高于 1:20 的训练 token,效果继续提升。更准确地说,Chinchilla 的 1:20 是「固定训练算力下的 compute-optimal 配比」,不是「数据再多就一定没用」的上限。后来的小模型大量喂数据,很多时候是在用更多训练计算换更低的推理成本。
涌现能力(Emergent Abilities) 是 Scaling Law 的一个特殊副产物。当模型规模超过某个临界值(典型是 50B-100B 参数),某些能力会从「完全不能」突变到「能做」:多步推理、上下文学习、跨语言迁移、代码理解等。
但要注意 2023 年斯坦福的 Mirage 论文挑战了「涌现」的定义。他们认为很多涌现现象只是「评估指标的不连续性」造成的测量假象,换成连续指标后曲线就平滑了。学术争议还在继续,但工程层面,模型规模带来的能力跃迁是客观存在的。
对工程选型的启发是:不是越大越好 ,要看「参数 × 数据 × 算力」三者的最优搭配;数据规模可能比参数规模更值得加大 (Llama 3 8B 用 15T tokens 跑赢 GPT-3 175B 就是例证);同样算力下,按 Chinchilla 比例训出来的小模型,可能比胡乱堆参数的大模型还强。
涌现能力:量变到质变的临界点
Scaling Law 还有一个让所有人都没想到的副产物,叫涌现能力(Emergent Abilities)。
涌现的精确定义是:「某项能力在小模型上完全看不到,规模超过某个临界点之后突然出现 」。它不是平滑上升,而是一条「先趴在地上、到某个点垂直冲天」的折线。
学术界总结了几类典型的涌现能力,每一类都有具体的数据点支撑:
1. 多步算术推理
Google PaLM 论文里测试 5 步算术应用题。准确率随规模变化:
8B -> ~0%
62B -> ~5%
540B -> ~60%
中间没有任何渐进过程,从「完全不会」直接到「会一大半」。这种跳变只能用「涌现」来解释。
2. In-Context Learning(上下文学习)
GPT-3 175B 出现之前,业界共识是「想让模型学新任务,必须微调」。GPT-3 出来之后,OpenAI 发现只要在 Prompt 里给几个例子,模型就能学会新任务。这个能力在 1.5B 的 GPT-2 上完全看不到,在 175B 的 GPT-3 上突然就有了,临界点在 100B 左右。
3. 跨语言泛化
GPT-3 训练数据 92% 是英文,但训完之后能直接处理中文、阿拉伯语、甚至冰岛语。模型从来没被显式教过「中文怎么说」,它通过大规模混合语料的预训练,自己学会了不同语言间的对应关系。这种能力也是规模到了 100B 左右才稳定出现。
涌现的临界规模通常出现在 50B-100B 这个区间。这个区间到底是什么物理意义,业界还没有定论。一个流行的解释是:模型大到一定程度,注意力头数、隐藏维度等达到了「能编码复杂推理结构」的最低门槛。再小就编码不了,再大就开始展示这些能力。
Mirage 挑战:涌现可能是测量假象
正当涌现能力被业界广泛接受时,2023 年斯坦福的一篇论文炸了锅:Are Emergent Abilities of Large Language Models a Mirage?
论文作者 Schaeffer 等人观察到一个奇怪现象:很多「涌现」能力只在某些评估指标下才出现,换个指标就消失了。
举个具体例子。多步算术任务,常规评估指标是「最终答案是否完全正确」(exact match):
- 答错任何一步,最终答案就错,得 0 分
- 答对所有步骤,得 1 分
这是一个离散的二元指标,要么 0 要么 1。在这个指标下,看到的就是「小模型一直 0 分,大模型突然跳到 60%」的涌现曲线。
但如果换成「部分正确率 」(比如答对了前 4 步算 0.8 分),同样的实验数据,能力提升曲线就变成了平滑的对数曲线 ,没有任何突变。
论文的核心论点是:「涌现」可能不是模型本身的非线性特性,而是评估指标的不连续性放大了一个本来连续的能力提升过程。
这个挑战引发了广泛讨论。后续也有论文反驳,认为某些涌现现象在多种连续指标下都能观察到,不能完全用「指标假象」解释。学术争议还在继续,目前的中立结论是:
- 能力跃迁是客观存在的:从工程效果看,模型规模到了 100B 之后,确实能做小模型完全做不了的事
- 但「涌现」这个概念可能被过度神化了:很多所谓的「突变」其实是连续提升 + 指标放大效应
- 不存在「魔法的涌现规模」:不同任务的临界点不同,有的早有的晚,没有统一的「100B 之后必然涌现」
这个争议对面试来说很有用。如果你能在面试里指出 Mirage 论文的存在,并把双方观点都讲清楚,会显得你真的看过论文,不是只在背技术博客。
对工程选型的启发
理解了 Scaling Law 和涌现的内核,对实际工程选型有几个直接启发:
1. 不是越大越好,要看 Chinchilla 比例
参数和数据要匹配,至少不能出现「参数很大但数据很少」的欠训状态。1:20 可以作为理解 Chinchilla 的标尺,但不是所有模型都必须卡死在这个比例。选型时更应该问:这个模型是不是训练充分?数据质量怎么样?它是为训练算力最优设计,还是为推理成本最优设计?
2. 数据规模可能比参数规模更值得加大
如果你有限的算力是 X,与其训一个 7B + 100B tokens 的模型,不如训 3B + 250B tokens。同样的算力开销,后者效果通常更好,推理还便宜。Llama 3 和 Qwen3 都验证了这个直觉。
3. 推理成本和参数规模强相关
部署一个 175B 模型要好几台 H100,部署 8B 模型一张消费级 GPU 就够。在效果差不多的前提下,「小参数 + 海量数据」的模型在推理成本上有天然优势。这也是为什么 2024 年之后开源社区疯狂做小模型大数据。
4. 涌现能力对模型选型的影响
如果你的任务依赖「涌现能力」(多步推理、ICL、跨语言迁移),最低门槛是 30B-70B 这个量级,再往下就不行。如果是简单分类、抽取、摘要任务,7B-13B 完全够用,没必要硬上大模型。
Scaling Law 的天花板与未来
最后简单提一下 Scaling Law 的尽头,作为面试加分项。
虽然到目前为止还没看到饱和点,但业界已经开始担心两个潜在天花板。
第一,数据见底 。互联网上高质量公开文本的总量是有限的,估计在 10T-50T tokens 这个量级。Llama 3 已经用了 15T,Qwen3 用了 36T,再过几年就会把人类历史上所有公开文本都用完。这就是「数据墙(Data Wall)」问题。
应对方向有三个:
- 合成数据:用强模型生成训练数据训弱模型(DeepSeek-Math、Qwen2.5-Math 都用了大量合成数据)
- 多模态数据:扩展到图像、视频、音频,把人类所有形式的信号都纳入训练
- 强化学习数据:用环境交互生成数据(DeepSeek R1 的 RL 训练就属于这一类)
第二,算力增长放缓 。摩尔定律已经接近物理极限,GPU 算力的增长速度在放缓。能买得起 10 万张 H100 的玩家就那么几个,进一步堆参数的边际成本越来越高。
回到开头那段对话,问到 Scaling Law 和涌现能力,最重要的是把 Scaling Law 的本质讲清楚。它讲的是 loss 和参数 N、数据 D、算力 C 的幂律关系(loss ∝ N^-α)。OpenAI 2020 年提出,给业界传递了「规模可预测地带来效果」这个革命性结论,是后面所有大模型烧钱投入的理论基础。
讲完本质之后,自然引出 Chinchilla 配比的故事。DeepMind 2022 年训 400 个模型实验,发现固定训练算力下,参数和数据接近 1:20 更划算。GPT-3 175B 配 300B tokens 是严重欠训,70B 的 Chinchilla 配 1.4T tokens 反而明显超过 175B 级别的旧模型。这个发现改变了整个行业,2022 年之后大家不再盲目堆参数,而是更重视训练 token 和数据质量。
接下来讲 Llama 3 时代的进一步变化。Meta 把数据推到 1:1875 的极端配比,用 8B + 15T tokens 训出超过 GPT-3 175B 的效果,说明 Chinchilla 不是「数据上限」。当目标变成「推理便宜、部署容易」时,小参数 + 大数据会非常有吸引力,这是 2024 年之后的重要趋势。
最关键的是讲清涌现能力 + Mirage 挑战。涌现是某项能力从「完全不会」突变到「能做」,临界规模 50B-100B。但 2023 年斯坦福 Mirage 论文挑战,认为很多涌现是「评估指标不连续」造成的假象,换连续指标曲线就平滑了。学术争议在继续,但能力跃迁客观存在。能在面试里提出这个学术争议,会显示你真的看过论文,不是只在背技术博客。