大模型project面试3

6. 大模型是怎么训练出来的？

大模型训练我理解是分三个阶段，每个阶段解决不同层次的问题。我用一个类比来记忆：预训练就像一个人从小到大读了海量的书，积累了语言能力和世界知识，训练目标就是「预测下一个词」，简单但威力巨大；SFT 是给这个博学的人做面试培训，让他学会把知识转化成有问有答的对话形式，而不是一直续写文章；对齐阶段是给他做职业素养培训，用 RLHF 或 DPO 让他的回答方式更符合人类偏好、更安全。三个阶段缺一不可，预训练决定能力天花板，SFT 给格式，对齐给价值观，这是目前所有主流大模型训练的基本框架。

先理一个直觉：训练大模型为什么要分阶段？

很多人第一次听说「大模型训练分三个阶段」会很困惑，为什么不能一次性训完？为什么要分这么麻烦？

要回答这个问题，先做个类比。培养一个能在公司独当一面的员工，至少要经过三件事。

他得先有基础知识 ，从小学读到大学，掌握语言、数学、逻辑、各种学科常识。没有这个基础，进了公司啥也干不了。然后他得会公司的流程 ，哪怕他知识再渊博，进了公司也不知道「怎么写汇报邮件、怎么和客户对话、怎么提交工单」。这些不是知识问题，是「适配工作场景」的问题。最后他得懂职业素养，知道该说什么、不该说什么、什么时候要谦虚、什么时候要拒绝不合理要求。这些不是技能问题，是「价值观和分寸感」的问题。

大模型的三个训练阶段对应的就是这三件事。预训练让它读万卷书，SFT 让它学会问答格式，对齐让它学会好好说话。每个阶段解决一个完全不同层面的问题，所以缺一不可。

有了这个类比打底，下面分别看每个阶段具体在做什么。

第一阶段：预训练，读万卷书

预训练是大模型能力的根基，所有上层能力都从这里来。

数据从哪来？

预训练用的数据规模大到夸张。GPT-3 用了 3000 亿 token，Llama 3 用了 15 万亿 token，相当于把整个互联网的公开文本资源差不多都吞了一遍。

具体数据来源你可以理解成「能爬到的所有公开文本」，互联网网页（Common Crawl 项目专门干这事）、GitHub 上的所有代码、维基百科全部条目、扫描过的图书、学术论文、新闻报道，几乎所有形式的人类知识都在里面。

但原始爬到的数据是不能直接用的，里面充满垃圾，包括重复内容、机器生成的乱码、低质量论坛灌水、广告页面这些。预训练前要做大量清洗工作，去重、过滤低质量内容、识别语言、剔除有害信息。一个高质量训练集的清洗成本可能比模型训练本身还贵，这是大模型公司之间的核心竞争力之一。

训练目标长什么样？

这一点其实很反直觉。你猜大模型的训练目标是什么？是「回答正确率」？还是「写得通不通顺」？都不是，是一个看起来简单到让人怀疑的任务，预测下一个 token。

学术上叫 CLM（Causal Language Modeling，因果语言模型）。每条训练样本就是「给前 N 个 token，预测第 N+1 个 token」，对整个语料库做这件事，反复调整模型参数让它的预测越来越准。

「预测下一个词」就这么简单？没错，就是这么简单。但威力大到吓人。为什么呢？因为想要在不同上下文里准确预测下一个词，模型必须真的理解语法、记住事实、推理逻辑。

举几个例子你就明白了。要预测「北京是中国的____」，模型必须知道「北京是首都」这个事实；要预测「如果 x=2，那么 x²=____」，模型必须会算数；要预测一段代码的下一行，模型必须理解编程逻辑；要预测一首诗的下一句，模型必须懂韵律和意境。所有这些能力都被「预测下一个词」这一个目标逼着学会了 。

这就是为什么「预测下一个词」这个看起来简单的目标，能造就一个能写代码、能解数学题、能创作诗歌的通用智能模型。简单的目标 + 海量数据 = 涌现的智能。

计算开销有多大？

惊人的离谱。训练 GPT-3 据估算花了约 3.14×10²³ 次浮点运算（FLOPs）。这是什么概念？用一张 A100 GPU 算需要 36 万年。OpenAI 实际是用了几百到几千张 GPU 并行训练了几个月才搞定。算力成本上千万美元，这就是为什么早期只有少数巨头能玩得起预训练。

预训练完之后，模型有了一个「大脑」，里面塞满了语言能力和世界知识。但这个大脑还有个问题，它不会回答问题，只会续写。

第二阶段：SFT，从「续写机器」变「对话机器」

预训练后的模型本质上是一个「文本续写机器」。

什么意思？你给它一段文字，它会继续往下写，但不真的理解你在「问问题」 。打个比方，你问它「天空为什么是蓝色的？」，它可能续写成「天空为什么是蓝色的？这是个有趣的科学问题。今天天气不错，让我们看看......」一直发散下去，根本没在回答你。

SFT 的目的就是把这个「续写机器」改造成「对话机器」。

模型在这种数据上继续训练，慢慢学会「啊，看到这种格式我就该给一个完整答案，不要无限续写下去」。这就是从「续写模式」切换到「对话模式」的关键。

数据质量比数量更重要。Llama 2 用了大约 100 万条 SFT 数据，但每条都是精心标注的。AlpacaFarm 的研究还发现一个反直觉的结论，几千条高质量数据训出来的效果，比几十万条低质量数据要好。所以工业界做 SFT 不会盲目堆数量，而是花大量人力打磨数据质量。

数据多样性也很关键，不能只覆盖一种任务。一份合格的 SFT 数据集会涵盖问答、写作、代码、角色扮演、数学推理、翻译等各种场景。覆盖面不够的话，模型在没见过的任务上就会表现拉胯。

SFT 之后，模型已经会按指令回答问题了。但它的回答方式不一定是你喜欢的，可能太啰嗦、太简洁、或者偶尔说出一些不该说的话。这就需要第三阶段。

第三阶段：对齐，学会「好好说话」

对齐（Alignment）的目标是让模型的行为更符合人类的价值观和偏好。

举个例子。同一个问题「怎么学好 Python」，可以有很多种「合格」的回答。有的简洁、有的详细、有的带代码示例、有的纯文字、有的承认「我不熟悉这块」、有的硬装专家胡说。SFT 只教会了模型「这种格式叫合格回答」，但没告诉它「哪种回答用户更喜欢」。对齐就是补这一课。

对齐的主流方法是 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），OpenAI 在 InstructGPT 里首次引入。

它的流程是这样的。先让人类标注员对同一个问题的多个回答做排序（A 比 B 好、B 比 C 好），收集大量这种「偏好排序」数据。然后用这些数据训一个独立的「奖励模型」，让它学会自动给回答打分（代替人类，因为人类标注太慢太贵）。最后用强化学习算法（PPO）调整大模型的参数，让它生成的回答尽量得高分。

RLHF 听起来挺合理，但工程上很难。流程长、要同时维护好几个模型、训练不稳定。一不小心模型会学会「钻空子」，讨好奖励模型而不是真的变好，业内叫「奖励 Hacking」。能驾驭 RLHF 的团队在业界凤毛麟角。

后来斯坦福提出了 DPO （Direct Preference Optimization，直接偏好优化），把对齐流程大幅简化。它发现 RLHF 的优化目标可以用数学等价的方式改写成纯监督学习，不需要奖励模型，也不需要 PPO。直接拿（问题，好回答，差回答）三元组训练，让模型学会「好回答的概率要比差回答提升得多」就行。

DPO 训练简单、稳定、容易实现，很多开源 Instruct 模型会把它作为偏好对齐方案之一。但这里要注意别把所有模型都说成 DPO 训出来的。比如 Llama 2-Chat 公开论文里的主线是 SFT、拒绝采样和 PPO/RLHF，并不是 DPO；Llama 3 系列则使用了更复杂的多阶段 post-training。面试里说「DPO 是开源社区常见方案」可以，说「Llama 2 都是 DPO」就不严谨了。

到这里，三个阶段都讲完了。最后回头看一遍，理解为什么这三件事缺一不可。

三阶段为什么缺一不可

如果只做预训练，不做 SFT，模型只会续写文本，根本不会以对话方式回答问题。你问它问题，它给你接下去写一篇文章。这种模型只能当「智能补全工具」用，做不了对话产品。

如果只做预训练加 SFT，不做对齐，模型会以对话方式回答了，但回答质量参差不齐。它可能生成有害内容、歧视性言论，或者回答方式让用户不爽（过于啰嗦、过于简洁、自信地胡说）。这种模型上线之后用户体验不好，公司可能还会被监管找麻烦。

如果只做 SFT 和对齐，跳过预训练，那就是在「空壳」上优化。模型没有底层知识，给它再多对话数据也学不出真正的智能。这也是为什么所有大模型公司都在拼预训练，预训练决定了模型能力的天花板 ，SFT 和对齐只是在这个天花板内做优化，决定能不能把天花板的潜力发挥出来。理解了这一点，再看大模型公司之间的竞争就清楚了。OpenAI、Anthropic、DeepSeek 这些公司之所以能领先，最大的护城河不是 SFT 或对齐技巧（这些公开材料都有），而是预训练阶段的「数据 + 算力 + 工程经验」。这些东西要么靠时间积累，要么靠真金白银，是后来者难以追赶的。

面试总结

回到开头那段对话，问到「大模型是怎么训练出来的」，最关键的是把「分三个阶段」这件事的逻辑讲清楚，而不是只会说三个阶段的名字。

预训练是地基，让模型学会语言和世界知识，训练目标是「预测下一个 token」，看起来简单但威力极大。这一步是最贵的，几百到几千张 GPU 训几个月，烧的是真金白银。

SFT 是格式适配，把「续写机器」改造成「对话机器」。数据格式从连续文本变成（指令，期望回答）对，质量比数量重要，几千条精心标注的数据能赢几十万条粗糙数据。

对齐是价值观训练，让模型「好好说话」。经典路线是 RLHF（奖励模型 + PPO），开源社区也大量使用 DPO、ORPO、KTO 这类更容易落地的偏好优化方法。不同模型会把这些方法组合起来用，这一阶段决定模型上线后用户体验好不好。

最关键的一句话是，这三个阶段缺一不可，预训练定天花板，SFT 给格式，对齐给价值观。能讲清楚「为什么缺一不可」，比单纯背三个阶段名字深刻得多。

如果还想加分，可以提一句大模型公司之间真正的护城河在预训练阶段（数据 + 算力 + 工程经验），SFT 和对齐相对来说技巧已经透明化了。这种「站在产业视角」的回答会让面试官印象深刻。

7. 什么是 Scaling Law？大模型的「涌现能力」是怎么回事？

我理解 Scaling Law（缩放定律）讲的是大模型的损失值如何随模型规模、训练数据量、训练算力这三个量变化的可预测关系。OpenAI 在 2020 年提出，DeepMind 在 2022 年的 Chinchilla 论文里精修。

核心发现是三个。

第一，损失值随这三个量按幂律下降（loss ∝ N^-α，N 是规模）。意思是规模翻倍，损失值按可预测的比例下降，没有「饱和点」。

第二，参数和数据要按一定比例配。Chinchilla 给的最优比例是 1:20（每个参数配 20 tokens）。GPT-3 175B 用 300B tokens 是「严重欠训」，比例只有 1:1.7；DeepMind 训了一个 70B 模型配 1.4T tokens（1:20），反而超过了 GPT-3 和自家更大的 280B Gopher。

第三，Llama 3 这类后续模型用了远高于 1:20 的训练 token，效果继续提升。更准确地说，Chinchilla 的 1:20 是「固定训练算力下的 compute-optimal 配比」，不是「数据再多就一定没用」的上限。后来的小模型大量喂数据，很多时候是在用更多训练计算换更低的推理成本。

涌现能力（Emergent Abilities） 是 Scaling Law 的一个特殊副产物。当模型规模超过某个临界值（典型是 50B-100B 参数），某些能力会从「完全不能」突变到「能做」：多步推理、上下文学习、跨语言迁移、代码理解等。

但要注意 2023 年斯坦福的 Mirage 论文挑战了「涌现」的定义。他们认为很多涌现现象只是「评估指标的不连续性」造成的测量假象，换成连续指标后曲线就平滑了。学术争议还在继续，但工程层面，模型规模带来的能力跃迁是客观存在的。

对工程选型的启发是：不是越大越好 ，要看「参数 × 数据 × 算力」三者的最优搭配；数据规模可能比参数规模更值得加大 （Llama 3 8B 用 15T tokens 跑赢 GPT-3 175B 就是例证）；同样算力下，按 Chinchilla 比例训出来的小模型，可能比胡乱堆参数的大模型还强。

涌现能力：量变到质变的临界点

Scaling Law 还有一个让所有人都没想到的副产物，叫涌现能力（Emergent Abilities）。

涌现的精确定义是：「某项能力在小模型上完全看不到，规模超过某个临界点之后突然出现 」。它不是平滑上升，而是一条「先趴在地上、到某个点垂直冲天」的折线。

学术界总结了几类典型的涌现能力，每一类都有具体的数据点支撑：

1. 多步算术推理

Google PaLM 论文里测试 5 步算术应用题。准确率随规模变化：

复制代码

8B  -> ~0%
62B -> ~5%
540B -> ~60%

中间没有任何渐进过程，从「完全不会」直接到「会一大半」。这种跳变只能用「涌现」来解释。

2. In-Context Learning（上下文学习）

GPT-3 175B 出现之前，业界共识是「想让模型学新任务，必须微调」。GPT-3 出来之后，OpenAI 发现只要在 Prompt 里给几个例子，模型就能学会新任务。这个能力在 1.5B 的 GPT-2 上完全看不到，在 175B 的 GPT-3 上突然就有了，临界点在 100B 左右。

3. 跨语言泛化

GPT-3 训练数据 92% 是英文，但训完之后能直接处理中文、阿拉伯语、甚至冰岛语。模型从来没被显式教过「中文怎么说」，它通过大规模混合语料的预训练，自己学会了不同语言间的对应关系。这种能力也是规模到了 100B 左右才稳定出现。

涌现的临界规模通常出现在 50B-100B 这个区间。这个区间到底是什么物理意义，业界还没有定论。一个流行的解释是：模型大到一定程度，注意力头数、隐藏维度等达到了「能编码复杂推理结构」的最低门槛。再小就编码不了，再大就开始展示这些能力。

Mirage 挑战：涌现可能是测量假象

正当涌现能力被业界广泛接受时，2023 年斯坦福的一篇论文炸了锅：Are Emergent Abilities of Large Language Models a Mirage?

论文作者 Schaeffer 等人观察到一个奇怪现象：很多「涌现」能力只在某些评估指标下才出现，换个指标就消失了。

举个具体例子。多步算术任务，常规评估指标是「最终答案是否完全正确」（exact match）：

答错任何一步，最终答案就错，得 0 分
答对所有步骤，得 1 分

这是一个离散的二元指标，要么 0 要么 1。在这个指标下，看到的就是「小模型一直 0 分，大模型突然跳到 60%」的涌现曲线。

但如果换成「部分正确率 」（比如答对了前 4 步算 0.8 分），同样的实验数据，能力提升曲线就变成了平滑的对数曲线 ，没有任何突变。

论文的核心论点是：「涌现」可能不是模型本身的非线性特性，而是评估指标的不连续性放大了一个本来连续的能力提升过程。

这个挑战引发了广泛讨论。后续也有论文反驳，认为某些涌现现象在多种连续指标下都能观察到，不能完全用「指标假象」解释。学术争议还在继续，目前的中立结论是：

能力跃迁是客观存在的：从工程效果看，模型规模到了 100B 之后，确实能做小模型完全做不了的事
但「涌现」这个概念可能被过度神化了：很多所谓的「突变」其实是连续提升 + 指标放大效应
不存在「魔法的涌现规模」：不同任务的临界点不同，有的早有的晚，没有统一的「100B 之后必然涌现」

这个争议对面试来说很有用。如果你能在面试里指出 Mirage 论文的存在，并把双方观点都讲清楚，会显得你真的看过论文，不是只在背技术博客。

对工程选型的启发

理解了 Scaling Law 和涌现的内核，对实际工程选型有几个直接启发：

1. 不是越大越好，要看 Chinchilla 比例

参数和数据要匹配，至少不能出现「参数很大但数据很少」的欠训状态。1:20 可以作为理解 Chinchilla 的标尺，但不是所有模型都必须卡死在这个比例。选型时更应该问：这个模型是不是训练充分？数据质量怎么样？它是为训练算力最优设计，还是为推理成本最优设计？

2. 数据规模可能比参数规模更值得加大

如果你有限的算力是 X，与其训一个 7B + 100B tokens 的模型，不如训 3B + 250B tokens。同样的算力开销，后者效果通常更好，推理还便宜。Llama 3 和 Qwen3 都验证了这个直觉。

3. 推理成本和参数规模强相关

部署一个 175B 模型要好几台 H100，部署 8B 模型一张消费级 GPU 就够。在效果差不多的前提下，「小参数 + 海量数据」的模型在推理成本上有天然优势。这也是为什么 2024 年之后开源社区疯狂做小模型大数据。

4. 涌现能力对模型选型的影响

如果你的任务依赖「涌现能力」（多步推理、ICL、跨语言迁移），最低门槛是 30B-70B 这个量级，再往下就不行。如果是简单分类、抽取、摘要任务，7B-13B 完全够用，没必要硬上大模型。

Scaling Law 的天花板与未来

最后简单提一下 Scaling Law 的尽头，作为面试加分项。

虽然到目前为止还没看到饱和点，但业界已经开始担心两个潜在天花板。

第一，数据见底 。互联网上高质量公开文本的总量是有限的，估计在 10T-50T tokens 这个量级。Llama 3 已经用了 15T，Qwen3 用了 36T，再过几年就会把人类历史上所有公开文本都用完。这就是「数据墙（Data Wall）」问题。

应对方向有三个：

合成数据：用强模型生成训练数据训弱模型（DeepSeek-Math、Qwen2.5-Math 都用了大量合成数据）
多模态数据：扩展到图像、视频、音频，把人类所有形式的信号都纳入训练
强化学习数据：用环境交互生成数据（DeepSeek R1 的 RL 训练就属于这一类）

第二，算力增长放缓 。摩尔定律已经接近物理极限，GPU 算力的增长速度在放缓。能买得起 10 万张 H100 的玩家就那么几个，进一步堆参数的边际成本越来越高。

回到开头那段对话，问到 Scaling Law 和涌现能力，最重要的是把 Scaling Law 的本质讲清楚。它讲的是 loss 和参数 N、数据 D、算力 C 的幂律关系（loss ∝ N^-α）。OpenAI 2020 年提出，给业界传递了「规模可预测地带来效果」这个革命性结论，是后面所有大模型烧钱投入的理论基础。

讲完本质之后，自然引出 Chinchilla 配比的故事。DeepMind 2022 年训 400 个模型实验，发现固定训练算力下，参数和数据接近 1:20 更划算。GPT-3 175B 配 300B tokens 是严重欠训，70B 的 Chinchilla 配 1.4T tokens 反而明显超过 175B 级别的旧模型。这个发现改变了整个行业，2022 年之后大家不再盲目堆参数，而是更重视训练 token 和数据质量。

接下来讲 Llama 3 时代的进一步变化。Meta 把数据推到 1:1875 的极端配比，用 8B + 15T tokens 训出超过 GPT-3 175B 的效果，说明 Chinchilla 不是「数据上限」。当目标变成「推理便宜、部署容易」时，小参数 + 大数据会非常有吸引力，这是 2024 年之后的重要趋势。

最关键的是讲清涌现能力 + Mirage 挑战。涌现是某项能力从「完全不会」突变到「能做」，临界规模 50B-100B。但 2023 年斯坦福 Mirage 论文挑战，认为很多涌现是「评估指标不连续」造成的假象，换连续指标曲线就平滑了。学术争议在继续，但能力跃迁客观存在。能在面试里提出这个学术争议，会显示你真的看过论文，不是只在背技术博客。