
摘要:本文是《LLM技术全景:从Token到部署》系列第五篇。大语言模型最令人震撼的现象之一是"规模定律"(Scaling Law)------模型性能随参数量、数据量、计算量的增加而可预测地提升。本期将深入解析Scaling Law的数学原理(Kaplan定律、Chinchilla定律)、模型演进的关键里程碑(BERT→GPT→LLaMA),以及为什么"大力出奇迹"在Transformer架构下依然有效。
一、引言:大力出奇迹?
2020年,OpenAI发表论文《Scaling Laws for Neural Language Models》,揭示了一个反直觉的现象:
传统机器学习认知:
┌──────────────────────────────────────┐
│ 模型大到一定程度 → 过拟合 → 性能下降 │
└──────────────────────────────────────┘
大语言模型的现实:
┌──────────────────────────────────────┐
│ 模型越大 → 性能越好 → 没有看到上限 │
└──────────────────────────────────────┘
这意味着什么?
只要你有足够的数据 、算力 、参数,语言模型的性能就能持续提升,而且提升幅度是可预测的。
这一发现彻底改变了AI研究范式:
- 从"精雕细琢小模型" → "规模化大模型"
- 从"特征工程" → "数据+算力工程"
- 从"理论驱动" → "经验驱动+规模定律指导"
二、规模定律(Scaling Law)原理
2.1 什么是规模定律?
规模定律描述了神经网络性能(通常用损失函数衡量)与三个关键要素之间的幂律关系:
性能 ∝ 参数量^N
性能 ∝ 数据量^M
性能 ∝ 计算量^L
其中 N, M, L 是小于1的正数(通常0.05~0.15)
关键观察:
- 损失与规模的关系呈幂律(不是线性,也不是对数)
- 三个要素(参数、数据、计算)需要协调增长
- 只增加其中一个要素,收益会边际递减
2.2 Kaplan定律(2020)
OpenAI的Kaplan等人首次系统研究了规模定律:
核心发现(2020):
L(N) = (N_c / N)^α_N + E
L(D) = (D_c / D)^α_D + E
L(C) = (C_c / C)^α_C + E
其中:
- L: 测试损失(交叉熵)
- N: 参数量
- D: 数据量(tokens)
- C: 计算量(FLOPs)
- N_c, D_c, C_c: 常数
- α_N ≈ 0.076, α_D ≈ 0.095, α_C ≈ 0.078
- E: 不可约减的损失下限(数据噪声)
Kaplan定律的实践意义:
如果要让损失降低x%:
- 参数量需要增加 ~(1/x)^(1/α_N) 倍
- 例如:α_N=0.076,损失降低一半需要参数量增加约 2^(1/0.076) ≈ 1500倍
这意味着:
- 小模型 → 大模型:收益显著
- 大模型 → 超大模型:收益递减,但仍为正
2.3 Chinchilla定律(2022)
2022年,DeepMind发表《Training Compute-Optimal Large Language Models》,挑战了Kaplan定律的结论。
Kaplan的错误:
- Kaplan认为:模型越大越好,数据量相对次要
- 实践:GPT-3(175B参数)训练只用300B tokens,数据"吃不饱"
Chinchilla的核心发现:
最优训练配置:
参数量 : 数据量 ≈ 1 : 20
即:每1个参数,需要约20个tokens的训练数据
例子:
- 70B参数模型 → 需要约1.4T tokens
- 175B参数模型 → 需要约3.5T tokens
- 540B参数模型 → 需要约10T tokens
Chinchilla实验验证:
训练一个70B参数的模型(Chinchilla),用1.4T tokens:
- 性能显著优于GPT-3(175B参数,300B tokens)
- 证明:数据量和参数量同样重要
2.4 规模定律的通用形式
综合Kaplan和Chinchilla,现代规模定律通常表达为:
L(N, D) = [(N_c / N)^α_N + (D_c / D)^α_D]^(-1/α) + E
其中:
- N, D 需要协调增长
- 单纯增加N或D都会遇到边际递减
- 最优比例:N : D ≈ 1 : 20(Chinchilla比率)
可视化理解:
性能(损失降低)
^
│ ╱‾‾‾ 协调增长(N和D同时增加)
│ ╱
│ ╱ ← 只增加N(数据不足)
│ ╱ ╲
│ ╱ ╲ ← 只增加D(参数不足)
│╱ ╲
└────────────────→ 规模(log尺度)
三、为什么规模定律成立?
3.1 直观理解
为什么大模型更能"理解"语言?
小模型(1M参数):
- 只能记住高频词的共现统计
- "猫" → 后面很可能是"是"、"在"
- 无法捕捉长距离依赖
中等模型(1B参数):
- 能学习词向量的精细结构
- 能理解"猫"和"猫科动物"的语义关联
- 能处理中等长度的上下文(~512 tokens)
大模型(100B+参数):
- 能存储海量世界知识
- 能进行复杂推理(数学、代码、逻辑)
- 涌现出In-Context Learning、CoT等能力
类比特性:
规模定律的一个关键特征是相变(Phase Transition):
能力突然出现:
模型规模 → 某个临界值 → 能力突然涌现
具体表现:
- < 10B参数:基本没有CoT能力
- 10B ~ 50B:CoT能力开始显现
- > 100B:CoT能力稳定存在
这不是平滑提升,而是"涌现"(Emergent Abilities)
3.2 理论解释
为什么Transformer架构特别适合规模化?
1. 高度并行化
├── Attention机制可以并行计算所有位置
├── 不像RNN需要顺序处理
└── 充分利用GPU并行计算能力
2. 参数效率高
├── 每层都是相同的结构(易于扩展)
├── 没有RNN的梯度消失问题
└── 深层网络训练稳定(残差连接+LayerNorm)
3. 少样本学习能力强
├── Attention可以直接"关注"上下文中的示例
├── 不需要更新参数就能适应新任务
└── 这是In-Context Learning的基础
信息瓶颈理论:
模型容量(参数量)决定了它能"记住"多少信息:
- 1M参数 → ~1MB信息
- 1B参数 → ~1GB信息
- 100B参数 → ~100GB信息
- 1T参数 → ~1TB信息
如果要"记住"整个互联网的知识(~100TB文本)
→ 理论上需要~100T参数的模型
→ 这就是为什么现在最大的模型才刚到1T级别
四、模型演进历程
4.1 前Transformer时代(2018之前)
核心架构:RNN / LSTM / GRU
代表模型:
- Word2Vec (2013): 词向量先驱
- Seq2Seq (2014): 编码器-解码器框架
- Attention (2014): Bahdanau注意力(机器翻译)
- Transformer (2017): "Attention is All You Need"
问题:
- RNN无法并行训练(顺序依赖)
- 长距离依赖捕捉能力差
- 模型规模难以扩大(梯度消失/爆炸)
4.2 BERT时代(2018-2019)
BERT(Bidirectional Encoder Representations from Transformers)开启了"预训练+微调"范式。
BERT核心创新:
1. 双向编码:同时利用左上下文和右上下文
2. Masked Language Model(MLM):预测被掩盖的词
3. Next Sentence Prediction(NSP):理解句子关系
4. 预训练+微调:先在大规模语料上预训练,再在特定任务上微调
BERT系列演进:
├── BERT-base (110M参数, 2018)
├── BERT-large (340M参数, 2018)
├── RoBERTa (125M参数, 2019): 去掉NSP,更多数据
├── ALBERT (12M参数, 2019): 参数共享,模型压缩
└── ELECTRA (33M参数, 2020): 判别式预训练,更高效
BERT的局限:
- Encoder-only架构,不适合生成任务
- 双向注意力无法用于自回归生成
- 模型规模上限(~1B参数)
4.3 GPT系列(2018-2023)
GPT(Generative Pre-trained Transformer)采用Decoder-only架构,专注于自回归生成。
GPT系列演进:
GPT-1 (2018):
- 117M参数
- 无监督预训练 + 有监督微调
- 证明"预训练+BPE"的有效性
GPT-2 (2019):
- 1.5B参数
- "Zero-shot"能力初现
- OpenAI担心滥用,最初只开源小版本
GPT-3 (2020):
- 175B参数
- In-Context Learning(少样本学习)
- 不需要微调,仅凭提示词就能做任务
- 规模定律的实证验证
GPT-3.5 (2022):
- 基于GPT-3,加入SFT和RLHF
- ChatGPT(2022.11)引爆全球AI热潮
- 首次展示"对话式AI助手"的可行性
GPT-4 (2023):
- 参数量未公开(估计~1.76T,MoE架构)
- 多模态(文本+图像输入)
- 推理能力大幅提升
- 各种考试接近或超越人类水平
GPT成功的关键:
1. Decoder-only架构
├── 自回归生成(适合对话、写作)
├── 架构简单(易于规模化)
└── 与Encoder-decoder相比,参数效率更高
2. 海量数据 + 规模化
├── GPT-3: 300B tokens
├── GPT-4: 估计10-15T tokens
└── 数据质量是关键(WebText → CommonCrawl清洗)
3. In-Context Learning
├── 不需要微调就能适应新任务
├── 通过提示词中的示例来"学习"
└── 这是大模型最核心的能力之一
4.4 LLaMA系列(2023-2024)
LLaMA(Large Language Model Meta AI)是Meta开源的模型系列,彻底改变了开源大模型生态。
LLaMA演进:
LLaMA-1 (2023.02):
- 7B, 13B, 33B, 65B 四个版本
- 训练数据:1.4T tokens(CommonCrawl + C4 + GitHub等)
- 架构改进:RMSNorm, SwiGLU, RoPE
- 开源(非商用),引爆开源社区
LLaMA-2 (2023.07):
- 7B, 13B, 70B 三个版本
- 训练数据:2T tokens
- 加入SFT和RLHF,发布Chat版本
- 开源(可商用),生态爆发
LLaMA-3 (2024.04):
- 8B, 70B, 405B(后续发布)三个版本
- 训练数据:15T tokens
- 分组查询注意力(GQA)
- 性能接近GPT-4(70B版本)
LLaMA-4 (2025?):
- 预计进一步提升多模态能力
- MoE架构可能成为主流
LLaMA的影响:
1. 开源生态爆发
├── Alpaca, Vicuna, Guanaco(基于LLaMA-1微调)
├── Chinese-LLaMA, ChatGLM(中文适配)
└── Hugging Face成为开源LLM的核心平台
2. 降低研究门槛
├── 7B版本可以在单张消费级GPU上运行
├── 研究者可以在LLaMA基础上进行实验
└── 催生了LoRA等参数高效微调技术
3. 打破垄断
├── 在LLaMA之前,最强国产模型不对外开源
├── LLaMA开源后,各国团队都能训练自己的LLM
└── 中国AI公司(智谱、阿里、百川等)快速跟进
4.5 其他重要模型
T5 (2019, Google):
- Text-to-Text Transfer Transformer
- 所有任务都转化为"文本→文本"格式
- 11B参数,Encoder-Decoder架构
BART (2019, Facebook):
- Bidirectional and Auto-Regressive Transformers
- 结合BERT的双向编码和GPT的自回归生成
- 适合文本生成任务(摘要、翻译)
GLM 系列 (2021-2024, 智谱AI):
- General Language Model
- 自回归空白填充(Autoregressive Blank Infilling)
- ChatGLM-6B:最早可本地运行的中文对话模型
Qwen 系列 (2023-2024, 阿里巴巴):
- 通义千问开源版本
- Qwen-72B性能接近LLaMA-2-70B
- Qwen-VL:多模态版本
DeepSeek 系列 (2023-2024, 深度求索):
- DeepSeek-LLM (67B)
- DeepSeek-Coder(代码专用)
- DeepSeek-V3(MoE架构,671B总参数,37B激活)
五、规模定律的实践指导
5.1 如何选择合适的模型规模?
决策树:
预算充足(> $1M)?
├── 是 → 训练/微调 70B+ 模型
└── 否 → 继续
需要部署到生产环境?
├── 是 → 7B-13B 模型(量化后可在消费级GPU运行)
└── 否 → 继续
只是研究/实验?
├── 是 → 1B-7B 模型(快速迭代)
└── 否 → 继续
数据量 < 1B tokens?
├── 是 → 不要用大模型(过拟合风险)
└── 否 → 可以用 7B-13B 模型
5.2 Chinchilla比率的应用
如何判断模型是否"训练充分"?
Chinchilla比率 = 训练数据量 / 参数量
理想值:~20(每个参数对应20个tokens)
举例:
- LLaMA-2-70B: 2T tokens / 70B params ≈ 28.6 ✅ 训练充分
- GPT-3: 300B tokens / 175B params ≈ 1.7 ❌ 训练不足
- Chinchilla-70B: 1.4T tokens / 70B params = 20 ✅ 最优
如果比率 < 20:
→ 继续训练(更多epoch或更多数据)
→ 或者减小模型规模
如果比率 >> 20:
→ 模型可能"欠拟合"(容量未充分利用)
→ 可以考虑增大模型规模
5.3 规模化训练的工程技术
如何训练百亿/千亿参数模型?
三大并行策略:
1. 数据并行(Data Parallelism)
├── 每GPU有完整模型副本
├── 数据分批处理
└── 梯度同步(All-Reduce)
2. 模型并行(Model Parallelism)
├── 张量并行(Tensor Parallelism):层内拆分
├── 流水线并行(Pipeline Parallelism):层间拆分
└── 适合超大规模模型(> 100B参数)
3. 专家并行(Expert Parallelism)
├── 专为MoE模型设计
├── 不同GPU承载不同专家
└── DeepSeek-V3的核心技术之一
混合精度训练:
FP16/BF16训练:
- 内存占用减半
- 计算速度提升(Tensor Core)
- 需要Loss Scaling防止下溢
BF16 vs FP16:
├── BF16:动态范围更大(适合训练)
├── FP16:精度更高(适合推理)
└── 现代GPU(A100/H100)优先用BF16
六、规模定律的未来
6.1 规模定律会一直成立吗?
乐观派(OpenAI等):
├── 目前还没看到性能饱和
├── GPT-5、GPT-6会继续增长
└── 数据不是问题(互联网每天都在增长)
悲观派(一些学者):
├── 数据会耗尽(2026-2030年?)
├── 合成数据质量不如真实数据
├── 收益递减(从10B→100B提升大,从1T→10T提升小)
└── 可能需要新架构(Transformer不是终点)
数据墙问题:
互联网文本总量估计:
- 高质量文本:~10T tokens
- 如果按Chinchilla比率,10T tokens最多能训练500B参数模型
- 但GPT-4估计有1.76T参数,已经"超标"
解决方案:
1. 合成数据(用强模型生成训练数据)
2. 多模态数据(图像、视频、音频)
3. 更高效的架构(MoE、线性注意力等)
6.2 下一代架构探索
Transformer的局限:
- 注意力机制O(n²)复杂度
- 长上下文成本高
- 训练成本高
挑战者架构:
1. Mamba(状态空间模型)
├── 线性复杂度O(n)
├── 推理时不需要KV Cache
└── 在长序列任务上表现出色
2. RWKV(Receptance Weighted Key Value)
├── 结合RNN和Transformer优点
├── 训练并行,推理高效
└── 适合边缘设备部署
3. RetNet(Retentive Network)
├── 华为诺亚实验室提出
├── 替代Softmax注意力
└── 线性复杂度和良好性能平衡
七、总结与展望
7.1 核心要点回顾
规模定律(Scaling Law):
1. 模型性能与参数量、数据量、计算量呈幂律关系
2. Kaplan定律(2020):参数量是主要因素
3. Chinchilla定律(2022):数据和参数同等重要,最优比例1:20
4. 规模定律还没看到上限,但数据墙问题日益严峻
模型演进历程:
1. BERT(2018):Encoder-only,双向编码,适合理解任务
2. GPT(2018-2023):Decoder-only,自回归生成,In-Context Learning
3. LLaMA(2023-):开源生态,民主化大模型研究
4. 未来:MoE架构、更高效的注意力机制、多模态融合
7.2 技术演进趋势
2020-2022: 规模至上
├── 越大越好
├── GPT-3, Gopher, Chinchilla
└── 重点:如何训练更大的模型
2023-2024: 效率与对齐
├── LLaMA开源,小模型崛起
├── RLHF/DPO对齐技术
└── 重点:如何让模型更有用、更安全
2025-2026: 多模态与Agent
├── GPT-4V, Gemini(多模态)
├── Function Calling, Tool Use(Agent能力)
└── 重点:如何让模型"做事"而不只是"说话"
7.3 下期预告
下一篇文章我们将深入探讨:
- 开源大模型生态:如何选择适合你的基座模型?
- LLaMA vs ChatGLM vs Qwen:技术对比与选择建议
- 本地部署指南:如何用消费级GPU运行70B模型?
参考资料
- Kaplan et al. "Scaling Laws for Neural Language Models" (OpenAI, 2020)
- Hoffmann et al. "Training Compute-Optimal Large Language Models" (Chinchilla, DeepMind, 2022)
- Brown et al. "Language Models are Few-Shot Learners" (GPT-3, OpenAI, 2020)
- Touvron et al. "LLaMA: Open and Efficient Foundation Language Models" (Meta, 2023)
- Devlin et al. "BERT: Pre-training of Deep Bidirectional Transformers" (Google, 2018)
- Wei et al. "Emergent Abilities of Large Language Models" (2022)
延伸讨论
思考题:
-
规模定律是否意味着"有钱就能做出最强模型"?小团队/个人研究者还有机会吗?
-
Chinchilla定律指出最优的数据-参数比例是1:20,但为什么GPT-3(比例1:1.7)依然表现出色?这是否说明规模定律还有未解之谜?
实践作业:
使用Hugging Face Transformers库,对比不同规模模型(如GPT-2 117M vs 1.5B)在相同任务上的性能差异,验证规模定律在小规模区间的有效性。
本文是《LLM技术全景:从Token到部署》系列第5篇。
下期预告:《开源大模型生态:如何选择适合你的基座模型?》