【知识】 LLM中的Scaling Laws是什么？

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~

[Scaling Laws 的定义及作用](#Scaling Laws 的定义及作用)

[Scaling Laws 的基本原理](#Scaling Laws 的基本原理)

[1. 模型性能对规模的幂律依赖](#1. 模型性能对规模的幂律依赖)

[2. 参数、数据、计算量的协同作用](#2. 参数、数据、计算量的协同作用)

[3. 边际效益递减和饱和点](#3. 边际效益递减和饱和点)

[4. 更大模型的样本效率](#4. 更大模型的样本效率)

Scaling Laws 的定义及作用

近年来，随着大语言模型（LLM）的参数规模和训练数据量呈指数级增长 ，研究者发现模型性能与规模之间存在可预测的扩展规律 （Scaling Laws）。所谓Scaling Law，指的是模型性能（如测试集上的损失或准确率）如何随着模型参数数量、训练数据量以及计算量的增加而变化的经验性定律。这一概念最初由OpenAI在2020年的开创性工作提出。掌握Scaling Laws有助于我们在训练LLM时进行模型大小、数据规模和算力投入之间的权衡，指导训练方案的设计。

总的来说，Scaling Laws 是研究模型性能如何随规模扩展（如参数、数据量、计算资源）变化的规律。简单来说，就是"模型越大、数据越多、算力越强，模型效果越好"的定量描述。Scaling Laws 描述了模型性能（通常以损失函数衡量）与以下三个关键因素之间的数学关系：

模型规模（参数数量）：神经网络的层数、宽度等。
训练数据量：用于训练的文本总量。
计算资源（FLOPs）：训练过程中消耗的计算量。

根据OpenAI 2020年的研究，这三者按幂律关系（Power Law） 共同影响模型表现：当三者同步增长时，损失函数以可预测的速度下降------但任何单一变量的过度增长都会遭遇瓶颈。

Scaling Laws 在实践中具有重要指导意义：

预测和规划模型训练： 通过在小规模模型上实验并拟合Scaling Law，研究者可以预测更大模型的性能 ，从而决定训练多大的模型、用多少数据，以高效利用有限的计算预算。例如，在构建"前沿"大模型时，通常会先确定可用的算力预算（如总共可执行多少FLOPs），再利用Scaling Law计算出理想的参数量和数据集大小。然后据此设计模型和准备数据，进行预训练直至耗尽既定算力为止。这种方法已成为业界训练数百亿甚至上千亿参数模型的基础流程。
优化资源分配： Scaling Law揭示了参数规模、数据规模与算力之间的最佳配比 。OpenAI的研究发现，在给定计算预算下，与其训练一个小模型用尽海量数据，不如训练一个更大的模型 但适度早停 更为高效。更大的模型对数据的样本效率更高------达到同等性能所需的训练步骤和数据更少。因此，在资源受限的情况下，通常应优先增加模型参数，而非一味增加训练轮数或数据量。这一指导原则直接影响了GPT-3等模型的训练策略：OpenAI据此大胆地构建了千亿级参数模型，并在训练未完全收敛时就停止，结果证明大型模型依然取得了优秀性能。
评估模型扩展性： 通过Scaling Law，可以评估模型性能是否达到了当前规模的饱和点。如果模型仍遵循预期的幂律提升，则意味着增加规模仍有益；反之，如果性能提升出现停滞或偏离幂律曲线，则提示可能需要调整策略（如改进模型架构或算法）而不仅仅是"堆料"扩展。

Scaling Laws 的基本原理

Scaling Laws的核心是：模型性能主要取决于参数量（N）、数据量（D）和计算量（C） 。在其他条件相近时，这三大要素的变化会引起模型性能以可预期的方式改变。

1. 模型性能对规模的幂律依赖

大量实证研究表明，当我们单独增加某一因素 （而其他因素不再成为瓶颈）时，模型的误差或损失会随该因素呈幂律型下降 。幂律关系 意味着：起初增加参数或数据会显著降低损失，但边际收益递减------随着规模继续扩大，性能提升的速度会逐渐变慢，曲线在对数-对数坐标系下表现为一条近似直线。

这一幂律趋势在超过七个数量级的参数和数据规模范围内都保持成立。例如，模型参数从10^7增加到10^{10}，或训练语料从十亿词增加到千亿词，损失都遵循类似的下降曲线。需要注意的是，幂律前的系数和指数（如 $\\alpha,\\beta$ ）取决于模型架构和数据分布：不同任务可能对应不同的指数，但整体趋势相似。

2. 参数、数据、计算量的协同作用

实际中，模型性能是参数、数据和计算的综合函数 。一项完整的Scaling Law模型由两个关系式构成：

计算量定义： $C = C_0 \\times N \\times D$ 。这里 $C$ 通常以训练FLOPs计，表示一次训练所耗的总算力； $C_0$ 是每个参数训练一个数据点所需的FLOPs常数（对于Transformer模型，经验值 $C_0 \\approx 6$ ）。该公式反映了直观事实：训练所需算力正比于参数规模和数据量的乘积。
性能关系： $L(N,D) = \\frac{A}{N\^{\\alpha}} + \\frac{B}{D\^{\\beta}} + L_{0}$ 。其中 $L_{0}$ 是理论上的不可减损失下界（数据和模型无限大时的极限误差）， $A$ 和 $B$ 衡量模型参数和数据不足带来的损失惩罚， $\\alpha$ 和 $\\beta$ 是对应的幂指数。通过拟合大量不同 $N,D$ 下模型的最终损失，可以确定这些参数。例如，Hoffmann等人（2022）的实验估计 $\\alpha \\approx 0.34,; \\beta \\approx 0.28$ ，这表明模型尺寸对损失的影响略强于数据量。把上述两式结合并固定总算力 $C$ ，可以推导出最优的 $N$ 和 $D$ 比例关系。

一个重要结论是：在给定的算力预算下，存在一个使损失最低的参数量和数据量组合。OpenAI和DeepMind分别给出了略有出入的策略：

OpenAI策略（2020）： 计算表明，为了充分利用额外的算力，模型参数应该比数据规模增长更快。具体而言，若将训练计算量提高10倍，OpenAI推算模型参数应增加约5.5倍，训练token数量增加约1.8倍 。也就是说，优化计算效率时倾向于优先扩展模型大小。这一观点反映在公式上就是最优参数量 $N_{\\text{opt}} \\propto C\^{0.73}$ ，最优数据量 $D_{\\text{opt}} \\propto C\^{0.27}$ 。正因如此，OpenAI在GPT-3等模型中选择了非常大的参数规模（1750亿）而没有成比例地提高训练语料规模（约5000亿tokens）。
DeepMind策略（2022）： Hoffmann等人提出模型大小和数据量应按相等比例扩展 的原则。他们通过训练70M到16B不等规模的400多个模型发现：若将模型参数加倍，最佳效果需要将训练token数也加倍 。这一"Chinchilla定律"意味着参数和数据应保持固定的比例 。实验估计对于Transformer语言模型，最佳比例大约是1:20 ，即训练语料的token数量约为模型参数量的20倍 。例如，对于一个70亿参数的模型，建议配套约1.4万亿token的数据进行训练。据此，他们训练了Chinchilla模型（70B参数，1.4T数据），在相同算力下大幅超越了参数更多但数据相对不足的模型（如Gopher 280B、GPT-3 175B等）。这一结果证明，在算力一定时，与其无限增大模型参数，不如平衡扩大数据量能获得更好的效果。

总之，Scaling Laws强调参数、数据和算力三者缺一不可：任何一个成为瓶颈，都会限制模型性能的提升。只有三者相互匹配并充分提升时，模型性能才能按预期的幂律持续提高。

3. 边际效益递减和饱和点

由于幂律增长的特性，大模型训练存在明显的边际效益递减 现象。当模型已经很大或数据已经很丰富时，再增加相同的数量，性能提升往往比初始阶段要小得多。例如，把模型从10亿扩展到20亿参数也许能显著降低损失，但从1000亿扩展到1010亿时，损失下降可能微乎其微。这意味着扩展不能无限带来线性收益，总有一个临界规模后收益趋于平缓 。在实践中，研究者会关注曲线何时开始偏离直线（在对数坐标下），作为性能接近饱和的信号。

此外，Scaling Law主要描述理想状态下 （模型训练充分、数据分布固定）的性能变化。在实际训练中，如果超过饱和点继续增加某一要素 ，可能出现过拟合或效率低下的问题。例如，在参数固定而不断增加训练数据的情况下，最终模型性能的提升会逐渐停滞，当数据量远超饱和点后，再增加数据几乎不再降低误差。此时，与其增加更多低信息量的数据，不如投入资源去增大模型或者提升数据质量。这个原则对于构建高效的数据集和决定训练停止点十分重要。

4. 更大模型的样本效率

一个颇具价值的发现是：大模型在样本效率上优于小模型 。也就是说，为了达到同样的误差水平，大模型所需的优化迭代步数和训练样本量通常少于小模型。这听起来悖谬（因为大模型参数更多），但Scaling Law的实验确实支持这一点：在给定算力下，与其训练小模型多个epoch，不如训练大模型较少epoch，可以更快逼近同等损失。正因如此，OpenAI等提出在固定预算内优先训练更大的模型并提前停止 ，而不是小模型训练到收敛。例如，GPT-3在训练中只经历了少量epoch（未充分训练至最低损失）就停止了，但是依靠庞大参数量，其性能依然超过了小模型长时间训练的效果。这一性质对实际部署也有好处：大模型微调和推理所需的样本和步骤更少，因而下游使用的成本也相对降低。

实例分析：不同规模LLM的扩展趋势

为了更直观地理解Scaling Laws，下面通过几个实例来看看不同规模LLM在计算消耗和性能上的扩展趋势：

案例1：GPT系列与Few-Shot能力

OpenAI的GPT系列模型很好地展示了性能随规模提升的规律。GPT-2时代（2019年），最大模型参数约15亿，在语言建模上已经相当出色。然而，当GPT-3将参数规模提升两个数量级达到1750亿时，模型不仅在传统语言建模测评上大幅超越GPT-2，更展现出了惊人的Few-Shot Learning 能力（即在没有额外微调的情况下，通过提示示例就能完成任务）。这种能力在小模型上几乎不存在，属于规模带来的新涌现能力 。实际上，GPT-3论文的作者推测许多NLP任务可以被视为语言模型的大规模"副产物"，只要模型足够大，就能在零样本/少样本设定下解决多种任务。这印证了Scaling Law中的一个现象：某些性能提升并非线性渐进，而是可能在跨过某个规模阈值后突然出现 。例如，在多步推理、代码生成等任务上，小模型表现接近随机，而一旦模型规模达到数百亿以上，准确率会"跳跃式"提高到远高于随机的水平。Wei等人将这些无法由小规模趋势线外推得到的突变现象称为"大模型的涌现能力"。他们统计了上百个例子，如算术推理、题目解释等，发现超过一定参数规模后模型才学会这些技能 。这提醒我们：尽管平均来看Scaling Law是单调的，但微观上某些能力的曲线是非连续的------这也是Scaling Laws研究需要考虑的复杂情形。

案例2：PaLM 8B vs 62B vs 540B

Google Brain在2022年发布的PaLM系列模型提供了另一个有说服力的案例。PaLM有三个规模：8亿、620亿和5400亿参数，训练数据和设置相同。测试显示，大多数基准任务（如问答、翻译）上，模型性能随着参数从8B增至62B、再到540B呈稳健的对数线性提升 ，符合幂律曲线。更有意思的是，在某些任务上，性能提升并不均匀 ：从8B到62B几乎没有长进，但从62B到540B却跃升了一个档次！换言之，某些能力只有在540B这样的超大模型上才涌现 。PaLM团队指出，这表明当前模型的规模尚未触及Scaling Law曲线的顶点，继续扩大规模很可能解锁新的能力 。同时，他们也强调整体来看540B相比62B的提升依然遵循幂律趋势，并未见明显饱和，说明当前参数规模远未到极限。这个案例综合展示了Scaling Law的两个方面：一方面，大范围看是平滑的性能增长，另一方面，特定任务上存在"质变"的临界点。对于研发者而言，这意味着评估模型需要综合考虑平均性能和特殊能力：平均性能可以通过Scaling Law预测，但特殊能力的出现往往要靠实际把模型做到足够大才能验证。

案例3：Chinchilla vs Gopher：小而精 vs 大而浅

前文提到DeepMind的Chinchilla（70B参数，1.4T tokens）在性能上全面超越 了自家早先的Gopher模型（280B参数，0.3T tokens）。这组对比非常直观地证明了**"并非参数越大越好，关键是匹配的数据量"。Gopher作为一个超大模型，由于训练语料相对不足，许多知识并未有效学到；而Chinchilla尽管参数减少了一半以上，却用4倍的数据进行了训练，因而在知识覆盖和任务泛化上更胜一筹。两者在下游任务上的表现此消彼长：Chinchilla在绝大多数NLP基准上得分更高，包括常用的MMLU知识问答基准上领先Gopher 7个百分点。这一案例体现了Scaling Law的另一面：如果扩展不均衡**（如只扩模型不增数据），那么模型可能处于"数据受限"区域，无法达到其参数规模应有的性能；反之，合理分配资源可以用较小的模型实现更优的效果。因此，在实践中人们越来越重视数据和参数的同步扩展 ，而不再盲目追求参数榜单上的领先。诸如OpenAI的GPT-4，据推测采用了比GPT-3更多的训练数据来配合其增长的参数量，从而取得远超前代的能力（尽管具体细节未公布）。总的来说，Chinchilla案例告诉我们：大模型训练是一门"平衡的艺术"，只有参数和数据的扩展同步且充分，才能真正沿着Scaling Law持续提升性能。

案例4：中国大模型的探索

在国内，大模型社区也开始利用Scaling Laws指导模型研发。例如，清华大学的GLM团队和智谱AI在开发"悟道"系列模型时，就参考了OpenAI的Scaling Law结论，在算力固定的条件下优先提升模型参数到百亿级，然后适当增加训练数据。百川智能在升级Baichuan-2时采取了前述"小模型拟合曲线"的方法，以减少训练试错成本。同样地，北京智源研究院训练"悟道2.0"百亿模型时，也投入了超大规模中英文本语料以匹配其参数量。据报道，这些实践使得国内模型在相对有限的算力下仍取得了接近GPT-3水平的性能。虽然具体数据未详，但利用Scaling Law规划模型已成为业界共识。另外，一些开源社区也通过训练参数不同的家族模型（如MOSS系列、BELLE系列）来验证Scaling Law：结果普遍显示，模型在从小变大的过程中，其语言理解和生成能力稳步提升，但在某些高难度任务上只有最大的模型才能过及格线。这与前面提到的涌现能力观点一致，也进一步印证了Scaling Law在不同语言、不同行业数据上的适用性。

综上，真实案例一方面印证了Scaling Laws的预测威力，另一方面也揭示了扩展过程中的一些非线性现象。总体而言，无论是OpenAI、DeepMind还是业界其它团队的经验都表明：遵循扩展规律进行模型和数据的同轨扩张，可以最大化地发挥算力价值 ；而随着模型逼近更高水平，我们也应期待会有新的能力拐点出现。

未来展望与挑战

尽管Scaling Laws为大模型发展指明了方向，但未来仍存在诸多挑战和不确定性：

1. 算力与成本瓶颈： 按照当前的Scaling Laws，要显著提升模型性能往往意味着参数再扩大10倍、数据增加同量级，所需的训练算力和成本是巨大的。比如GPT-3的训练耗费已经非常高昂，要训练比它大10倍的模型（假设遵循OpenAI的0.73指数规则）则可能超出一般组织的承受范围。如何在算力受限 的情况下逼近Scaling Laws的性能上限，是未来的重要课题。这方面的探索包括：更高效的模型架构（如稀疏MoE专家模型，让部分参数在推理中激活，从而"扩参不增算"）、更高效的训练算法（如自适应优化器、更短的训练收敛时间）、以及利用现有大模型进行二次蒸馏等。这些技术有望在不线性增加算力的情况下获得相当于更大模型的性能，从而在一定程度上缓解扩展规律带来的算力压力。

2. 数据极限与质量： 随着模型对数据需求的激增，一个现实问题是高质量的大规模语料并非无限供应。互联网文本、代码等语料总量是有限的，而且爬取的数据中混杂着冗余和噪声。未来训练更大的LLM可能数据受限 而无法单纯靠增加爬取来扩展。在这种情况下，保持Scaling Law有效可能需要：提升数据质量（过滤低质量内容，提高信息密度），利用数据增强 或生成数据 （让模型自己产生新样本进行自训练），或者拓展新的领域数据（如多语言、多模态融合，引入更多元的信息）。此外，如何定义"有效数据量"也是挑战------经过去重和清洗后，有用的信息量可能远小于原始数据量，重复出现的内容对模型提升有限。因此，有研究提出"数据混合定律"或"数据筛选定律"来补充Scaling Laws，在考虑数据多样性和重复性的情况下重新估计模型性能的扩展走势。总之，数据将成为比算力更早的瓶颈 ，未来大模型的竞争或将转向高质量数据的获取与高效利用。

3. 新能力与不可预测性： 正如前文讨论的涌现能力，随着模型变得极其复杂，我们可能面临模型行为的不可预测性 增加的问题。一方面，Scaling Law让我们相信性能会稳步提升，但另一方面，当模型跨过某些规模阈值时，可能会出现全新的行为和能力，包括潜在的风险。例如，一个模型可能在更大规模上突然具备了训练中未现的推理能力，同时也可能学会了不安全的知识或产生难以控制的输出。这对AI安全提出了挑战。未来我们需要在扩展模型时，加强对模型行为的监测 和可解释性 研究，发展理论去预判某些能力何时会出现 。Wei等人的工作表明，小模型外推无法预测大模型的新能力，因此或许需要结合Scaling Laws和复杂系统理论，去识别那些潜伏的"质变点"。这也是Scaling Laws研究未来的一个方向：不仅描述平均性能曲线，还要能刻画能力空间的变化。

4. 多维度扩展： 以往谈论Scaling，主要指参数、数据和算力三个维度。但未来的大模型可能在更多维度 上扩展：例如上下文长度 （Prompt长度）也是关键因素，最近的研究把Transformer上下文扩展到数十万token，这也相当于一种"规模"提升；又如多模态 模型引入图像、音频、视频等新输入形式，如何定义和衡量其Scaling Laws尚不明确。此外，量子计算、类脑芯片等新型计算范式出现后，模型的扩展路径可能改变。未来的Scaling Law可能需要扩展到新的架构和硬件，例如推理时的并行规模、模块化网络的专家数目等等。目前已有工作在探索"路由Transformer"（稀疏激活模型）的扩展定律，发现其参数有效利用率与密集模型有所不同。这提示我们，Scaling Laws并非一成不变，需要针对新形态的大模型不断更新和丰富。

5. 可持续性与效率： 最后，不容忽视的是大模型扩展带来的能源和环境成本 。训练一个千亿级参数模型的碳排放量相当可观，如果照此趋势发展，AI行业的环境影响将越来越大。这就要求我们在追求Scaling Laws极限的同时，更加注重模型效率。未来的研究可能会聚焦于：通过剪枝、量化等技术压缩模型而不损失性能，从而"穷尽"Scaling Law后再将模型紧凑化；或者开发新算法，使得模型在小规模时就能模拟大模型的部分能力（例如通过外部知识检索、Memory机制等）。OpenAI首席科学家曾指出，也许我们距离AGI只差再训练几千个模型的量级。然而，这几千次训练若按照当前代价进行，是难以承受的。因而，实现可持续的规模扩展是未来的一大挑战，也是推动算法创新的动力。

结语： 大语言模型的Scaling Laws让我们看到了"更大更强"的清晰路径。从参数百万到千亿，模型能力的飞跃印证了Scaling Laws的威力，也催生了一系列新的问题与机遇。在展望未来时，我们既要谨慎对待规模扩张的瓶颈和风险，又应保持乐观------正如Scaling Laws本身所揭示的，在不断攀登算力与数据高峰的过程中，AI模型将持续接近人类智能的边界，甚至出现令人惊喜的新能力。可以预见，扩展规律仍将是指导我们迈向更高级AI系统的重要指南，而破解其中的奥秘，也将为实现真正的通用人工智能（AGI）奠定坚实的基础。

扩展学习资料：