谷歌重磅推出全新 Scaling Law，抢救 Transformer！3 万亿美元 AI 面临岔路

【新智元导读】谷歌团队发现了全新 Scaling Law！新方法 DiLoCo 被证明更好、更快、更强，可在多个数据中心训练越来越大的 LLM。

测试时计算之后，谷歌三大团队集众人之力，发现了全新的 Scaling Law！

刚刚，谷歌研究员 Zachary Charles 宣布：「在越来越大的模型上，分布式训练取得重大突破」。

这个核心算法，便是------DiLoCo 的 Scaling Law。

新的训练方法无惧模型规模，未来，在「多个数据中心」训练大模型的规模不再是问题。

论文得出四大发现，DiLoCo 训练方法的 Scaling law，效果远超「数据并行」：

更稳健（Harder） ：在不同模型规模下，DiLoCo 的超参数依然保持稳定且可预测。

更优越（Better） ：随着模型规模扩大，DiLoCo 相较于数据并行训练的优势进一步提升。

更高效（Faster） ：DiLoCo 所需的带宽比数据并行训练少几个数量级。

更强大（Stronger） ：DiLoCo 能够容忍比数据并行训练大得多的批大小。

值得一提的是，这篇巨作集结了谷歌三大团队：谷歌 Research、谷歌 Search、谷歌 DeepMind。

论文地址：arxiv.org/pdf/2503.09...

在固定计算预算下，研究人员探讨了 DiLoCo 在训练大模型时的 Scaling law。

论文中，重点分析了算法因素（如模型副本数量、超参数设置、token 预算）如何影响训练过程，并证明这些影响可通过 Scaling law 准确预测。

结果表明，DiLoCo 在模型规模增长时，表现出稳定且可预测的扩展性。论文合著者 Arthur Douillard 再次强调：DiLoCo 生效了！

智能的未来将是分布式的，而 DiLoCo 可能正是那个关键的要素

在合理调优的情况下，DiLoCo 比数据并行训练更具扩展优势，即使在小规模模型上也可能优于数据并行训练。

这些发现，揭示了 DiLoCo 的强大优势：不仅解决了通信瓶颈，还为大规模模型训练开辟了全新的可能。

有网友惊叹地表示，「DiLoCo 可能会重新定义 LLM Scaling 的方式！更少的带宽需求，更高的效率」。

「数据并行」训练终结？

数据并行训练在大模型上表现出色，前提是在计算资源集中分散的情况下，才能实现。

如果计算分布较广，通信就可能成为巨大的瓶颈，尤其是当模型规模增长时，问题会更加严重！

机器学习采用的解决方案，例如在联邦学习和数据中心训练中，就是让多个独立模型进行训练，并定期同步。

随着机器学习模型规模的扩大，数据并行方法固有的频繁同步需求会导致显著的性能下降，这对进一步扩展模型构成了关键挑战。

那么，如何在保持模型质量的同时，降低同步需求，以突破这一瓶颈呢？

答案或许就在，DiLoCo（Distributed Low-Communication）这一创新方法中。

论文链接：arxiv.org/abs/2311.08...

每个 DiLoCo 模型副本都会独立训练 H 个内部优化（inner optimization）步骤。

这些模型通过外部优化（outer optimization）步骤进行同步，通常在外部优化步骤之间引入动量机制。

在下图中，示例中共有 M=4 个模型副本。

DiLoCo 的成功已经被反复验证。它的运作方式与联邦学习的 FedOpt 方法类似。

此外，研究人员也多次证明 DiLoCo 在大模型（LLM）训练中的卓越表现。

那么 DiLoCo 有什么问题？简单来说------规模。

DiLoCo 与数据并行训练不同，它引入了额外的「外部」超参数，并且实际上的表现和理论上明显不同。

这正是研究 scaling laws 的目的！

这次研究从零开始构建了 DiLoCo 和数据并行训练的 Scaling law，用于预测它们在大规模模型上的表现对比。

在数据并行训练中，每个训练步长都会处理一个大小为 B 的数据批。

在本研究中，批大小指的是批中的 token 数量（而不是序列数量）。

计算批梯度，并使用学习率γ进行优化。

在 DiLoCo 训练过程中，每个时间步 t 处理一个全局批大小为 B 的数据，并在序列级别将其均匀分配到 M 个 DiLoCo 副本中。

因此，全局批大小仍然是 B，而每个 DiLoCo 副本的本地批大小为 B/M。与数据并行训练类似，每个副本都会计算批梯度，并使用学习率γ执行一次内部优化（inner optimization）。

但与数据并行不同的是，DiLoCo 每 H 步会执行一次「外部优化」（outer optimization），基于参数空间计算的外部梯度（outer-gradients），并使用学习率η进行更新。

一个重要的对比是数据并行 vs.DiLoCo（M=1）。

虽然它们相似，但并不完全相同。

DiLoCo 在 M=1 的情况下，仍然包含一个外部优化器（OuterOpt）步骤，因此它可以被视为 Lookahead 优化器的变体。

而在 DiLoCo 中，OuterOpt 通常使用带有 Nesterov 动量的 GD，这意味着 DiLoCo（M=1）实际上是数据并行训练的一个变体，但动量操作仅每 H 步执行一次。

还进行了大量实验，涵盖训练过程的各个方面，全面分析了它们的扩展行为。

实验方法

大部分实验里，研究团队使用 C4 数据集的训练集来训练模型，评估指标用 C4 的验证集。

另外，还在三个下游任务上算了零样本评估指标：HellaSwag、Piqa 和 Arc-Easy。

模型架构：Chinchilla 变体

研究团队用的是一个类似「Chinchilla」的纯解码器 Transformer 架构，加入了 QK-LayerNorm，还使用了 z-loss 正则化来让训练更稳定。

他们把多个序列打包到每个批里，最大序列长度全程固定为 2,048。

所有模型都是从零开始训练的，因为这次主要想研究预训练阶段的规模规律。

研究团队训练了一堆模型，调整了 Transformer 层数、注意力头的数量、QKV 维度和前馈层的隐藏维度。

除非特别说明，他们都用 Chinchilla 的 token 预算，并且对除了最大的两个模型（4B 和 10B 参数）外，其他模型都做了大量的超参数调整。

算法和优化器

研究团队用 AdamW 作为数据并行（Data-Parallel）的优化器，也是 DiLoCo 的内层优化器。两个算法的β1 设为 0.9，β2 设为 0.99。

训练开始有 1000 步的预热，然后用余弦学习率衰减。权重衰减参数λ设为 T⁻¹，其中 T 是总训练步数（取决于批大小和 token 预算）。到训练结束时，学习率衰减到峰值的 5%。

为了训练稳定，他们把（内层）梯度的全局ℓ2 范数剪裁到 1，外层梯度不剪裁。

对于 DiLoCo，他们用带 Nesterov 动量的 SGD 作为外层优化器。动量设为 0.9，外层学习率保持不变。

从 0 构建，全新 Scaling Law 已来

发现 1：规模

DiLoCo 的评估损失随着 N 的增加，相对于数据并行（Data-Parallel）有所改善。

Scaling law 预测，当 M=2 时，DiLoCo 在参数达到几十亿以上时，损失会比数据并行更低。这一现象在研究调优的最大模型以及 4B 和 10B 模型的训练中都得到了验证。

下图 2 展示了 DiLoCo 和 Data-Parallel 两种算法在不同模型规模（N）下的表现对比。

图 (a) 显示，随着模型规模从 2^25 到 2^31 逐渐增大，DiLoCo（分别在 M=1、2、4、8 时）和 Data-Parallel 的评估损失（EvalLoss）都在下降，但 DiLoCo 的损失下降得更明显，尤其是在 M 值较大时。

图 (b) 进一步展示了 DiLoCo 相对于 Data-Parallel 的评估损失的百分比差异，可以看出，随着模型规模增加，DiLoCo 的损失比 Data-Parallel 低得越来越多，说明 DiLoCo 在模型规模扩大时表现更优越。

这个发现有两个独立但相关的部分：

DiLoCo(M=1) 表现更好：就像上面提到的，DiLoCo 在 M=1 时，所有模型规模的评估损失都比 Data-Parallel 低。而且随着模型参数规模 N 增加，Data-Parallel 和 DiLoCo(M=1) 之间的差距越来越大。
DiLoCo(M≥2) 的表现：在大多数模型规模下，DiLoCo 在 M≥2 时评估损失会更高。不过，如果看 DiLoCo 和 Data-Parallel 之间的百分比差异（带正负号），会发现随着 N 增大，DiLoCo 相对 Data-Parallel 的表现越来越好，甚至在 M=2、N=2.4 亿参数时超过了 Data-Parallel。

比如，研究团队在下表 4 中列出了 Data-Parallel 和 DiLoCo 在不同模型规模 N 下的评估损失。

可以看出，不管 M 是多少，百分比差异都随着 N 增加严格减小。

这个趋势在图 2 中也有展示：随着 N 增加，DiLoCo 的相对评估损失逐渐降低。

研究团队还通过用缩放法则调好的超参数，训练了 40 亿和 100 亿参数的模型来验证这一点。

虽然图 2 显示的是「插值」范围的结果（基于大量实验扫描），但这些发现也可以推广到外推状态，能在 M=1 或 2 时用 DiLoCo 训练出评估损失更低的 40 亿和 100 亿参数模型。

下表 5 展示了用外推超参数训练的结果，展示了在较大规模的 4B 和 10B 模型上，DiLoCo 和 Data-Parallel 算法的评估损失对比，表明 DiLoCo 在更大规模下整体表现出色。

发现 2：单副本 DiLoCo

当副本数 M=1 时，DiLoCo 在不同模型规模下获得的评估损失都比 Data-Parallel 低。

下图 3 展示了当副本数 M=1 时，DiLoCo 与 Data-Parallel 在不同模型规模（35M、550M、1.3B、2.4B）和全局批大小（以 token 计，从 2^16 到 2^20）下的评估损失和 HellaSwag 零样本准确率对比。

图 (a) 显示 DiLoCo 的评估损失始终低于 Data-Parallel，且差距随着批大小增加而扩大；图 (b) 表明 DiLoCo 在 HellaSwag 零样本准确率上也优于 Data-Parallel，趋势相似。

在几乎所有情况下，在 M=1 时，DiLoCo 不仅评估损失更低，下游任务的零样本准确率也比 Data-Parallel 高。

而且，DiLoCo(M=1) 的表现对批大小（batch size）的稳定性更强：把批大小翻倍或翻四倍，对 Data-Parallel 的性能影响很大，但对 DiLoCo(M=1) 几乎没啥影响，图 3 里画得很清楚。

发现 3：批大小对性能的影响

DiLoCo 提高了最佳批大小，而且最佳全局批大小随着副本数 M 的增加而变大。这意味着 DiLoCo 相比 Data-Parallel 改善了横向扩展能力。

虽然 DiLoCo 在批大小 M>1 时，挑选所有超参数中最好的实验结果，评估损失往往略逊一筹，但它在批大小方面的表现显著提升。

Data-Parallel 和 DiLoCo(M=1) 在小批时表现都不错，但随着批大小增加，Data-Parallel 的性能下降很快。

相比之下，不管批大小 M 是多少，DiLoCo 的表现对批大小都稳定得多。

下图 4 展示了评估损失的例子，结果表明，对于所有 M 值，DiLoCo 的最佳批大小都比 Data-Parallel 更大，且随着 M 的增加，DiLoCo 的最佳批大小进一步增大。

例如，在 550M 模型中，Data-Parallel 的评估损失在批大小较小时最低，而 DiLoCo 在批大小更大时表现更优，类似趋势在 1.3B 和 2.4B 模型中也成立。

下图 5 展示了在 HellaSwag 数据集上的零样本准确率。结果显示即使在较小的模型规模下，DiLoCo 在 M=2 时也能在更大的全局批大小下实现更高的准确率。

例如在 550M 模型中，DiLoCo 的准确率曲线在批大小增加时优于 Data-Parallel；1.3B 和 2.4B 模型也表现出类似趋势。

发现 4：外部学习率

最佳外部学习率基本上与模型规模 N 无关，但会随着副本数 M 的变化而变化。

一个重要结果是，DiLoCo 在水平扩展上更自然。在所有情况下，token 预算 D，只跟模型规模 N 有关。这意味着如果用 4 倍大的批大小，训练步数会减少到 1/4。

对 DiLoCo 来说，这依然能保持不错的性能，还能一次性用更多资源，缩短总训练时间。而 Data-Parallel 似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。

下图 6 展示了理想的训练时间（wall-clock time），模拟不同网络带宽下的情况。

可以看到，DiLoCo 对较大批大小的容忍度使其能够显著更快地实现与 Data-Parallel 相当的性能损失，而且在低带宽设置中这种效果更为明显。

发现 5：外部学习率

如下图 7 所示，对于足够大的模型（N≥3.35 亿参数），每个 M 的最佳η是固定的。M 越大，η似乎也越大。这跟之前联邦学习的研究一致：外层学习率应该随着客户端数量增加而增加。

实际上，外部学习率仅取决于 DiLoCo 模型的数量以及同步的频率。

也就是说，虽然最优的内层学习率会随模型规模 N 变化，但 DiLoCo 的最优外层学习率η不依赖 N，只跟 M 有关。

DiLoCo 同样有助于解决过度训练的问题！

过度训练可能会相当昂贵，但是增加了批大小并减少了通信量意味着，通常可以在相同的时间内用 DiLoCo 进行 4 倍的过度训练（OT），而使用数据并行训练只能进行 1 倍的过度训练。

论文中还有更多内容。其中包括 Scaling law 本身，以及甚至提供了预测最优超参数的方法。

Scaling law 表明，对于参数超过 20 亿的模型，使用 2 个模型的 DiLoCo 优于数据并行方法

更多实验细节和内容，请参阅原文。

Chinchilla 将死？AI 3 万亿美元的岔路

DiLoCo 使得调整超参数和训练模型变得更加简单。但问题在于，AI 模型本身「换汤不换药」------还是 Chinchilla 那一套。

毕竟，过去的预训练 Scaling Law 已进入尾声，而新的 AI Scaling Law 与训练无关。

如今，随着新型「推理模型」的兴起，一个问题浮出水面：如果 Chinchilla 死了，AI 未来会怎样？

大约 5 年前，OpenAI 研究员发现，将更多的算力、数据投入到大规模训练中，可以显著提升 AI 模型的性能。

几年后，谷歌研究人员更进一步，通过构建名为「Chinchilla」的模型证明，增加数据量能带来更好的效果。

这种「计算 + 数据」的组合催生了如今的巨型模型，比如 GPT-4。

论文地址：arxiv.org/pdf/2203.15...

然而，这种策略的成功依赖于巨大的前期投入。

海量数据被塞进复杂且耗能的预训练过程，科技大厂疯狂建造数据中心，塞满了英伟达 GPU。

但问题来了：这种砸钱砸数据的模式，还能走多远？

巴克莱资本的顶级分析师 Ross Sandler 指出，未来可能面临两种截然不同的情景：

一是，「Chinchilla」继续主导，巨额算力和数据投入持续攀升；

二是，「停滞」替代方案，新型技术和模型以更少的资源实现更强性能。

这两种路径的资本支出差距高达 3 万亿美元以上，足以影响整个行业的走向。

「推理模型」崛起

推动这一潜在变革的，是「推理模型」的兴起。

OpenAI 的 o1、o3、DeepSeek R1、谷歌 Gemini 2.0 Flash Thinking 等新模型，采用了一种名为「测试时计算」（test-time compute）的技术。

这种方法将复杂查询分解为小任务，逐一处理，不再依赖长时间的预训练。

相较于传统模型，推理模型可能响应稍慢，但它们输出更准确，运行成本也更低。

更重要的是，它们摆脱了对大规模预训练的依赖。

DeepSeek R1 甚至展示了一种可能：开源推理模型能在短时间内实现性能飞跃。

这意味着，AI 公司可能不再需要花费 18-24 个月和巨资去打造下一个「巨无霸」模型。

此外，混合专家模型（MoE）也成为被广泛采用的技术，通过训练多个小型「专家」模型，让它们与大模型协同工作，只在需要时调用部分算力。

这种方式，一步降低了基础设施需求。

Chinchilla 何去何从？

过去五年，Chinchilla 策略推动了 AI 供应链的繁荣，许多公司股价因此飙升。

但如今，它的可持续性正受到质疑。

巴克莱分析师指出，「随着投入成本激增，比如一次预训练耗资 100 亿美元，性能增益却可能越来越小，这种模式的性价比正在下降」。

更严峻的是，训练数据可能正在枯竭。

高质量数据的供应有限，而 AI 对数据的「胃口」却越来越大。如果没有足够的「食物」，Chinchilla 还能活多久？

甚至，业内一些大佬预测，像 OpenAI 这样的公司，可能会在 GPT-5 之后停止无休止的规模 Scaling。

面对数据枯竭，AI 行业将希望寄托于「合成数据」。研究者认为，这种「自给自足」的反馈循环能让模型不断自我进化，推动技术迈向新高度。

Chinchilla 们本质上可以通过「自我喂养」来生存。

「如果 AI 行业在合成数据和递归自我改进方面取得突破，那么我们将重新走上 Chinchilla scaling 路径，计算需求将继续迅速上升」。

Chinchilla 死了吗？这个问题，AI 市场会给出最终答案。

如果推理模型、MoE 技术成熟，AI 可能走向轻量化，高效率的未来，数万亿美金的基础设施投资，或许不再必要。

但，如果「合成数据」让 Chinchilla 重焕生机，算力竞赛将卷土重来。

无论哪种未来到来，AI 的演进都在重塑整个世界。

参考资料：

arxiv.org/pdf/2503.09...

x.com/MatharyChar...