谷歌重磅推出全新 Scaling Law,抢救 Transformer!3 万亿美元 AI 面临岔路

【新智元导读】谷歌团队发现了全新 Scaling Law!新方法 DiLoCo 被证明更好、更快、更强,可在多个数据中心训练越来越大的 LLM。

测试时计算之后,谷歌三大团队集众人之力,发现了全新的 Scaling Law!

刚刚,谷歌研究员 Zachary Charles 宣布:「在越来越大的模型上,分布式训练取得重大突破」。

这个核心算法,便是------DiLoCo 的 Scaling Law。

新的训练方法无惧模型规模,未来,在「多个数据中心」训练大模型的规模不再是问题。

论文得出四大发现,DiLoCo 训练方法的 Scaling law,效果远超「数据并行」:

更稳健(Harder) :在不同模型规模下,DiLoCo 的超参数依然保持稳定且可预测。

更优越(Better) :随着模型规模扩大,DiLoCo 相较于数据并行训练的优势进一步提升。

更高效(Faster) :DiLoCo 所需的带宽比数据并行训练少几个数量级。

更强大(Stronger) :DiLoCo 能够容忍比数据并行训练大得多的批大小。

值得一提的是,这篇巨作集结了谷歌三大团队:谷歌 Research、谷歌 Search、谷歌 DeepMind。

论文地址:arxiv.org/pdf/2503.09...

在固定计算预算下,研究人员探讨了 DiLoCo 在训练大模型时的 Scaling law。

论文中,重点分析了算法因素(如模型副本数量、超参数设置、token 预算)如何影响训练过程,并证明这些影响可通过 Scaling law 准确预测。

结果表明,DiLoCo 在模型规模增长时,表现出稳定且可预测的扩展性。论文合著者 Arthur Douillard 再次强调:DiLoCo 生效了!

智能的未来将是分布式的,而 DiLoCo 可能正是那个关键的要素

在合理调优的情况下,DiLoCo 比数据并行训练更具扩展优势,即使在小规模模型上也可能优于数据并行训练。

这些发现,揭示了 DiLoCo 的强大优势:不仅解决了通信瓶颈,还为大规模模型训练开辟了全新的可能。

有网友惊叹地表示,「DiLoCo 可能会重新定义 LLM Scaling 的方式!更少的带宽需求,更高的效率」。

「数据并行」训练终结?

数据并行训练在大模型上表现出色,前提是在计算资源集中分散的情况下,才能实现。

如果计算分布较广,通信就可能成为巨大的瓶颈,尤其是当模型规模增长时,问题会更加严重!

机器学习采用的解决方案,例如在联邦学习和数据中心训练中,就是让多个独立模型进行训练,并定期同步。

随着机器学习模型规模的扩大,数据并行方法固有的频繁同步需求会导致显著的性能下降,这对进一步扩展模型构成了关键挑战。

那么,如何在保持模型质量的同时,降低同步需求,以突破这一瓶颈呢?

答案或许就在,DiLoCo(Distributed Low-Communication)这一创新方法中。

论文链接:arxiv.org/abs/2311.08...

每个 DiLoCo 模型副本都会独立训练 H 个内部优化(inner optimization)步骤。

这些模型通过外部优化(outer optimization)步骤进行同步,通常在外部优化步骤之间引入动量机制。

在下图中,示例中共有 M=4 个模型副本。

DiLoCo 的成功已经被反复验证。它的运作方式与联邦学习的 FedOpt 方法类似。

此外,研究人员也多次证明 DiLoCo 在大模型(LLM)训练中的卓越表现。

那么 DiLoCo 有什么问题?简单来说------规模

DiLoCo 与数据并行训练不同,它引入了额外的「外部」超参数,并且实际上的表现和理论上明显不同。

这正是研究 scaling laws 的目的!

这次研究从零开始构建了 DiLoCo 和数据并行训练的 Scaling law,用于预测它们在大规模模型上的表现对比。

在数据并行训练中,每个训练步长都会处理一个大小为 B 的数据批。

在本研究中,批大小指的是批中的 token 数量(而不是序列数量)。

计算批梯度,并使用学习率γ进行优化。

在 DiLoCo 训练过程中,每个时间步 t 处理一个全局批大小为 B 的数据,并在序列级别将其均匀分配到 M 个 DiLoCo 副本中。

因此,全局批大小仍然是 B,而每个 DiLoCo 副本的本地批大小为 B/M。与数据并行训练类似,每个副本都会计算批梯度,并使用学习率γ执行一次内部优化(inner optimization)。

但与数据并行不同的是,DiLoCo 每 H 步会执行一次「外部优化」(outer optimization),基于参数空间计算的外部梯度(outer-gradients),并使用学习率η进行更新。

一个重要的对比是数据并行 vs.DiLoCo(M=1)。

虽然它们相似,但并不完全相同。

DiLoCo 在 M=1 的情况下,仍然包含一个外部优化器(OuterOpt)步骤,因此它可以被视为 Lookahead 优化器的变体。

而在 DiLoCo 中,OuterOpt 通常使用带有 Nesterov 动量的 GD,这意味着 DiLoCo(M=1)实际上是数据并行训练的一个变体,但动量操作仅每 H 步执行一次。

还进行了大量实验,涵盖训练过程的各个方面,全面分析了它们的扩展行为。

实验方法

大部分实验里,研究团队使用 C4 数据集的训练集来训练模型,评估指标用 C4 的验证集。

另外,还在三个下游任务上算了零样本评估指标:HellaSwag、Piqa 和 Arc-Easy。

模型架构:Chinchilla 变体

研究团队用的是一个类似「Chinchilla」的纯解码器 Transformer 架构,加入了 QK-LayerNorm,还使用了 z-loss 正则化来让训练更稳定。

他们把多个序列打包到每个批里,最大序列长度全程固定为 2,048。

所有模型都是从零开始训练的,因为这次主要想研究预训练阶段的规模规律。

研究团队训练了一堆模型,调整了 Transformer 层数、注意力头的数量、QKV 维度和前馈层的隐藏维度。

除非特别说明,他们都用 Chinchilla 的 token 预算,并且对除了最大的两个模型(4B 和 10B 参数)外,其他模型都做了大量的超参数调整。

算法和优化器

研究团队用 AdamW 作为数据并行(Data-Parallel)的优化器,也是 DiLoCo 的内层优化器。两个算法的β1 设为 0.9,β2 设为 0.99。

训练开始有 1000 步的预热,然后用余弦学习率衰减。权重衰减参数λ设为 T⁻¹,其中 T 是总训练步数(取决于批大小和 token 预算)。到训练结束时,学习率衰减到峰值的 5%。

为了训练稳定,他们把(内层)梯度的全局ℓ2 范数剪裁到 1,外层梯度不剪裁。

对于 DiLoCo,他们用带 Nesterov 动量的 SGD 作为外层优化器。动量设为 0.9,外层学习率保持不变。

从 0 构建,全新 Scaling Law 已来

发现 1:规模

DiLoCo 的评估损失随着 N 的增加,相对于数据并行(Data-Parallel)有所改善。

Scaling law 预测,当 M=2 时,DiLoCo 在参数达到几十亿以上时,损失会比数据并行更低。这一现象在研究调优的最大模型以及 4B 和 10B 模型的训练中都得到了验证。

下图 2 展示了 DiLoCo 和 Data-Parallel 两种算法在不同模型规模(N)下的表现对比。

图 (a) 显示,随着模型规模从 2^25 到 2^31 逐渐增大,DiLoCo(分别在 M=1、2、4、8 时)和 Data-Parallel 的评估损失(EvalLoss)都在下降,但 DiLoCo 的损失下降得更明显,尤其是在 M 值较大时。

图 (b) 进一步展示了 DiLoCo 相对于 Data-Parallel 的评估损失的百分比差异,可以看出,随着模型规模增加,DiLoCo 的损失比 Data-Parallel 低得越来越多,说明 DiLoCo 在模型规模扩大时表现更优越。

这个发现有两个独立但相关的部分:

  1. DiLoCo(M=1) 表现更好:就像上面提到的,DiLoCo 在 M=1 时,所有模型规模的评估损失都比 Data-Parallel 低。而且随着模型参数规模 N 增加,Data-Parallel 和 DiLoCo(M=1) 之间的差距越来越大。
  2. DiLoCo(M≥2) 的表现:在大多数模型规模下,DiLoCo 在 M≥2 时评估损失会更高。不过,如果看 DiLoCo 和 Data-Parallel 之间的百分比差异(带正负号),会发现随着 N 增大,DiLoCo 相对 Data-Parallel 的表现越来越好,甚至在 M=2、N=2.4 亿参数时超过了 Data-Parallel。

比如,研究团队在下表 4 中列出了 Data-Parallel 和 DiLoCo 在不同模型规模 N 下的评估损失。

可以看出,不管 M 是多少,百分比差异都随着 N 增加严格减小。

这个趋势在图 2 中也有展示:随着 N 增加,DiLoCo 的相对评估损失逐渐降低。

研究团队还通过用缩放法则调好的超参数,训练了 40 亿和 100 亿参数的模型来验证这一点。

虽然图 2 显示的是「插值」范围的结果(基于大量实验扫描),但这些发现也可以推广到外推状态,能在 M=1 或 2 时用 DiLoCo 训练出评估损失更低的 40 亿和 100 亿参数模型。

下表 5 展示了用外推超参数训练的结果,展示了在较大规模的 4B 和 10B 模型上,DiLoCo 和 Data-Parallel 算法的评估损失对比,表明 DiLoCo 在更大规模下整体表现出色。

发现 2:单副本 DiLoCo

当副本数 M=1 时,DiLoCo 在不同模型规模下获得的评估损失都比 Data-Parallel 低。

下图 3 展示了当副本数 M=1 时,DiLoCo 与 Data-Parallel 在不同模型规模(35M、550M、1.3B、2.4B)和全局批大小(以 token 计,从 2^16 到 2^20)下的评估损失和 HellaSwag 零样本准确率对比。

图 (a) 显示 DiLoCo 的评估损失始终低于 Data-Parallel,且差距随着批大小增加而扩大;图 (b) 表明 DiLoCo 在 HellaSwag 零样本准确率上也优于 Data-Parallel,趋势相似。

在几乎所有情况下,在 M=1 时,DiLoCo 不仅评估损失更低,下游任务的零样本准确率也比 Data-Parallel 高。

而且,DiLoCo(M=1) 的表现对批大小(batch size)的稳定性更强:把批大小翻倍或翻四倍,对 Data-Parallel 的性能影响很大,但对 DiLoCo(M=1) 几乎没啥影响,图 3 里画得很清楚。

发现 3:批大小对性能的影响

DiLoCo 提高了最佳批大小,而且最佳全局批大小随着副本数 M 的增加而变大。这意味着 DiLoCo 相比 Data-Parallel 改善了横向扩展能力。

虽然 DiLoCo 在批大小 M>1 时,挑选所有超参数中最好的实验结果,评估损失往往略逊一筹,但它在批大小方面的表现显著提升。

Data-Parallel 和 DiLoCo(M=1) 在小批时表现都不错,但随着批大小增加,Data-Parallel 的性能下降很快。

相比之下,不管批大小 M 是多少,DiLoCo 的表现对批大小都稳定得多。

下图 4 展示了评估损失的例子,结果表明,对于所有 M 值,DiLoCo 的最佳批大小都比 Data-Parallel 更大,且随着 M 的增加,DiLoCo 的最佳批大小进一步增大。

例如,在 550M 模型中,Data-Parallel 的评估损失在批大小较小时最低,而 DiLoCo 在批大小更大时表现更优,类似趋势在 1.3B 和 2.4B 模型中也成立。

下图 5 展示了在 HellaSwag 数据集上的零样本准确率。结果显示即使在较小的模型规模下,DiLoCo 在 M=2 时也能在更大的全局批大小下实现更高的准确率。

例如在 550M 模型中,DiLoCo 的准确率曲线在批大小增加时优于 Data-Parallel;1.3B 和 2.4B 模型也表现出类似趋势。

发现 4:外部学习率

最佳外部学习率基本上与模型规模 N 无关,但会随着副本数 M 的变化而变化。

一个重要结果是,DiLoCo 在水平扩展上更自然。在所有情况下,token 预算 D,只跟模型规模 N 有关。这意味着如果用 4 倍大的批大小,训练步数会减少到 1/4。

对 DiLoCo 来说,这依然能保持不错的性能,还能一次性用更多资源,缩短总训练时间。而 Data-Parallel 似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。

下图 6 展示了理想的训练时间(wall-clock time),模拟不同网络带宽下的情况。

可以看到,DiLoCo 对较大批大小的容忍度使其能够显著更快地实现与 Data-Parallel 相当的性能损失,而且在低带宽设置中这种效果更为明显。

发现 5:外部学习率

如下图 7 所示,对于足够大的模型(N≥3.35 亿参数),每个 M 的最佳η是固定的。M 越大,η似乎也越大。这跟之前联邦学习的研究一致:外层学习率应该随着客户端数量增加而增加。

实际上,外部学习率仅取决于 DiLoCo 模型的数量以及同步的频率。

也就是说,虽然最优的内层学习率会随模型规模 N 变化,但 DiLoCo 的最优外层学习率η不依赖 N,只跟 M 有关。

DiLoCo 同样有助于解决过度训练的问题!

过度训练可能会相当昂贵,但是增加了批大小并减少了通信量意味着,通常可以在相同的时间内用 DiLoCo 进行 4 倍的过度训练(OT),而使用数据并行训练只能进行 1 倍的过度训练。

论文中还有更多内容。其中包括 Scaling law 本身,以及甚至提供了预测最优超参数的方法。

Scaling law 表明,对于参数超过 20 亿的模型,使用 2 个模型的 DiLoCo 优于数据并行方法

更多实验细节和内容,请参阅原文。

Chinchilla 将死?AI 3 万亿美元的岔路

DiLoCo 使得调整超参数和训练模型变得更加简单。但问题在于,AI 模型本身「换汤不换药」------还是 Chinchilla 那一套。

毕竟,过去的预训练 Scaling Law 已进入尾声,而新的 AI Scaling Law 与训练无关。

如今,随着新型「推理模型」的兴起,一个问题浮出水面:如果 Chinchilla 死了,AI 未来会怎样?

大约 5 年前,OpenAI 研究员发现,将更多的算力、数据投入到大规模训练中,可以显著提升 AI 模型的性能。

几年后,谷歌研究人员更进一步,通过构建名为「Chinchilla」的模型证明,增加数据量能带来更好的效果。

这种「计算 + 数据」的组合催生了如今的巨型模型,比如 GPT-4。

论文地址:arxiv.org/pdf/2203.15...

然而,这种策略的成功依赖于巨大的前期投入。

海量数据被塞进复杂且耗能的预训练过程,科技大厂疯狂建造数据中心,塞满了英伟达 GPU。

但问题来了:这种砸钱砸数据的模式,还能走多远?

巴克莱资本的顶级分析师 Ross Sandler 指出,未来可能面临两种截然不同的情景:

一是,「Chinchilla」继续主导,巨额算力和数据投入持续攀升;

二是,「停滞」替代方案,新型技术和模型以更少的资源实现更强性能。

这两种路径的资本支出差距高达 3 万亿美元以上,足以影响整个行业的走向。

「推理模型」崛起

推动这一潜在变革的,是「推理模型」的兴起。

OpenAI 的 o1、o3、DeepSeek R1、谷歌 Gemini 2.0 Flash Thinking 等新模型,采用了一种名为「测试时计算」(test-time compute)的技术。

这种方法将复杂查询分解为小任务,逐一处理,不再依赖长时间的预训练。

相较于传统模型,推理模型可能响应稍慢,但它们输出更准确,运行成本也更低。

更重要的是,它们摆脱了对大规模预训练的依赖。

DeepSeek R1 甚至展示了一种可能:开源推理模型能在短时间内实现性能飞跃。

这意味着,AI 公司可能不再需要花费 18-24 个月和巨资去打造下一个「巨无霸」模型。

此外,混合专家模型(MoE)也成为被广泛采用的技术,通过训练多个小型「专家」模型,让它们与大模型协同工作,只在需要时调用部分算力。

这种方式,一步降低了基础设施需求。

Chinchilla 何去何从?

过去五年,Chinchilla 策略推动了 AI 供应链的繁荣,许多公司股价因此飙升。

但如今,它的可持续性正受到质疑。

巴克莱分析师指出,「随着投入成本激增,比如一次预训练耗资 100 亿美元,性能增益却可能越来越小,这种模式的性价比正在下降」。

更严峻的是,训练数据可能正在枯竭。

高质量数据的供应有限,而 AI 对数据的「胃口」却越来越大。如果没有足够的「食物」,Chinchilla 还能活多久?

甚至,业内一些大佬预测,像 OpenAI 这样的公司,可能会在 GPT-5 之后停止无休止的规模 Scaling。

面对数据枯竭,AI 行业将希望寄托于「合成数据」。研究者认为,这种「自给自足」的反馈循环能让模型不断自我进化,推动技术迈向新高度。

Chinchilla 们本质上可以通过「自我喂养」来生存。

「如果 AI 行业在合成数据和递归自我改进方面取得突破,那么我们将重新走上 Chinchilla scaling 路径,计算需求将继续迅速上升」。

Chinchilla 死了吗?这个问题,AI 市场会给出最终答案。

如果推理模型、MoE 技术成熟,AI 可能走向轻量化,高效率的未来,数万亿美金的基础设施投资,或许不再必要。

但,如果「合成数据」让 Chinchilla 重焕生机,算力竞赛将卷土重来。

无论哪种未来到来,AI 的演进都在重塑整个世界。

参考资料:

arxiv.org/pdf/2503.09...

x.com/MatharyChar...

www.businessinsider.com/ai-chinchil...

相关推荐
BineHello1 小时前
强化学习 - PPO控制无人机
人工智能·算法·自动驾驶·动态规划·无人机·强化学习
牛不才1 小时前
ChatPromptTemplate的使用
人工智能·ai·语言模型·chatgpt·prompt·aigc·openai
从零开始学习人工智能1 小时前
深度学习模型压缩:非结构化剪枝与结构化剪枝的定义与对比
人工智能·深度学习·剪枝
訾博ZiBo2 小时前
AI日报 - 2025年3月18日
人工智能
新说一二2 小时前
AI技术学习笔记系列004:GPU常识
人工智能·笔记·学习
一个处女座的程序猿O(∩_∩)O2 小时前
人工智能中神经网络是如何进行预测的
人工智能·深度学习·神经网络
小白的高手之路3 小时前
如何安装旧版本的Pytorch
人工智能·pytorch·python·深度学习·机器学习·conda
虾球xz3 小时前
游戏引擎学习第161天
人工智能·学习·游戏引擎
即兴小索奇3 小时前
ChatGPT推理模型&通用模型大解析!
人工智能·chatgpt
一头大学牲3 小时前
NN:神经网络
人工智能·深度学习·神经网络