52 页 PPT，谷歌 Gemini 预训练负责人首次揭秘！扩展定律最优解

【新智元导读】大模型之战烽火正酣，谷歌 Gemini 2.5 Pro 却强势逆袭！Gemini Flash 预训练负责人亲自揭秘，深挖 Gemini 预训练的关键技术，看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

谷歌凭借 Gemini 2.5 Pro 在激烈的大模型竞争中一举翻盘。

近日，Geimini Flash 预训练负责人 Vlad Feinberg 在普林斯顿大学分享了相关内容。

他深入分析了 Gemini 预训练的方法、挑战以及方向，如何在模型大小、算力、数据和推理成本间取得平衡。

PPT 链接：vladfeinberg.com/assets/2025...

经典扩展定律

模型训练中，计算资源的合理利用至关重要。

假设有计算资源（C）1000 块 H100 芯片，运行 30 天，如何训练出最佳的 LLM 呢？

这就涉及到模型参数量（N）和训练 token 数量（D）。

对于 Transformer，计算量 C 和 N、D 之间存在一个近似公式：C≈6×N×D。

MLP 是模型的重要组成部分，不同操作的浮点运算量和参数量有所不同。

比如这个操作，训练时的浮点运算量是 6BTDF，参数量为 DF。

把 MLP 的多个操作加起来，总训练浮点运算量约为 18BTDF，参数数量达到 3DF。

注意力机制的计算更为复杂。将注意力机制相关操作的计算量相加，约为 12BTSNH=12BT²NH，参数量为 4DNH。

将 MLP 和注意力机制的计算量合并，就能了解整个模型训练时的计算量情况。

Kaplan 定律

2020 年，Kaplan 等人的研究揭示了模型性能与数据量、模型规模和计算量之间的关系。

自回归 Transformer 模型中，小模型可以用来预测大模型的性能。

模型性能与算力、参数量、数据量之间存在幂律关系。当计算预算增加 10 倍时，模型参数量应增加 5.37 倍，数据量增加 1.86 倍。

这一结论在当时引起了广泛关注，点燃了企业的「军备竞赛」。

Chinchilla（龙猫）

然而，2022 年，DeepMind 对 Kaplan 的观点提出了质疑。

Kaplan 的研究在每个模型规模下仅运行一次训练，并用中间损失来估计不同 token 训练步数下的损失。

Chinchilla 论文指出，基于单次训练的中间 loss 点来推断存在缺陷，通过适当的学习率衰减可以获得更好的损失值，只有最终的损失值才是最优的。

论文采用 IsoFlops 方法，固定浮点运算量预算，同时改变模型规模和训练 token 数量。

固定总算力 C
训练多个不同参数 N 的模型，对应不同数据量 D（C≈6×N×D）
找到 loss 最低的模型 N_opt（C）和 D_opt（C）
重复以上步骤，得到不同算力下的最优（N,D）点，并拟合

研究发现，模型参数 N 和数据量 D 应以大致相同的速率（幂律指数约为 0.5）随算力 C 增长，这与 Kaplan 等的结论大相径庭。

这意味着，按 Kaplan 定律训练的模型，可能存在训练不足的情况，数据太少，会增加模型后续部署和使用的成本。

为了进一步优化模型训练，研究人员尝试了多种方法。通过不同的计算场景和拟合方式，得到了更精确的系数。

混合专家（MoE）模型的扩展定律展现出了独特的优势。与传统模型相比，在相同的活跃参数数量和固定 100B token 的情况下，MoE 64E 模型的性能更优。

然而，MoE 模型对 token 数据的需求量较大，互联网上的可用数据逐渐难以满足其需求，这成为了发展瓶颈。

为了解决数据不足的问题，研究人员将目光投向了更多的数据来源。多模态数据，如音频、视觉、3D 模型、视频等，为模型训练提供了丰富的信息。

合成数据也受到了关注。实际应用中，需要在生成质量与筛选成本之间找到平衡。

实时场景的模型选择

在谷歌的许多应用场景中，如免费的 Gemini 聊天机器人、AIO、AIM、Vertex AI（用于模型微调、部署）以及 AI Studio（提供生成式 API）等，推理效率至关重要。

这些应用需要快速给出准确的响应，对模型的推理速度和效率要求极高。

就拿实时应用来说，Astra 和 Mariner 都需要快速响应。

以一个网络交互智能体为例，假设上下文 128k，但每次增量只有 8k token，解码需要 128 token 来生成一个动作，并且动作之间的延迟不超过 1 秒，其中 250 毫秒还得用于框架搭建、负载均衡等操作。

用 Llama3-70B 模型和 v5e 芯片做实验，发现单芯片处理 8k token 需 5.7 秒。为了达到 0.5 秒的 API 延迟限制，需要搭建 4×4 v5e 并行。

实时应用中，小模型反而更有优势，如 Gemini Flash/Flash-lite。

Chinchilla 的扩展方法虽然在模型训练的计算优化上有效，但它忽略了推理成本。

在实际应用中，需要综合考虑训练和推理的成本，找到更合适的模型和数据配置。

推理优化扩展定律

《超越 Chinchilla 最优：在语言模型扩展定律中考虑推理因素》这篇论文提出了新的推理优化 Scaling Laws。

核心思想是，不仅最小化训练 loss，而是要综合考虑训练和推理的总计算量，为模型优化提供了新的方向。

按照这些公式，在相同计算量下，与 Chinchilla 最优策略相比，应该训练更小的模型，并使用更多的数据，因为推理所需的计算量更少。

当然，这也存在新的挑战。

计算资源的非同质性：实际应用中计算资源存在差异，用于推理优化的芯片各不相同，给推理优化带来了困难。
推理量 D_inf 难以预测：技术进步提高资源利用效率，反而会增加对该资源的需求（杰文斯悖论）。模型质量提升可能会扩大市场，进而影响推理时的 token 数量 D_inf。
拟合效果不佳：不同数据集下，相关参数的拟合效果存在差异。不同 token 与参数比例的数据子集，拟合得到的 α、β等参数不同，和 Chinchilla 的拟合结果也有较大差异。

针对这些问题，研究人员采用在数据约束下建模的方法。研究引入新维度，即有意区分数据，提出新的损失函数和数据规模公式，这样训练出来的模型更小，对数据重复的鲁棒性更强。