（2024，缩放定律，信息论，模型大小与数据的线性关系）神经缩放定律的信息论基础

Information-Theoretic Foundations for Neural Scaling Laws

公和众与号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）

[0. 摘要](#0. 摘要)

[1. 简介](#1. 简介)

[3. 缩放定律](#3. 缩放定律)

[4. 一个例子](#4. 一个例子)

[5. 结论](#5. 结论)

0. 摘要

神经网络缩放定律（Neural scaling laws）旨在描述样本外误差作为模型和训练数据集大小的函数的行为。这些缩放定律指导计算资源在模型和数据处理之间的分配，以最小化误差。然而，现有的神经网络缩放定律理论支持缺乏严谨性和清晰性，混淆了信息和优化的角色。在这项工作中，我们开发了神经网络缩放定律的严谨信息理论基础。这使我们能够描述由无限宽度的两层神经网络生成的数据的缩放定律 。我们观察到，数据和模型大小之间的最佳关系是线性的，最多有对数因子，这与大规模的实证研究一致。我们所建立的简明而普遍的结果可能为这一主题带来清晰度，并为未来的研究提供参考。

1. 简介

近年来，基础模型的规模增长迅猛，有些模型包含数万亿个可训练参数。尽管较大的模型通常产生更好的结果，但它们也需要更多的计算资源来进行训练。在这些现代模型的规模下进行超参数调优变得不切实际。这需要绕过通过广泛的试验和错误来调整超参数的做法，这在深度学习中曾经是很常见的。

除其他事项外，超参数控制 1）神经网络模型的大小，以参数数量 p 来衡量，2）训练 token 的数量 T。如果每个参数都响应每个 token 进行调整，那么训练的计算需求将按这两个数量的乘积来扩展。对于任何计算预算 C，应仔细平衡 p 和 T 之间的关系。训练 token 太少会导致模型估计误差，而参数太少则会导致错误指定误差。由于在多个 p 和 T 选择下评估性能在大规模上计算不可行，需要采用替代分析方法来指导计算资源的分配。

Kaplan等人 [2020] 和 Hoffmann等人 [2022] 提出了以下用于分配大型计算预算的程序：1）评估使用不同参数 p 和训练 token T 分配的各种小计算预算 C 所产生的模型的测试误差。2）外推（extrapolate）以估计大计算预算 C 下 p 和 T 之间的关系。

为了给出涉及的规模感，Hoffmann等人 [2022] 评估了 "较小" 模型的测试误差，其中 p×T 范围大约从 10^18 到 10^22，并外推到大约 10^24 的 "较大" 模型。Kaplan等人 [2020] 和 Hoffmann等人 [2022] 都基于假设的支架函数（scaffolding function）进行外推。Kaplan等人 [2020] 基于小规模实验中观察到的结果猜测支架函数。Hoffmann等人 [2022] 进行了一种非正式且有些推测性的数学分析来指导他们的选择（见其附录 D）。

Hoffmann等人 [2022] 的分析是通用的，而不是专门针对该论文中使用的特定神经网络架构。在本文中，我们基于 Jeon 和 Van Roy [2022a,b] 的工作，建立了严格的信息论基础，并使用它们推导出类似的缩放规律。为了保持简洁和具体，我们使用一种适合神经网络的数据生成过程进行分析。Hoffmann等人 [2022] 提出的论点在这种情况下与在语言模型中一样相关。

Hoffmann等人 [2022] 建议，参数数量与训练 token 数量之间的计算最优权衡是线性的 ，尽管作者表达了一些怀疑，并考虑了其他接近线性的可能性。我们建立了最小信息论可实现期望误差的上限作为 p 和 T 的函数，并推导出每个计算预算下最小化该上限所需的关系。对于大的计算预算，这种关系是线性的，正如 Hoffmann等人[2022] 所建议的。

【各种定理和推论及其证明见原文】

3. 缩放定律

对于 FLOP 约束 C = p · T，很明显在最小化定理 3.1 中的误差上界时，p 和 T 之间存在紧张关系。这可以通过首先固定一个 FLOP 数 C 并替换 T = C/p 来看到。上界变为：

注意，第一项随着 p 的增加而增加，而第二项随着 p 的增加而减少。因此，在固定的 FLOP 预算下，设计者应选择一个能够有效平衡这两种误差来源的 p 值。

4. 一个例子

（左侧）FLOP 约束 C = p · T，参数 p 增加，token T 减少。对于每条曲线，

在一定范围内token T 是充足的，则增加模型参数有助于减小误差
当模型参数继续增大，token T 不足，则增加模型参数将增大误差

（右侧）我们展示了参数数量和数据集大小之间的计算最优权衡。虚线表示斜率为 1 的直线。因此，最优参数数量和数据集大小之间的关系最终呈现线性（如定理 4.3 所建议的）。

5. 结论

我们的结果为分析基础模型的缩放法则提供了第一个严格的数学步骤。我们希望这将激发对该主题的进一步理论研究。我们的分析基于误差上界，并且仅限于单隐藏层前馈神经网络。将结果推广到处理最新的架构仍然是一个开放的问题。此外，我们只考虑了预训练计算的分配。在现代应用领域中，最新的性能依赖于通过人类反馈进行强化学习的后续微调（参见，例如，[Ziegler et al., 2019]）。如何在预训练和微调之间最佳分配资源是另一个值得关注的领域。一个将预训练、微调和决策统一并连贯处理的信息论框架，或许类似于 [Lu et al., 2023]，可能会促进这方面的理论发展。

**论文地址：**https://arxiv.org/abs/2407.01456

相似工作：

（2024，模型规模vs序列长度）Transformer 何时可以数到 n？