Learning Law：迈向语言模型最优学习的理论

人工智能咨询培训老师叶梓转载标明出处

语言模型（LMs）在自然语言处理领域扮演着越来越重要的角色。随着模型规模的不断扩大，其计算需求也在迅速增长。为了在有限的计算资源下探索LMs的潜力，研究人员需要找到更高效的学习方法。清华大学的CoAI团队和微软研究院的研究人员联合提出了一种新的理论，旨在通过优化学习过程来减少达到优异性能所需的训练步骤。这项工作不仅提出了一种新的优化目标，还通过实验验证了其理论的有效性。
目标是最小化损失曲线下的面积

图1展示了研究者的主要目标，即在"将语言模型训练视为无损压缩"的观点下，最小化损失曲线下的面积。这一目标等同于在训练语料库中最大化压缩比。为了揭示上述最优学习过程背后的训练动态，研究者提出了一个学习法则（ Learning Law）。简而言之，通过优化训练策略来减少损失曲线下的总面积，不仅能够提升模型的学习效率，而且能够实现数据的更高效压缩，从而在理论和实践上推动了语言模型学习的进步。
最优学习在Transformer语言模型训练上达到了理论加速上限最优语言模型学习改进了传统语言模型训练的规模法则

最优学习理论

在探讨如何训练语言模型（LM）以达到最佳性能的过程中，研究人员面临的核心问题是如何制定一个有效的学习策略。这种策略的目标是在保证总训练时间足够长的情况下，使模型以最快的速度学习并达到预期的性能水平。为此他们将学习策略定义为随时间变化的分布，即在训练过程中每个时间步长上，每个训练样本所分配的权重。

研究人员提出的优化目标，即最小化损失曲线下的面积（AUC）。通过这种方式，他们将学习过程视为一种无损数据压缩的过程，其中最小化AUC等同于在给定的训练数据上实现最大的压缩比。这不仅意味着模型可以用更少的信息来描述训练数据，而且也指出了一种高效的学习路径，即在大量训练步骤中，以最小的损失AUC来实现最快的学习速度。

损失AUC的最小化在物理上等同于最大化训练数据的无损压缩描述长度。这种观点将模型训练与数据压缩联系起来，提供了一种新的视角来理解模型学习的过程。在这个视角下，更有效的数据表示意味着模型能够更好地捕捉和利用数据中的信息，从而提高学习效率。

在探索最优学习策略的过程中，研究人员推导出了一个关键的定理，即"学习法则"( Learning Law)。该法则揭示了在最优学习策略下，所有训练样本对模型学习过程的贡献应该是一致的。这意味着无论样本的内容如何，它们对模型参数更新的贡献度应该是相等的。

贡献是通过计算样本梯度和期望损失梯度的点积来定义的。这个度量方式反映了每个样本在模型学习方向上的影响力。在最优学习策略下，这种贡献的一致性确保了模型能够平衡地从所有样本中学习，而不是依赖于某些特定的、可能具有更大梯度的样本。

学习法则还暗示了最优学习过程中局部和全局学习速度的匹配。这意味着，最优学习策略应该能够动态地调整每个样本的权重，以便在训练过程中，模型能够同时学习到对当前状态贡献最大的样本，同时避免对这些样本过度拟合。
学习法则的三维图解和实验证据

学习法则建议，在最优学习过程中，局部学习速度（即模型学习每个样本的速度）应与全局学习速度（即模型通过学习所有样本的整体改进速度）相匹配。这种匹配确保了模型在每一步更新中都能够有效地利用数据，同时保持对整体数据分布的泛化能力。

随着训练的进行，每个样本的梯度范数往往会减小，这导致它们对整体损失下降速度的贡献降低。最优学习策略通过动态调整样本权重来应对这一挑战，确保高度贡献的样本在训练中获得较大的权重，同时在模型过度拟合之前降低这些样本的权重。

尽管学习法则为寻找最优学习策略提供了必要的条件，但它并不是充分条件。在实际应用中，可能还需要考虑额外的正则化条件来确保找到的学习策略是最优的。这是因为Euler-Lagrange方程和KKT条件只保证了必要性，而在复杂的非凸优化问题中，满足这些条件的解可能并不唯一。

实验

在寻找最优学习策略的过程中，研究人员采用了一种直接的方法来解决优化问题。这个问题要求在每个时间步长上为每个训练样本分配权重，以便最小化期望损失的面积（AUC），从而实现最大的数据压缩比。他们使用了近端梯度下降法（Proximal Gradient Method），这是一种在优化问题中常用的算法，特别是在处理具有复杂约束的优化问题时。

研究者面临的挑战是如何在每一步训练中为每个样本分配最优权重，使得整体训练过程的损失面积最小化，即实现最大的数据压缩比。为此，他们采用了近端梯度下降法（Proximal Gradient Method），这是一种迭代算法，适用于处理带约束的优化问题。在这种情况下，约束是权重向量必须构成一个概率分布，即权重之和为1，且每个权重非负。

实验开始时，所有样本的权重被初始化为均匀分布，即每个样本在训练初期被赋予相同的重要性。然后，利用动态规划和PyTorch库中的Jacobian-Vector-Product技术，研究者高效地执行了优化过程。这种方法允许他们快速计算并更新权重，以响应训练过程中损失函数的变化。
线性分类任务中寻找最优学习策略的结果

线性分类任务实验中，研究者使用了感知器模型来进行线性分类任务。他们采用了教师-学生设置，其中每个样本由一个高维向量和一个与之对应的标签组成。这些数据是从高斯分布中独立同构地生成的。感知器模型通过最大似然估计（MLE）损失函数进行训练，目标是找到最佳的权重向量，以正确分类输入样本。

对于语言建模任务，研究者选择了Transformer模型，这是一个具有多层自注意力机制的深度学习模型。他们使用了TinyStories数据集进行训练，这是一个高质量的预训练语料库。为了模拟实际中的数据多样性和噪声，研究者对训练样本进行了扰动处理。

研究者展示了优化过程的两个关键指标：学习策略损失和压缩比 CR。学习策略损失是期望损失面积（AUC）的离散近似，而压缩比是训练过程中数据压缩效率的度量。实验结果显示，随着优化过程的进行，学习策略损失逐渐降低，压缩比逐渐提高，这表明学习策略正在向最优策略靠拢。
使用传统和近最优学习策略训练时期望损失Ldsr(θt)的曲线

研究者采用了一种称为信噪比（Signal-Noise-Ratio, SNR）的度量方法，命名为，来衡量在特定学习策略下，不同样本对模型学习过程的贡献相似性。这个度量标准基于每个样本的梯度对整体期望损失梯度的贡献度量，即贡献的一致性。的值越高，表明样本之间的贡献越相似，这与学习法则中提出的所有样本对模型应有相同贡献的预测相一致。

实验结果显示，随着学习过程的进行，学习策略逐渐优化，样本贡献的相似性SIM趋于无限大。这意味着，当学习过程趋近于最优时，所有样本对模型的贡献趋于一致，这验证了学习法则的正确性。
学习法则的实验证据，展示了不同样本贡献的相似性学习法则的实验证据，展示了样本贡献相似性与压缩比之间的关系

研究者观察了在最优学习策略下，权重为零的样本，即那些对模型学习没有贡献的样本。实验结果表明，这些样本在模型收敛之前会被排除在训练过程之外，这表明最优学习策略能够识别并排除那些对当前学习阶段没有帮助的数据点。
最优学习中非贡献性和噪声样本被排除的证据

对于感知器模型，研究者发现，在最优学习策略下，那些已经完全学会的样本，即损失函数值接近零的样本，会被赋予较小的权重。这表明最优学习策略能够识别出那些已经掌握的知识点，并将资源重新分配给那些仍需学习的样本。
最优学习中完全学会的样本被忽略的证据

研究者还注意到，在最优学习策略中，那些特征上线性相关的冗余样本会被丢弃。这表明最优学习策略具有识别并排除训练数据中不必要的冗余信息的能力，从而提高学习效率。
最优学习中冗余训练样本被丢弃的证据

研究者进一步分析了近最优学习策略对语言模型缩放法则系数(B,β)的影响。缩放法则描述了训练步骤与测试损失之间的关系，系数的优化意味着在相同的训练步骤下可以实现更低的损失，或者在更少的训练步骤下达到相同的损失水平。实验数据显示，这些系数得到了显著的改进，这表明学习策略的优化可以显著提升模型的学习速度。
采用接近最优学习策略时，在不同总训练步数（T）和数据规模（N）下，Transformer语言模型的缩放法则系数的改进情况

通过计算加速比AR，研究者量化了近最优学习策略带来的潜在加速效果。加速比是一个衡量学习速度提升的指标，它基于缩放法则系数的改进来计算。研究者展示了在不同的训练步骤和数据规模下，采用近最优学习策略相比于传统学习策略可以实现的加速效果，从而证实了理论的实用性和有效性。
传统和近最优语言模型学习的规模法则

这些实验结果不仅验证了研究者提出的理论，还展示了在实际应用中优化学习策略的巨大潜力。通过改进学习策略，可以显著提高语言模型的学习效率，减少训练所需的计算资源。

论文链接：https://arxiv.org/abs/2402.17759