揭密 scaling laws

Scaling laws

OpenAI 在其早期的关于 scaling laws 的论文 [1] 中提出了基础理论,但该文缺乏一些具体的求解过程,且未能在更大规模的模型上进行验证。与此同时,后续研究,例如 DeepMind 的 ChinChilla [2] 还提出了不同的结论。

论文题目:

Unraveling the Mystery of Scaling Laws: Part I

论文地址:

https://arxiv.org/abs/2403.06563

论文作者:

Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai

论文探究了原始 scaling laws 研究所遗漏的细节,复现一套可靠和精确的 scaling laws 公式,揭示了 ChinChilla 研究结果与 OpenAI 理论不一致的根本原因(数据分布和长下文长度不同)。

超参

例如批处理大小(batch size)、学习率(learning rate)和学习率调度器(learning rate scheduler),在模型的收敛速度上起着显著作用。然而,只要这些参数设置在一个合理的范围之内,并结合充足的训练步数与大量数据进行训练,它们对于最终的收敛损失(loss)值的影响可以忽略不计。

batch size

基于 loss 值确定一个关键的批处理大小(critical batch size),以实现时间和计算成本的相对最优。相较于使用无限大的 batch size,需要双倍的训练步数来达到同样的 loss 值。

上下文长度、tokenization、数据分布和模型架构

上下文长度、tokenization、数据分布和模型架构本身,对于 scaling laws 公式中的系数有着显著的影响。然而,这些因素并不改变 scaling laws 的基本形式。这也解释了为何 ChinChilla 研究得出了不同的结论,因为它们在上下文长度和数据集方面有所不同。

power-law

只要 lr 设置得当,训练步数、batch size 以及模型规模与 loss 之间存在着一种精确且可预测的幂律(power-law)关系。

Ref

相关推荐
亚里随笔1 天前
突破性框架TRAPO:统一监督微调与强化学习的新范式,显著提升大语言模型推理能力
人工智能·深度学习·机器学习·语言模型·llm·rlhf
救救孩子把1 天前
50-机器学习与大模型开发数学教程-4-12 Bootstrap方法
人工智能·机器学习·bootstrap
救救孩子把1 天前
51-机器学习与大模型开发数学教程-4-13 EM算法与混合模型
人工智能·算法·机器学习
Brduino脑机接口技术答疑1 天前
TDCA 算法在 SSVEP 场景中的训练必要性
人工智能·算法·机器学习·脑机接口
core5121 天前
SVM (支持向量机):寻找最完美的“分界线”
算法·机器学习·支持向量机·svm
小鸡吃米…1 天前
Python的人工智能-机器学习
人工智能·python·机器学习
deephub1 天前
机器学习时间特征处理:循环编码(Cyclical Encoding)与其在预测模型中的应用
人工智能·python·机器学习·特征工程·时间序列
ekprada1 天前
Day50 - 预训练模型与CBAM集成
人工智能·深度学习·机器学习
芥子沫1 天前
《人工智能基础》[算法篇5]:SVM算法解析
人工智能·算法·机器学习·支持向量机·svm
TechPioneer_lp1 天前
27届暑期实习内推:网易美团京东快手等
数据结构·c++·人工智能·笔记·机器学习·面试