揭密 scaling laws

Scaling laws

OpenAI 在其早期的关于 scaling laws 的论文 1 中提出了基础理论,但该文缺乏一些具体的求解过程,且未能在更大规模的模型上进行验证。与此同时,后续研究,例如 DeepMind 的 ChinChilla 2 还提出了不同的结论。

论文题目:

Unraveling the Mystery of Scaling Laws: Part I

论文地址:

https://arxiv.org/abs/2403.06563

论文作者:

Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai

论文探究了原始 scaling laws 研究所遗漏的细节,复现一套可靠和精确的 scaling laws 公式,揭示了 ChinChilla 研究结果与 OpenAI 理论不一致的根本原因(数据分布和长下文长度不同)。

超参

例如批处理大小(batch size)、学习率(learning rate)和学习率调度器(learning rate scheduler),在模型的收敛速度上起着显著作用。然而,只要这些参数设置在一个合理的范围之内,并结合充足的训练步数与大量数据进行训练,它们对于最终的收敛损失(loss)值的影响可以忽略不计。

batch size

基于 loss 值确定一个关键的批处理大小(critical batch size),以实现时间和计算成本的相对最优。相较于使用无限大的 batch size,需要双倍的训练步数来达到同样的 loss 值。

上下文长度、tokenization、数据分布和模型架构

上下文长度、tokenization、数据分布和模型架构本身,对于 scaling laws 公式中的系数有着显著的影响。然而,这些因素并不改变 scaling laws 的基本形式。这也解释了为何 ChinChilla 研究得出了不同的结论,因为它们在上下文长度和数据集方面有所不同。

power-law

只要 lr 设置得当,训练步数、batch size 以及模型规模与 loss 之间存在着一种精确且可预测的幂律(power-law)关系。

Ref

相关推荐
m沐沐6 小时前
【深度学习】PyTorch CNN 手写数字识别(卷积神经网络)
人工智能·pytorch·python·深度学习·机器学习·pycharm·cnn
王莎莎-MinerU6 小时前
从 OCR 到 Context Engineering:用 MinerU 搭一个可复现文档解析评测
人工智能·深度学习·机器学习·pdf·ocr·个人开发
ZHW_AI课题组6 小时前
基于KNN的帕尔默企鹅种类预测分类
人工智能·机器学习·分类·数据挖掘
xiaoxiaoxiaolll6 小时前
《Light: Sci & Appl》论文解读:基于q-BIC-CIT的热调硅膜超表面,突破静态光子学极限
机器学习
学习3人组6 小时前
Python 评论朴素贝叶斯文本情感分析示例
人工智能·python·机器学习
2401_885665196 小时前
从零搭建卷积神经网络:基于PyTorch实现MNIST手写数字分类
pytorch·python·神经网络·算法·机器学习·分类·cnn
大模型最新论文速读6 小时前
06-10 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
苏州邦恩精密7 小时前
江苏三维扫描仪定制:制造企业如何提升检测效率?
人工智能·科技·机器学习·自动化·制造
DXM05217 小时前
第10期| 卷积神经网络CNN通俗详解:AI遥感的底层核心
人工智能·python·神经网络·机器学习·arcgis·cnn·文心一言
装不满的克莱因瓶7 小时前
掌握空间注意力 STN 模型结构——让神经网络学会自动“看准位置”
人工智能·python·深度学习·神经网络·机器学习·ai