阅读笔记How to Set the Batch Size for Large-ScalePre-training?

1、 该论文重新修订了E(S)公式,该公式指的是总数据消耗 E 与达到特定损失所需优化步骤数 S 之间的关系。原先的公式,如下图,并不适用于现在大模型预训练的方法(现在普遍采用WSD学习率调度器),关键批大小理论失效。

解决方案 :论文为WSD调度器推导了一个新的、分段形式的 E(S) 关系公式。该公式将训练过程分为三个阶段:初始阶段(E与S呈反比关系)、过渡阶段(E是S的二次函数)和渐近阶段(E与S呈线性关系)。实验表明,新公式能精确拟合WSD下的预训练动态。

2、基于新的E(S)框架,论文解释了WSD预训练的两个基本属性:

(1)达到目标损失所需的最小批量大小阈值Bmin:为了达到特定的目标损失,批大小必须超过的一个物理最小值。几何上,它等于E(S)曲线渐近线的斜率。

(2)通过最小化总token数来最大化数据效率的最优批量大小Bopt:使得达到目标损失所需的总数据消耗最小的批大小。几何上,它等于从原点到E(S)曲线最小值点连线的斜率。

论文进一步发现,随着训练损失降低(即训练进行),Bmin和Bopt都呈现单调递增的趋势。

3、 鉴于Bopt随训练进程而增大的特性,在整个预训练过程中使用固定的批大小并非最优策略,提出了一种**动态batch size 调度器,**得到的策略能够显著提升训练效率和最终模型质量。

该策略根据训练已消耗的数据总量,分阶段地增加全局批大小(例如,在Qwen3模型的实验中,按照序列 {2M, 4M, 5M, 6M} 在每125B tokens后调整批大小)。

在Qwen3 Dense和MoE模型上的大量实验表明,与固定批大小基线相比,动态调度策略能获得更低的训练损失和更好的下游任务(MMLU, CMMLU)性能。


在related work里,作者提到了一个概念:scaling law 缩放定律

我特意去搜了这个词汇的意思:

缩放定律可以被视为大模型发展的"经验指南",是描述AI模型性能随模型规模、数据量或计算量增加而可以预测提升的统计规律。

神经缩放定律通常表现为三种形式:模型规模缩放,数据量缩放,计算量缩放。

相关推荐
四谎真好看18 小时前
Redis学习笔记(实战篇3)
redis·笔记·学习·学习笔记
前进的李工18 小时前
LangChain使用之Model IO(提示词模版之ChatPromptTemplate)
java·前端·人工智能·python·langchain·大模型
AIArchivist18 小时前
深度解析|超级AI医院:不止是概念,更是医疗未来的确定性方向
人工智能·健康医疗
华农DrLai18 小时前
什么是角色扮演Prompt?为什么给AI设定身份能提升表现?
人工智能·深度学习·ai·prompt·bert·transformer
大傻^18 小时前
SpringAI2.0 向量存储生态:Redis、Amazon S3 与 Bedrock Knowledge Base 集成
数据库·人工智能·向量存储·springai
咋个办呢18 小时前
AI智能体自学打卡:一份非常全的 Markdown Prompt 模板(可做减法)
人工智能·ai·prompt·智能体
彷徨的蜗牛18 小时前
智能AI自动化协同发文系统架构设计:从理论到实践的完整指南
人工智能·系统架构·自动化
许国栋_18 小时前
B2B企业如何建设价值管理办公室(VMO)?实践与落地解析
人工智能·安全·云计算·产品经理
一RTOS一18 小时前
从PLC到机器人:实时操作系统如何决定能力上限
人工智能·机器人·鸿道操作系统·鸿道实时操作系统·国产嵌入式操作系统选型·鸿道机器人操作系统
bennybi18 小时前
Openclaw 实践笔记
笔记·ai·openclaw