模型计算量估计,训练时间预测 Scaling Laws for Neural Language Models

一、模型计算量

C ≈ 6N*D

其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。

注意:这里的6是针对Transformers,如果其它模型结构,还请重新确定每个参数的平均计算量。开了激活点检查activation checkpoint,这个系数是8。

激活检查activation checkpoint通过在前向传播过程中只存储一部分(而不是全部)的激活值来减少存储空间消耗。对于没有存储的激活值,如果在后向传播过程中需要它们,就重新计算这些值。这种方法可以显著减存储占用,但是会增加计算开销,因需要重新计算一些激活值。

举个例子

哈哈哈,还是例子好理解。

比如我现在要训练模型参数量为175B,用于训练的语料总量为300B,即

N=175B=175*10^9

D=300B=300*10^9

那么训练模型所需的总计算量为:

C ≈ 6N*D=6*175B*300B=6*175*10^9*300*10^9=3.15*10^23=3.15*10^7 PFlops

二、模型训练耗时估计

哈哈哈,都知道所需的总的计算量,那不是轻轻松松估计训练耗时。

T=C/(MFU*S)

其中C表示训练语言模型所需的总计算量,S表示训练模型所用集群的算力,MFU(Model FLOPs Utilization)训练模型时的算力利用率。

举个例子

比如我现在训练模型所需总计算量为3.15*10^7 PFlops,集群算力能力为3924.44565 PFlops/s,训练模型时的算力利用率为55.2%,即:

C =3.15*10^7 PFlops

S=3924.4 PFlops/s=卡的数量*每张卡的算力

MFU=55.2%

则训练该模型所需的时间为:

T=C/(MFU*S)=3.15*10^7/(55.2%*3924.4)=14541秒=4小时

注意:这里的算力利用率是整个训练过程中的算力利用率,有的地方的算力利用率是计算的时候的算力利用率,不考虑纯通信和集群故障。如果想获取训练总时间,这些时间需单独考虑。

视频教程:

模型计算量预测 训练时间估计_哔哩哔哩_bilibili

参考文献:

[2001.08361] Scaling Laws for Neural Language Models (arxiv.org)

相关推荐
小陈工6 分钟前
2026年3月26日技术资讯洞察:WebAssembly崛起、AI代码质量危机与开源安全新挑战
人工智能·python·安全·架构·开源·fastapi·wasm
云飞云共享云桌面19 分钟前
非标自动化研发成本高?云飞云共享云桌面:1台主机=10台工作站,年省数十万。
大数据·运维·服务器·人工智能·自动化·云计算·电脑
㱘郳22 分钟前
大语言模型开发与应用V5.0
人工智能·语言模型·自然语言处理
2301_7665586536 分钟前
深度解析:矩阵跃动小陌GEO语义场建模原理,筑牢企业AI搜索占位技术壁垒
人工智能·线性代数·矩阵
Lab_AI38 分钟前
AI for Science应用:深度学习助力新型靶蛋白的药物从头设计(AIDD助力药物研发)
人工智能·深度学习·aidd·药物发现·新靶点药物设计
AI自动化工坊43 分钟前
GitAgent实战解析:用Docker思想解决AI Agent框架碎片化问题,降低80%迁移成本
人工智能·docker·ai·容器·开源
紧固视界1 小时前
3C电子自动化装配加速,微型紧固件需求持续增长_2026上海紧固件展 华网上海展
人工智能·自动化·紧固件·上海紧固件展·紧固件展
田井中律.1 小时前
知识图谱实战(知识查询语言、NER)【第三章】
人工智能·知识图谱
唐兴通个人1 小时前
AI营销专家唐兴通对龙虾AI智能体时代营销转型新思考
人工智能
软件算法开发1 小时前
基于边境牧羊犬优化算法的LSTM网络模型(BCO-LSTM)的一维时间序列预测matlab仿真
人工智能·matlab·lstm·时间序列预测·边境牧羊犬优化·bco-lstm