大模型面试题:1B的模型和1T的数据大概要训练多久

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

1B的模型和1T的数据大概要训练多久?

首先明确下1B=10亿,1T=1万亿,预训练的时间和模型、数据、算力以及其它开销有关系,有这么一个公式,计算出训练时间和上述参数的关系:

训练时间=8 * token数 * 参数量/(GPU数量 * GPU的flops * GPU利用率)

其中对于不同的GPU其flops是不同的,一般情况下GPU的利用率在0.3-0.55之间。

那么对于1B的模型和1T的数据,假设1个GPU,大概的耗时为:

耗时= 8 * 10^9 * 1T / (1 * 300T * 0.3 ) = 1028天

上述的1T是1万亿的数据,300T是300TFLOPS,就是GPU每秒算300万亿次,这个8是怎么来的呢,因为对于每个token,每个模型参数,需要进行2次浮点运算,我们整体包括前向+后向+重激活整体是1+2+1=4,那么整体上就是8次了。

相关推荐
Kel1 分钟前
PydanticAI 源码深潜:类型安全依赖注入与图执行引擎的双核架构解析
人工智能·python·架构
后端开发基础免费分享1 分钟前
Claude Code 最全使用指南:CLAUDE.md、rules、skills、memory 一次讲清
人工智能·ai·claude·claudecode
亿坊电商3 分钟前
亿坊外贸商城系统-支持B2C,B2B多模式,让企业做外贸电商更简单!
人工智能·数据挖掘·外贸商城
小王毕业啦6 分钟前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
十有八七6 分钟前
OpenHarness 架构说明文档
人工智能·架构
Bruce1238 分钟前
openclaw学习日常(一)openclaw在WSL中搭建
人工智能·node.js
liliangcsdn8 分钟前
如何基于sentence_transformers构建向量计算工具
数据库·人工智能·全文检索
西海天际蔚蓝12 分钟前
AI配合写的第一个demo系统页面
java·人工智能
贵慜_Derek12 分钟前
Managed Agents 里,Harness 到底升级了什么?
人工智能·算法·架构
Tadas-Gao15 分钟前
从“驯马”到“驭队”:Harness Engineering 如何重构 AI 产品化的底层逻辑
人工智能·语言模型·架构·大模型·llm·harness