大模型面试题:1B的模型和1T的数据大概要训练多久

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

1B的模型和1T的数据大概要训练多久?

首先明确下1B=10亿,1T=1万亿,预训练的时间和模型、数据、算力以及其它开销有关系,有这么一个公式,计算出训练时间和上述参数的关系:

训练时间=8 * token数 * 参数量/(GPU数量 * GPU的flops * GPU利用率)

其中对于不同的GPU其flops是不同的,一般情况下GPU的利用率在0.3-0.55之间。

那么对于1B的模型和1T的数据,假设1个GPU,大概的耗时为:

耗时= 8 * 10^9 * 1T / (1 * 300T * 0.3 ) = 1028天

上述的1T是1万亿的数据,300T是300TFLOPS,就是GPU每秒算300万亿次,这个8是怎么来的呢,因为对于每个token,每个模型参数,需要进行2次浮点运算,我们整体包括前向+后向+重激活整体是1+2+1=4,那么整体上就是8次了。

相关推荐
邵宇然7 分钟前
PB 级分布式存储实战:从数据分片到跨区域复制的 Rust 工程实现
人工智能
tedcloud12317 分钟前
taste-skill部署教程:打造个性化AI推荐工作流
服务器·前端·人工智能·系统架构·edge
碳基硅坊24 分钟前
把本地入口接上远端算力:读懂 LM Studio 的 LM Link
人工智能·lm studio·lm link
莱歌数字34 分钟前
换热器计算方法与步骤:从热平衡到性能校核
人工智能·科技·制造·cae·散热
小鹿研究点东西41 分钟前
AI直播工具实操:从直播录制、AI剪辑去重到直播伴侣开播完整流程
人工智能·自动化·音视频·语音识别
碳基硅坊44 分钟前
Spring AI:把大模型接进 Spring 应用
java·人工智能·spring ai
才兄说44 分钟前
机器人二次开发机器狗巡检?全环境稳定感知
人工智能·机器人
一一哥Sun1 小时前
第06课:Transformer与注意力机制——大模型背后的秘密武器
人工智能·深度学习·transformer
landyjzlai1 小时前
蓝迪哥玩转Ai(10)---Harness工程说透1。
人工智能·harness
onething3651 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 3 —— 消息表设计 + 级联删除 + 事务管理
人工智能·后端