大模型面试题:大模型的训练和推理中显存和计算量的情况

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

大模型的训练和推理中显存和计算量的情况?

先说结论:

  • 参数量

    ,令该值为

  • 训练计算量

    ,只是前向的,后向是2倍

  • 训练显存量

    (假设以2-bype来表示中间激活),这个算出来的结果就是bytes,不是数值的个数,其中包括了模型参数、梯度和优化器状态,34bsh是中间激活

  • 推理显存量

    (假设是2-byte),其中的表示模型显存。

相关推荐
深圳行云创新2 小时前
采用 TitanIDE 3.0 开展团队级 AI-Coding 优势分析
人工智能
AI职业加油站2 小时前
职业提升之路:我的大数据分析师学习与备考分享
大数据·人工智能·经验分享·学习·职场和发展·数据分析
风指引着方向2 小时前
昇腾算子性能调优:ops-nn 中的内存布局与向量化技巧
java·大数据·人工智能
班德先生2 小时前
以全案策划设计思维破局,让电器科技品牌力落地生根
大数据·人工智能·科技
ujainu2 小时前
CANN仓库中的AIGC确定性推理工程:昇腾AI软件栈如何在混沌中构建“可预测的智能”
人工智能·aigc
咕泡科技2 小时前
架构演进:从确定性工作流 (Workflow) 到自主智能体 (LLM Agent)
人工智能·架构
love530love2 小时前
【高阶编译】Windows 环境下强制编译 Flash Attention:绕过 CUDA 版本不匹配高阶指南
人工智能·windows·python·flash_attn·flash-attn·flash-attention·定制编译
DeniuHe2 小时前
Pytorch中的众数
人工智能·pytorch·python
我材不敲代码2 小时前
机器学习入门 04逻辑回归part2——提高逻辑回归模型的召回率
人工智能·机器学习·逻辑回归