大模型面试题:大模型的训练和推理中显存和计算量的情况

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

大模型的训练和推理中显存和计算量的情况?

先说结论:

  • 参数量

    ,令该值为

  • 训练计算量

    ,只是前向的,后向是2倍

  • 训练显存量

    (假设以2-bype来表示中间激活),这个算出来的结果就是bytes,不是数值的个数,其中包括了模型参数、梯度和优化器状态,34bsh是中间激活

  • 推理显存量

    (假设是2-byte),其中的表示模型显存。

相关推荐
NAGNIP20 小时前
轻松搞懂全连接神经网络结构!
人工智能·算法·面试
moshuying1 天前
别让AI焦虑,偷走你本该有的底气
前端·人工智能
董董灿是个攻城狮1 天前
零基础带你用 AI 搞定命令行
人工智能
喝拿铁写前端1 天前
Dify 构建 FE 工作流:前端团队可复用 AI 工作流实战
前端·人工智能
阿里云大数据AI技术1 天前
阿里云 EMR Serverless Spark + DataWorks 技术实践:引领企业 Data+AI 一体化转型
人工智能
billhan20161 天前
MCP 深入理解:协议原理与自定义开发
人工智能
Jahzo1 天前
openclaw桌面端体验--ClawX
人工智能·github
billhan20161 天前
Agent 开发全流程:从概念到生产
人工智能
用户1474853079741 天前
AI-动手深度学习环境搭建-d2l
深度学习