大模型面试题:大模型的训练和推理中显存和计算量的情况

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

大模型的训练和推理中显存和计算量的情况?

先说结论:

  • 参数量

    ,令该值为

  • 训练计算量

    ,只是前向的,后向是2倍

  • 训练显存量

    (假设以2-bype来表示中间激活),这个算出来的结果就是bytes,不是数值的个数,其中包括了模型参数、梯度和优化器状态,34bsh是中间激活

  • 推理显存量

    (假设是2-byte),其中的表示模型显存。

相关推荐
Python私教4 分钟前
视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表
人工智能
Python私教7 分钟前
Crawlee StagehandCrawler:自然语言点 Load More 的工程化爬虫
人工智能
南屹川8 分钟前
【容器化】Docker实战:从入门到生产环境部署
人工智能
海蓝可知天湛30 分钟前
Agent&IELTS雅思口语专属语料库
人工智能·github·rag·ielts·skills
随身数智备忘录39 分钟前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能
OpenBayes贝式计算1 小时前
涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解
人工智能
189228048611 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
南屹川1 小时前
【数据库】PostgreSQL实战:从基础到高级特性
人工智能
zhangxingchao1 小时前
多 Agent 架构到底怎么选?从 Claude Agent Teams、Cognition/Devin 到工程落地原则
前端·人工智能·后端
不开大的凯20771 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能