大模型计算量、显存计算方法推导

分析transformer模型的参数量、计算量、中间激活、KV cache

https://zhuanlan.zhihu.com/p/624740065

该帖子是很经典的计算大模型FLOPs和显存的,值得细读

LLM训练指南(二):模型参数、计算量、显存、计算时间计算

https://zhuanlan.zhihu.com/p/639872915

相关推荐
董董灿是个攻城狮38 分钟前
大模型连载1:了解 Token
人工智能
RoyLin3 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
needn5 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航5 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪6 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
ursazoo6 小时前
写了一份 7000字指南,让 AI 帮我消化每天的信息流
人工智能·开源·github
_志哥_9 小时前
Superpowers 技术指南:让 AI 编程助手拥有超能力
人工智能·ai编程·测试
YongGit10 小时前
OpenClaw 本地 AI 助手完全指南:飞书接入 + 远程部署实战
人工智能
程序员鱼皮11 小时前
斯坦福大学竟然开了个 AI 编程课?!我已经学上了
人工智能·ai编程
星浩AI12 小时前
Skill 的核心要素与渐进式加载架构——如何设计一个生产可用的 Skill?
人工智能·agent