大模型计算量、显存计算方法推导

分析transformer模型的参数量、计算量、中间激活、KV cache

https://zhuanlan.zhihu.com/p/624740065

该帖子是很经典的计算大模型FLOPs和显存的,值得细读

LLM训练指南(二):模型参数、计算量、显存、计算时间计算

https://zhuanlan.zhihu.com/p/639872915

相关推荐
code_pgf1 分钟前
Jetson Orin NX 16G设备上配置AI服务自动启动的方案,包括Ollama、llama-server和OpenClaw Gateway三个组件
数据库·人工智能·安全·gateway·边缘计算·llama
前端付豪3 分钟前
实现 AI 回复支持 Markdown 渲染
前端·人工智能·markdown
数智大号4 分钟前
北京InfoComm China 2026高峰会议紧密契合国家“十五五”规划,人工智能引领科技未
人工智能
码路飞4 分钟前
Mistral Small 4 上手实测:119B 参数只激活 6B,开源模型卷到这地步了?
人工智能·llm
用户4815930195915 分钟前
为什么 Claude Code 值得深入学
人工智能
蒸汽求职7 分钟前
蒸汽教育求职分享:2026年数据工程师就业优势分析与职业发展路径指南
数据库·人工智能·面试·求职招聘·美国求职
火山引擎开发者社区7 分钟前
重磅发布|Scale‑SWE 构造 10 万级真实 SWE 数据集,火山引擎沙箱底座重塑代码智能体训练
人工智能
high20119 分钟前
【DB9.ai】- 面向 AI Agent 的无服务器 PostgreSQL
人工智能·postgresql·serverless
算法-大模型备案 多米12 分钟前
算法备案算法安全自评估报告模板(精简完善版)
大数据·网络·人工智能·算法·文心一言
阳火锅15 分钟前
鳌虾 AoCode:重新定义 AI 编程助手的下一代可视化工具
前端·人工智能·架构