大模型计算量、显存计算方法推导

分析transformer模型的参数量、计算量、中间激活、KV cache

https://zhuanlan.zhihu.com/p/624740065

该帖子是很经典的计算大模型FLOPs和显存的,值得细读

LLM训练指南(二):模型参数、计算量、显存、计算时间计算

https://zhuanlan.zhihu.com/p/639872915

相关推荐
zhangfeng1133几秒前
带有embeding 同时训练的Lora 权重合并,合并后的权重的模型,再训练数的Loss 突然增加
人工智能·lora·sft
树獭非懒4 分钟前
Claude Code 完全入门指南:让你的 AI 从"会说"到"会做"
人工智能·程序员·llm
数智工坊6 分钟前
基于CLIP隐空间的层级文本条件图像生成:unCLIP核心原理与全链路解析
论文阅读·人工智能·深度学习·transformer·迁移学习
雪回7 分钟前
基于 Stable Diffusion-WebUI 实现 LandPPT 本地模型绘图配置指南(SDWebUI )
人工智能·深度学习·ai·ai作画·stable diffusion·ppt
^ V ^8 分钟前
1.1 具身智能 (Embodied AI)
人工智能·具身智能
薛定猫AI10 分钟前
【深度解析】从 AI 超级应用到数字操作系统:基于大模型 API 构建可落地的 Agent 工作流
人工智能
captain_AIouo15 分钟前
Captain AI以数据为核心,打造OZON智能决策引擎
大数据·人工智能·经验分享·aigc
ALINX技术博客19 分钟前
AMD VU FPGA+NVIDIA Thor AI 超高性能异构平台 ALINX HEA13,支撑新一代边缘 AI 系统
人工智能·fpga开发
TENSORTEC腾视科技20 分钟前
AI赋能 车行无忧|腾视科技ES10终端,为车辆装上“智慧大脑”
人工智能·科技·ai·零售·无人叉车及智能调度系统解决方案
chatexcel22 分钟前
AI PPT生成学术展演文稿实操教程:提示词设计与生成流程详解
人工智能·powerpoint