开源大模型占GPU显存计算方法

锅总的程序人生2024-09-08 22:52

运行大模型GPU占用计算公式：

\(M=\frac{(P * 4B)}{32 / Q} * 1/2\)

M : 以GB标识的GPU内存
P : 模型中的参数数量，例如一个7B模型有70亿参数
4B : 4个字节，表示用于每个参数的字节
32 : 4个字节中有32位
Q : 应该用于加载模型的位数，例如16位、8位、4位
1.2 : 表示在GPU内存中加载其他内容的20%开销

常用大模型内存占用

大小（billion）	模型位数	显存占用（GB）
1.5B	4	0.9
1.5B	8	1.8
1.5B	16	3.6
7B	4	4.2
7B	8	8.4
7B	16	16.8
9B	4	5.4
9B	8	10.8
9B	16	21.6
40B	4	24
40B	8	48
40B	16	96
70B	4	42
70B	8	84
70B	16	168

量化大模型的标准写法

经常看到量化大模型后面带着q2_k 、ft16 、 q5_k_s 、q8_0 等写法。这类写法代表着大模型的量化后的指标，释义如下：

传统量化

包括q4_0、q4_1、q8_0等方法。

如q4_0。代表模型位数=4，0表示保留0位小数。即数据会被量化到0-255之间的整数

K值量化

如q2_k、q5_k_s 等方法。实际上就是不同层用不同精度量化，以比传统量化更智能的方式分配bit。解压缩方式与传统量化类似,同样快速

上一篇：使用vscode编辑matlab完美解决方法

下一篇：C++引用简介

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？082026 年 AI 大模型 & AI 编程工具实战全总结 09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南