显存和算力的关系

我们在模型的使用过程中，经常会发现一些模型显存够用但是算力跟不上，这时就会出现有关显存和算力之间的关系，尤其是有些模型会出现不吃显存但是很吃算力的情况，需要具体情况具体进行分析。

概念	通俗理解	决定因素
显存（Memory）	GPU 上存数据的"仓库"	模型参数大小、KV cache、大批量输入、激活值等
算力（Compute）	GPU/CPU 执行矩阵乘法的"发动机"	AICore/SM 数量、主频、算力峰值（TFLOPS）

显存不是抽象的"容量"，而是由独立的存储芯片提供的，焊在 GPU 板卡上，常见的显存芯片是HBM和GDDR：

决定显存大小的物理因素：

A100（80GB）用的是 HBM2e，显存芯片总容量物理就是 80GB，没法通过软件"变大"。如果模型 + KV cache 超过了 80GB，就只能拆分（分布式）或换更大显存的卡。

算力的载体是GPU 核心（SM/AI Core），算力来自 GPU 内部的计算单元（CUDA Core、Tensor Core 或 NPU AICore）。它们负责执行矩阵乘法、向量加法等浮点操作。

算力大小的主要物理决定因素：

类似CPU的计算原则，算力 = 核心数 × 每核每周期操作数 × 主频 × (是否使用 Tensor Core 等加速单元)

软件无法"创造"更多显存或算力，只能更高效地利用现有资源（比如通过量化节省显存，或通过并行提升利用率）。总的来说1、显存是容量限制，由 GPU 上的存储芯片决定，决定你能"装下"什么。2、算力是计算能力，由核心数量和频率决定，决定你能"算得多快"。

HBM（High Bandwidth Memory）是一种专为高性能计算（HPC、AI、大模型）设计的显存技术，它最大的特点就是：