什么是算力?

作者:吴佳浩
撰稿时间:2026-3-10
测试版本:4090 48G魔 改&5090 32G
一份写给 AI 工程师的硬件认知指南
前言
"算力不够" ------这句话你一定听过。
但你真的知道它在说什么吗?
很多人第一反应是:
算力 = TFLOPS 越高越强
这个认知不完整,在很多场景下甚至是错的。
本文从工程实践出发,帮你建立一个清晰的算力思维模型。
一、算力不是单一指标
在 AI 系统里,真正决定性能的是一个组合公式:
scss
有效算力 = min(计算能力, 显存带宽, 显存容量, IO带宽, 软件效率)
就像木桶原理:任意一项成为瓶颈,整体性能就被限制。
二、算力的历史演化
理解"算力"这个词为什么如此混乱,需要了解它的历史。
三、三大核心指标详解
3.1 显存容量:能不能跑
显存决定了你能不能把模型加载进来。
核心公式:
显存需求 ≈ 参数量 × 精度字节数
| 精度 | 每参数占用 |
|---|---|
| FP32 | 4 bytes |
| FP16 / BF16 | 2 bytes |
| INT8 | 1 byte |
| INT4 | 0.5 bytes |
常见模型显存需求(FP16):
| 模型规模 | 显存需求 | 典型 GPU |
|---|---|---|
| 7B | ≈ 14 GB | RTX 4090 (24GB) |
| 14B | ≈ 28 GB | RTX 4090 × 2 |
| 70B | ≈ 140 GB | H100 × 2 |
| 405B | ≈ 810 GB | H100 × 10+ |
⚠️ 很多人说"算力不够跑 70B",真实意思其实是显存不够。
3.2 显存带宽:跑多快
显存带宽决定了数据从显存搬运到计算单元的速度。
这是 LLM 推理速度的核心决定因素。
LLM 推理速度简化公式:
bash
token/s ≈ 显存带宽 / 模型大小
举例(7B 模型,FP16 ≈ 14GB):
bash
RTX 4090: 1000 GB/s ÷ 14 GB ≈ 70 token/s
A100: 1555 GB/s ÷ 14 GB ≈ 110 token/s
H100: 3350 GB/s ÷ 14 GB ≈ 240 token/s
bar-chart
title 主流 GPU 显存带宽对比 (GB/s)
| GPU | 显存带宽 | 显存容量 |
|---|---|---|
| RTX 4090 | 1,008 GB/s | 24 GB(官方版本) |
| RTX 5090 | ~1,800 GB/s | 32 GB |
| A100 SXM | 2,000 GB/s | 80 GB |
| H100 SXM | 3,350 GB/s | 80 GB |
| H200 | 4,800 GB/s | 141 GB |
💡 这就是为什么 4090 推理速度有时不如 A100 :不是 TOPS 不够,而是带宽更窄。
3.3 Tensor Core 算力:理论上限
Tensor Core 是专门加速矩阵乘法的硬件单元,决定了计算密集型任务的理论上限。
主流 GPU Tensor Core 算力对比:
| GPU | FP16 TFLOPS | INT8 TOPS | 架构 |
|---|---|---|---|
| RTX 3090 | 35 | 285 | Ampere |
| RTX 4090 | 82 | 660 | Ada Lovelace |
| RTX 5090 | ~200+ | 1,600+ | Blackwell |
| A100 SXM | 312 | 624 | Ampere |
| H100 SXM | 989 | 1,979 | Hopper |
| H200 SXM | 989 | 1,979 | Hopper |
四、不同场景下"算力"指什么
场景对照表
| 场景 | "算力"指什么 | 最关键指标 |
|---|---|---|
| LLM 推理(能不能跑) | 显存容量 | GB |
| LLM 推理(跑多快) | 显存带宽 + TOPS | GB/s + TFLOPS |
| AI 模型训练 | FP16/BF16 TFLOPS | TFLOPS |
| CV / 视频推理 | INT8 TOPS | TOPS |
| 芯片宣传材料 | 通常是 TOPS | 需注意精度单位 |
| 移动端 / NPU | INT8/INT4 TOPS | TOPS |
五、经典案例:48GB 魔改 4090 vs 32GB 5090
为什么 显存更大 的 GPU,反而比不过显存更小的新卡?
这是一个非常有代表性的反直觉案例。
⚠️ 特别说明:NVIDIA 官方从未发布过 48GB 版本的 RTX 4090。 市面上流通的"48GB 4090"均为第三方厂商将显存芯片换焊为 48GB 的魔改(非官方)版本,不在 NVIDIA 官方产品线内,存在兼容性与稳定性风险,购买需谨慎。
核心结论:
yaml
魔改 48GB 4090 只换焊了显存芯片,扩大了容量
带宽、CUDA核心、Tensor Core 全部没有变化
32GB 5090 是整体架构升级
带宽提升 ~70%,AI算力提升 ~2-3倍
本质:显存容量 ≠ AI 性能
六、LLM 推理的内存墙问题
这是 99% AI 工程师容易忽略的核心知识。
为什么同样 TFLOPS 的 GPU,速度能差 3 倍?
实际决定速度的是算术强度(Arithmetic Intensity):
算术强度 = 计算量(FLOPS)/ 数据访问量(Bytes)
- 高算术强度 → Compute-bound → TFLOPS 重要
- 低算术强度 → Memory-bound → 带宽重要
LLM 单 token 推理的算术强度极低,因此:
带宽 >>> TFLOPS
七、训练 vs 推理的算力需求对比
| 维度 | 训练 | 推理 |
|---|---|---|
| 关键指标 | FP16/BF16 TFLOPS | 带宽 + TOPS |
| 显存需求 | 模型 + 梯度 + 优化器 ≈ 6× 参数 | 模型 + KV Cache |
| 计算量 | 参数量 × 4-6 | 参数量 × 2 |
| 典型硬件 | H100 集群 | A10G / L4 / 4090 |
| 精度要求 | BF16 必须 | INT8 / FP8 可用 |
八、精度与 TOPS 的关系
芯片宣传中最常见的"坑":
RTX 4090 实际数字:
| 精度 | 算力 |
|---|---|
| FP32 | 82.6 TFLOPS |
| FP16 (Tensor Core) | 82.6 TFLOPS |
| BF16 | 82.6 TFLOPS |
| INT8 | 660 TOPS |
| INT4 | 1,321 TOPS |
⚠️ 宣传材料里的 "TOPS" 通常是 INT8 甚至 INT4 数字,与 FP16 不能直接对比!
九、新架构带来的质变
从 Ada Lovelace (4090) 到 Blackwell (5090) 的变化,远不止参数提升:
十、工程师速查卡
选型决策树
一句话总结
bash
能不能跑 → 显存容量(GB)
跑多快 → 显存带宽(GB/s)
理论上限 → TOPS / TFLOPS
十一、常见误区汇总
| 误区 | 正确认知 |
|---|---|
| "算力越高跑越快" | LLM 推理主要受带宽限制,不是 TOPS |
| "显存大 = 性能强" | 显存容量只决定能不能跑,不决定速度 |
| "TOPS 越高越好" | TOPS 和 TFLOPS 精度不同,不能直接比较 |
| "4090 比 A100 强" | 游戏强,但 LLM 推理 A100 带宽更高更快 |
| "魔改 48GB 4090 = 高端 AI 卡" | 仅第三方换焊显存芯片,只增加了容量,带宽和算力没变;且非 NVIDIA 官方产品,稳定性存疑 |
| "训练和推理需求一样" | 训练需要 FP16 TFLOPS,推理更需要带宽 |
结语
算力不是一个数字,而是一个系统。
在工程实践中,记住这个框架:
下次再听到"算力不够",先问三个问题:
- 是显存不够?(装不下)
- 还是带宽不够?(跑太慢)
- 还是 TOPS 不够?(计算跟不上)
只有搞清楚瓶颈在哪,才能做出正确的硬件选型决策。
本文基于工程实践经验整理,数据仅供参考,实际性能受软件栈、精度、batch size 等因素影响。