NVIDIA 显卡按架构清单
说明:表里"Tensor(TFLOPS)"列若分 FP32/FP16/TF32/INT8,我用厂商公开标称值(若厂商只标称 Tensor Core 性能我会注明)。若某项无权威公开值则标"---"。参考来源见表末。
| 架构 | 型号 | 典型用途 | 显存(类型) | 带宽 | 单卡价格 | FP32 TFLOPS | FP16 / Tensor TFLOPS | Compute Cap. | TDP (W) | 适合大模型(Engine 构建 / 推理) | 工程备注 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Hopper | H200 | 大型 LLM 推理 / HPC | 141 GB HBM3e | 4.8 TB/s | ≈ 45,000--50,000 USD | ~2,000 TFLOPS (标称 Tensor/TF32混合核) | Tensor TFLOPS(标称极高) | 9.x | 600--700W | ✅(超大模型首选) | 超大显存+带宽,适合 100B+ 模型、参数分片、高吞吐。(NVIDIA) |
| Hopper | H100 | LLM 训练 + 推理 | 80 / 94 / 140 GB HBM3 变体 | ~3.35 TB/s (典型 H100) | ≈ 25,000--30,000 USD | TF32/Tensor 数十〜上百 TFLOPS(见官方) | Transformer Engine 专用优化 | 9.0 | 400--700W | ✅(训练/推理) | H100 以训练/混合精度为重点,支持 MIG(A100 类增强版)。(NVIDIA) |
| Hopper | H20 (HGX H20 / HGX variant) | 企业级大规模推理 | 96 GB HBM3 | ~4.0 TB/s | ≈ 12,000--15,000 USD | FP16 / TFLOPS 高(厂商标称约 148 TFLOPS FP16 / 296 TFLOPS Tensor-like 在某表述) | 标称非常高 | 9.x | ~350--400W | ✅(高吞吐推理) | 市场上通常以"HGX H20" / OEM 型号出现;规格在不同发布中略有差异。(viperatech.com) |
| Ada (Data-center) | L40S | 推理 + 图形混合(虚拟化 / 云 GPU) | 48 GB GDDR6 (或 HBM 变体视型号) | 864 GB/s(厂商标称) | ≈ 11,000 USD | FP32 ≈ 91.6 TFLOPS | FP16 / Tensor 高(标称 362 TFLOPS 级别) | SM89 (Ada) | ~300--350W | ✅(推理 / 图形) | 面向推理加速与图形工作负载并重;对部分 LLM 推理很强(但显存类型/容量低于 H/H 系列)。(NVIDIA) |
| Ada (Data-center) | L20 | 图形密集 & AI 推理 (数据中心轻量) | 48 GB GDDR6 | ~864 GB/s(厂商/第三方资料) | ≈ 9,000 USD | FP32 ≈ 59 TFLOPS(非官方/近似) | FP16 / INT8 较强 | SM89 | ~275W | ✅(中型模型推理) | L20 定位偏"成本/功耗平衡"数据中心卡;部分公开规格来自第三方集合,采购前请核实厂商文档。(burncloud.com) |
| Ada (Consumer) | RTX 4090 | 桌面训练小模型 / 开发 | 24 GB GDDR6X | ~1008 GB/s (GDDR6X effective) | ---- | FP32 ≈ 82.6 TFLOPS(标称) | FP16 / Tensor 加速(不等同 H100) | SM89 | ~450W | ⚠️(开发/小推理) | 面向创作者/开发者,非常高的单卡性能,但架构/驱动对企业部署需谨慎(ECC、HBM 等企业功能欠缺)。(NVIDIA) |
| Ampere (Data-center) | A100 (80GB) | 训练 / 推理 / MIG | 80 GB HBM2e | 2.0 TB/s (80GB) | ≈ 10,000--15,000 USD | FP32 ~19.5 TFLOPS(依配置) | TF32/Tensor 大幅加速(标称非常高) | 8.0 | 250--400W | ✅(训练/推理) | A100 曾是 LLM 训练与推理的主力;支持 MIG,生态成熟。(NVIDIA) |
| Ampere (Data-center) | A10 / A30 | 推理 / 虚拟化 / 图形 | A10: 24 GB GDDR6 / A30: 24 GB HBM2? | A10 BW ~600 GB/s | FP32 A10 ≈ 31 TFLOPS | Tensor Core 支持 FP16/TF32 等 | 8.x | ~150--300W | ✅(推理/虚拟化) | A10 常见于推理集群与图形虚拟化场景,性价比优。(NVIDIA) | |
| Ampere (Workstation) | A6000 | 专业图形 + 小型训练 | 48 GB GDDR6 | ~768 GB/s | FP32 ≈ 38 TFLOPS | FP16 / Tensor 支持 | 8.x | ~300W | ⚠️(开发/小规模训练) | 面向工作站与专业图形,显存大适合较大 batch 的开发训练。(burncloud.com) | |
| Blackwell (note) | RTX 50-series (Blackwell) | 未来高端桌面/AI | (示例:RTX 5090)32 GB GDDR7 | 1792 GB/s(示例数据,厂商宣称) | FP32 & Tensor 大幅提升(厂商宣称) | Blackwell 系列为 2025 新一代 | TBD | TBD | ⚠️(刚上市/消费级) | Blackwell 为下一代消费/创作卡,企业 LLM 部署多以 H/Hopper/Ampere 为主;此处仅示例新一代趋势(新闻)。(The Verge) |
说明与要点
- 架构相容性(Engine 构建/运行)
- TensorRT / TensorRT-LLM 在构建 engine 时会针对具体 GPU 架构生成最优 kernel ,因此在 H100/H200/H20(Hopper)上构建的 engine 不能保证在 Ampere (A100) 或 Ada (L40/L20/RTX4090) 上运行 ;同代(Hopper↔Hopper)间通常可兼容。H100 的 compute capability 为 9.0(Hopper)。(hpctech.co.jp)
- 显存 & 带宽是大模型的关键
- 对于 13B/70B 及更大模型,显存容量 (HBM3/3e vs GDDR)与 内存带宽 (TB/s 级别)直接决定能否在单卡上做 large prefills / KV cache。H200/H100/H20 提供最高带宽与容量,适合生产级 LLM。(NVIDIA)
- 训练 vs 推理 的选择
- 训练/大型混合精度:优先选择 H100/H200(Hopper)或 A100(Ampere)视预算与可用性。
- 高吞吐推理/生产 :H200/H20(超大显存)或 L40S(推理/图形混合)常见。L40S 在云端虚拟化场景很受欢迎。(NVIDIA)
- 消费卡用于开发,但生产要慎重
- RTX 4090 / Blackwell (RTX 50x) 性能强,但 ECC、HBM、企业级管理/驱动与多 GPU 互联等企业功能有限,生产环境常偏向数据中心卡(H/A/L 系列)。(NVIDIA)
- 能源 / TDP 与机架功耗规划
- H200 类 GPU TDP 与功耗显著高(600--700W),数据中心需为电源/冷却与机架密度做规划(并注意 NVLink 带宽)。(Lenovo Press)