NVIDIA 显卡架构清单

NVIDIA 显卡按架构清单

说明：表里"Tensor（TFLOPS）"列若分 FP32/FP16/TF32/INT8，我用厂商公开标称值（若厂商只标称 Tensor Core 性能我会注明）。若某项无权威公开值则标"---"。参考来源见表末。

架构	型号	典型用途	显存（类型）	带宽	单卡价格	FP32 TFLOPS	FP16 / Tensor TFLOPS	Compute Cap.	TDP (W)	适合大模型（Engine 构建 / 推理）	工程备注
Hopper	H200	大型 LLM 推理 / HPC	141 GB HBM3e	4.8 TB/s	≈ 45,000--50,000 USD	~2,000 TFLOPS (标称 Tensor/TF32混合核)	Tensor TFLOPS（标称极高）	9.x	600--700W	✅（超大模型首选）	超大显存+带宽，适合 100B+ 模型、参数分片、高吞吐。(NVIDIA)
Hopper	H100	LLM 训练 + 推理	80 / 94 / 140 GB HBM3 变体	~3.35 TB/s (典型 H100)	≈ 25,000--30,000 USD	TF32/Tensor 数十〜上百 TFLOPS（见官方）	Transformer Engine 专用优化	9.0	400--700W	✅（训练/推理）	H100 以训练/混合精度为重点，支持 MIG（A100 类增强版）。(NVIDIA)
Hopper	H20 (HGX H20 / HGX variant)	企业级大规模推理	96 GB HBM3	~4.0 TB/s	≈ 12,000--15,000 USD	FP16 / TFLOPS 高（厂商标称约 148 TFLOPS FP16 / 296 TFLOPS Tensor-like 在某表述）	标称非常高	9.x	~350--400W	✅（高吞吐推理）	市场上通常以"HGX H20" / OEM 型号出现；规格在不同发布中略有差异。(viperatech.com)
Ada (Data-center)	L40S	推理 + 图形混合（虚拟化 / 云 GPU）	48 GB GDDR6 (或 HBM 变体视型号)	864 GB/s（厂商标称）	≈ 11,000 USD	FP32 ≈ 91.6 TFLOPS	FP16 / Tensor 高（标称 362 TFLOPS 级别）	SM89 (Ada)	~300--350W	✅（推理 / 图形）	面向推理加速与图形工作负载并重；对部分 LLM 推理很强（但显存类型/容量低于 H/H 系列）。(NVIDIA)
Ada (Data-center)	L20	图形密集 & AI 推理 (数据中心轻量)	48 GB GDDR6	~864 GB/s（厂商/第三方资料）	≈ 9,000 USD	FP32 ≈ 59 TFLOPS（非官方/近似）	FP16 / INT8 较强	SM89	~275W	✅（中型模型推理）	L20 定位偏"成本/功耗平衡"数据中心卡；部分公开规格来自第三方集合，采购前请核实厂商文档。(burncloud.com)
Ada (Consumer)	RTX 4090	桌面训练小模型 / 开发	24 GB GDDR6X	~1008 GB/s (GDDR6X effective)	----	FP32 ≈ 82.6 TFLOPS（标称）	FP16 / Tensor 加速（不等同 H100）	SM89	~450W	⚠️（开发/小推理）	面向创作者/开发者，非常高的单卡性能，但架构/驱动对企业部署需谨慎（ECC、HBM 等企业功能欠缺）。(NVIDIA)
Ampere (Data-center)	A100 (80GB)	训练 / 推理 / MIG	80 GB HBM2e	2.0 TB/s (80GB)	≈ 10,000--15,000 USD	FP32 ~19.5 TFLOPS（依配置）	TF32/Tensor 大幅加速（标称非常高）	8.0	250--400W	✅（训练/推理）	A100 曾是 LLM 训练与推理的主力；支持 MIG，生态成熟。(NVIDIA)
Ampere (Data-center)	A10 / A30	推理 / 虚拟化 / 图形	A10: 24 GB GDDR6 / A30: 24 GB HBM2?	A10 BW ~600 GB/s		FP32 A10 ≈ 31 TFLOPS	Tensor Core 支持 FP16/TF32 等	8.x	~150--300W	✅（推理/虚拟化）	A10 常见于推理集群与图形虚拟化场景，性价比优。(NVIDIA)
Ampere (Workstation)	A6000	专业图形 + 小型训练	48 GB GDDR6	~768 GB/s		FP32 ≈ 38 TFLOPS	FP16 / Tensor 支持	8.x	~300W	⚠️（开发/小规模训练）	面向工作站与专业图形，显存大适合较大 batch 的开发训练。(burncloud.com)
Blackwell (note)	RTX 50-series (Blackwell)	未来高端桌面/AI	（示例：RTX 5090）32 GB GDDR7	1792 GB/s（示例数据，厂商宣称）		FP32 & Tensor 大幅提升（厂商宣称）	Blackwell 系列为 2025 新一代	TBD	TBD	⚠️（刚上市/消费级）	Blackwell 为下一代消费/创作卡，企业 LLM 部署多以 H/Hopper/Ampere 为主；此处仅示例新一代趋势（新闻）。(The Verge)

说明与要点

架构相容性（Engine 构建/运行）
- TensorRT / TensorRT-LLM 在构建 engine 时会针对具体 GPU 架构生成最优 kernel ，因此在 H100/H200/H20（Hopper）上构建的 engine 不能保证在 Ampere (A100) 或 Ada (L40/L20/RTX4090) 上运行 ；同代（Hopper↔Hopper）间通常可兼容。H100 的 compute capability 为 9.0（Hopper）。(hpctech.co.jp)
显存 & 带宽是大模型的关键
- 对于 13B/70B 及更大模型，显存容量 （HBM3/3e vs GDDR）与 内存带宽 （TB/s 级别）直接决定能否在单卡上做 large prefills / KV cache。H200/H100/H20 提供最高带宽与容量，适合生产级 LLM。(NVIDIA)
训练 vs 推理的选择
- 训练/大型混合精度：优先选择 H100/H200（Hopper）或 A100（Ampere）视预算与可用性。
- 高吞吐推理/生产 ：H200/H20（超大显存）或 L40S（推理/图形混合）常见。L40S 在云端虚拟化场景很受欢迎。(NVIDIA)
消费卡用于开发，但生产要慎重
- RTX 4090 / Blackwell (RTX 50x) 性能强，但 ECC、HBM、企业级管理/驱动与多 GPU 互联等企业功能有限，生产环境常偏向数据中心卡（H/A/L 系列）。(NVIDIA)
能源 / TDP 与机架功耗规划
- H200 类 GPU TDP 与功耗显著高（600--700W），数据中心需为电源/冷却与机架密度做规划（并注意 NVLink 带宽）。(Lenovo Press)

主要引用

NVIDIA H100 official page / Hopper overview. (NVIDIA)
NVIDIA H200 product page / datasheet. (NVIDIA)
NVIDIA A100 datasheet (PDF). (NVIDIA)
NVIDIA L40S product page. (NVIDIA)
NVIDIA A10 product page. (NVIDIA)