NVIDIA 显卡架构清单

NVIDIA 显卡按架构清单

说明:表里"Tensor(TFLOPS)"列若分 FP32/FP16/TF32/INT8,我用厂商公开标称值(若厂商只标称 Tensor Core 性能我会注明)。若某项无权威公开值则标"---"。参考来源见表末。

架构 型号 典型用途 显存(类型) 带宽 单卡价格 FP32 TFLOPS FP16 / Tensor TFLOPS Compute Cap. TDP (W) 适合大模型(Engine 构建 / 推理) 工程备注
Hopper H200 大型 LLM 推理 / HPC 141 GB HBM3e 4.8 TB/s ≈ 45,000--50,000 USD ~2,000 TFLOPS (标称 Tensor/TF32混合核) Tensor TFLOPS(标称极高) 9.x 600--700W ✅(超大模型首选) 超大显存+带宽,适合 100B+ 模型、参数分片、高吞吐。(NVIDIA)
Hopper H100 LLM 训练 + 推理 80 / 94 / 140 GB HBM3 变体 ~3.35 TB/s (典型 H100) ≈ 25,000--30,000 USD TF32/Tensor 数十〜上百 TFLOPS(见官方) Transformer Engine 专用优化 9.0 400--700W ✅(训练/推理) H100 以训练/混合精度为重点,支持 MIG(A100 类增强版)。(NVIDIA)
Hopper H20 (HGX H20 / HGX variant) 企业级大规模推理 96 GB HBM3 ~4.0 TB/s ≈ 12,000--15,000 USD FP16 / TFLOPS 高(厂商标称约 148 TFLOPS FP16 / 296 TFLOPS Tensor-like 在某表述) 标称非常高 9.x ~350--400W ✅(高吞吐推理) 市场上通常以"HGX H20" / OEM 型号出现;规格在不同发布中略有差异。(viperatech.com)
Ada (Data-center) L40S 推理 + 图形混合(虚拟化 / 云 GPU) 48 GB GDDR6 (或 HBM 变体视型号) 864 GB/s(厂商标称) ≈ 11,000 USD FP32 ≈ 91.6 TFLOPS FP16 / Tensor 高(标称 362 TFLOPS 级别) SM89 (Ada) ~300--350W ✅(推理 / 图形) 面向推理加速与图形工作负载并重;对部分 LLM 推理很强(但显存类型/容量低于 H/H 系列)。(NVIDIA)
Ada (Data-center) L20 图形密集 & AI 推理 (数据中心轻量) 48 GB GDDR6 ~864 GB/s(厂商/第三方资料) ≈ 9,000 USD FP32 ≈ 59 TFLOPS(非官方/近似) FP16 / INT8 较强 SM89 ~275W ✅(中型模型推理) L20 定位偏"成本/功耗平衡"数据中心卡;部分公开规格来自第三方集合,采购前请核实厂商文档。(burncloud.com)
Ada (Consumer) RTX 4090 桌面训练小模型 / 开发 24 GB GDDR6X ~1008 GB/s (GDDR6X effective) ---- FP32 ≈ 82.6 TFLOPS(标称) FP16 / Tensor 加速(不等同 H100) SM89 ~450W ⚠️(开发/小推理) 面向创作者/开发者,非常高的单卡性能,但架构/驱动对企业部署需谨慎(ECC、HBM 等企业功能欠缺)。(NVIDIA)
Ampere (Data-center) A100 (80GB) 训练 / 推理 / MIG 80 GB HBM2e 2.0 TB/s (80GB) ≈ 10,000--15,000 USD FP32 ~19.5 TFLOPS(依配置) TF32/Tensor 大幅加速(标称非常高) 8.0 250--400W ✅(训练/推理) A100 曾是 LLM 训练与推理的主力;支持 MIG,生态成熟。(NVIDIA)
Ampere (Data-center) A10 / A30 推理 / 虚拟化 / 图形 A10: 24 GB GDDR6 / A30: 24 GB HBM2? A10 BW ~600 GB/s FP32 A10 ≈ 31 TFLOPS Tensor Core 支持 FP16/TF32 等 8.x ~150--300W ✅(推理/虚拟化) A10 常见于推理集群与图形虚拟化场景,性价比优。(NVIDIA)
Ampere (Workstation) A6000 专业图形 + 小型训练 48 GB GDDR6 ~768 GB/s FP32 ≈ 38 TFLOPS FP16 / Tensor 支持 8.x ~300W ⚠️(开发/小规模训练) 面向工作站与专业图形,显存大适合较大 batch 的开发训练。(burncloud.com)
Blackwell (note) RTX 50-series (Blackwell) 未来高端桌面/AI (示例:RTX 5090)32 GB GDDR7 1792 GB/s(示例数据,厂商宣称) FP32 & Tensor 大幅提升(厂商宣称) Blackwell 系列为 2025 新一代 TBD TBD ⚠️(刚上市/消费级) Blackwell 为下一代消费/创作卡,企业 LLM 部署多以 H/Hopper/Ampere 为主;此处仅示例新一代趋势(新闻)。(The Verge)

说明与要点

  1. 架构相容性(Engine 构建/运行)
    • TensorRT / TensorRT-LLM 在构建 engine 时会针对具体 GPU 架构生成最优 kernel ,因此在 H100/H200/H20(Hopper)上构建的 engine 不能保证在 Ampere (A100) 或 Ada (L40/L20/RTX4090) 上运行 ;同代(Hopper↔Hopper)间通常可兼容。H100 的 compute capability 为 9.0(Hopper)。(hpctech.co.jp)
  2. 显存 & 带宽是大模型的关键
    • 对于 13B/70B 及更大模型,显存容量 (HBM3/3e vs GDDR)与 内存带宽 (TB/s 级别)直接决定能否在单卡上做 large prefills / KV cache。H200/H100/H20 提供最高带宽与容量,适合生产级 LLM。(NVIDIA)
  3. 训练 vs 推理 的选择
    • 训练/大型混合精度:优先选择 H100/H200(Hopper)或 A100(Ampere)视预算与可用性。
    • 高吞吐推理/生产 :H200/H20(超大显存)或 L40S(推理/图形混合)常见。L40S 在云端虚拟化场景很受欢迎。(NVIDIA)
  4. 消费卡用于开发,但生产要慎重
    • RTX 4090 / Blackwell (RTX 50x) 性能强,但 ECC、HBM、企业级管理/驱动与多 GPU 互联等企业功能有限,生产环境常偏向数据中心卡(H/A/L 系列)。(NVIDIA)
  5. 能源 / TDP 与机架功耗规划
    • H200 类 GPU TDP 与功耗显著高(600--700W),数据中心需为电源/冷却与机架密度做规划(并注意 NVLink 带宽)。(Lenovo Press)

主要引用

  • NVIDIA H100 official page / Hopper overview. (NVIDIA)
  • NVIDIA H200 product page / datasheet. (NVIDIA)
  • NVIDIA A100 datasheet (PDF). (NVIDIA)
  • NVIDIA L40S product page. (NVIDIA)
  • NVIDIA A10 product page. (NVIDIA)
相关推荐
社会零时工15 小时前
NVIDIA Jetson开发板使用记录——开发环境搭建
qt·opencv·nvidia
Eloudy1 天前
全文 - Control Flow Management in Modern GPUs
gpu·arch
DeeplyMind1 天前
TTM ttm_tt技术分析系列1:导读
linux·驱动开发·gpu·amd·gart
点云SLAM2 天前
点云配准算法之-Voxelized GICP(VGICP)算法
算法·机器人·gpu·slam·点云配准·vgicp算法·gicp算法
Eloudy3 天前
learning_gem5 part2_07 ARM 功耗建模
gpu·arch·gem5
云雾J视界3 天前
多Stream并发实战:用流水线技术将AIGC服务P99延迟压降63%
aigc·api·cpu·stream·gpu·cuda·多并发
Eloudy3 天前
03章 内核状态 - “Vega“ 7nm Instruction Set ArchitectureReference Guide
gpu·arch
伟大的大威4 天前
NVIDIA Jetson Orin Nano 刷机避坑指南:NVMe启动 + SDK Manager + 解决卡启动/红字报错
nvidia·jetson·orin nano
Eloudy4 天前
02 程序组织 - “Vega“ 7nm Instruction Set ArchitectureReference Guide
gpu·arch