Hopper 架构的核心变化

Hopper 架构的核心变化，可以一句话概括：

它是 NVIDIA 第一代真正围绕"大模型 / Transformer / 超大规模集群"系统设计的 GPU 架构。

相比 A100/A800 所在的 Ampere，Hopper 不是只把算力做大，而是同时强化了：

text 复制代码

1. 低精度 Transformer 计算
2. 数据搬运
3. 矩阵乘指令
4. 多 GPU 通信
5. 大模型安全隔离
6. 动态规划/HPC 专用指令

1. 第四代 Tensor Core：矩阵乘更强

Hopper 的 H100 使用 第四代 Tensor Core 。NVIDIA 官方说明，H100 Tensor Core 相比 A100 在同等数据类型下有更高 MMA 计算速率，并新增 FP8 路径；H100 支持 FP8、FP16、BF16、TF32、FP64、INT8 等 MMA 类型。(developer.nvidia.com)

对大模型来说，最重要的是：

text 复制代码

FP16 / BF16 GEMM 更强
FP8 GEMM 新增
Transformer 训练和推理可以更快

Ampere / A800 有 BF16、FP16、TF32、INT8 Tensor Core，但没有 Hopper 的 FP8 Tensor Core。

2. Transformer Engine：专门为 Transformer 做 FP8 混合精度

Hopper 引入了 Transformer Engine 。它会在 FP8 和 FP16/BF16 之间自动选择合适精度，并配合 scaling，尽量在保持精度的同时提高速度、降低显存占用。NVIDIA 官方称 Hopper Tensor Cores 可以使用混合 FP8 和 FP16 精度来加速 Transformer 计算。(nvidia.com)

简单理解：

text 复制代码

以前：
主要用 FP16 / BF16 跑大模型

Hopper：
能把很多矩阵乘降到 FP8
显存占用更小
带宽压力更低
Tensor Core 吞吐更高

这就是为什么 H100/H800 对大模型训练和推理特别强。

3. TMA：Tensor Memory Accelerator，专门搬 tensor tile

Hopper 新增 TMA ，即 Tensor Memory Accelerator。它可以把大块数据和多维 tensor 在 global memory 与 shared memory 之间异步搬运；TMA 使用 copy descriptor 描述 tensor 维度和 block 坐标，减少逐元素地址计算开销。NVIDIA 官方说明，TMA 支持 1D 到 5D tensor，且可以由一个线程发起，地址生成和数据搬运由硬件处理。(developer.nvidia.com)

对你写 kernel 来说，它的意义很大：

text 复制代码

A800 / Ampere：
很多线程用 cp.async 搬数据

H100 / Hopper：
一个线程提交 TMA descriptor
硬件负责搬大块 tensor tile
其他线程继续计算

它解决的是：

text 复制代码

Tensor Core 很快，但数据喂不上去

所以 TMA 特别适合：

text 复制代码

FlashAttention-3
大 GEMM tile pipeline
MoE expert GEMM
长上下文 attention

4. WGMMA：warp-group 级矩阵乘

Hopper 还引入了 WGMMA，也就是 warp-group matrix multiply-accumulate。

Ampere 上常见的是：

text 复制代码

mma.sync：
一个 warp = 32 个线程协同做矩阵乘

Hopper 变成：

text 复制代码

wgmma.mma_async：
一个 warp group = 4 个 warp = 128 个线程协同做更大 tile 的矩阵乘

这意味着 Hopper 可以用更大粒度、更异步的方式喂 Tensor Core。NVIDIA Blackwell Ultra 技术资料在回顾历代 Tensor Core 时也把 Hopper 描述为支持 128 线程 warp-group MMA 和 FP8 Transformer Engine 的一代。(developer.nvidia.com)

它和 TMA 是配套的：

text 复制代码

TMA：
把 tensor tile 搬进 shared memory

WGMMA：
用 128 个线程协同调用 Tensor Core 做大矩阵乘

async barrier：
协调搬运和计算流水

所以 Hopper 的 kernel 优化范式从 Ampere 的：

text 复制代码

cp.async + mma.sync

升级成：

text 复制代码

TMA + WGMMA + async pipeline

5. Thread Block Cluster 和 Distributed Shared Memory

Hopper 在 CUDA 编程模型里增加了 thread block cluster 层级。传统 CUDA 只有：

text 复制代码

grid → block → thread

Hopper 增加了：

text 复制代码

grid → cluster → block → thread

这让多个 thread blocks 可以更紧密协作。NVIDIA 官方说明，Hopper 添加了可选 cluster hierarchy，并引入新的异步执行特性，减少同步开销、增强数据搬运和计算重叠。(developer.nvidia.com)

它的意义是：

text 复制代码

以前：
一个 block 主要在一个 SM 内部协作

Hopper：
多个 block 可以组成 cluster
跨 SM 更高效协作
适合更大 tile、更复杂流水

这对 FlashAttention、GEMM、长序列 attention、复杂 reduction 都有价值。

6. 第四代 NVLink / NVLink Switch：多卡大模型更强

Hopper 面向的不只是单卡，而是大规模 GPU 集群。H100 使用第四代 NVLink，单 GPU 双向带宽可达 900 GB/s；NVLink Switch System 可以让最多 256 个 GPU 跨节点连接，并提供大规模 all-to-all 通信能力。(nvidia.com)

这对大模型非常关键，因为 MoE、Tensor Parallel、Pipeline Parallel、Expert Parallel 都依赖通信。

对 DeepSeek / MoE 模型来说，瓶颈经常是：

text 复制代码

expert dispatch
all-to-all
all-reduce
KV cache 传输
跨卡参数/激活通信

Hopper 的通信系统就是为了支撑这些大规模模型并行。

7. DPX 指令：动态规划加速

Hopper 新增 DPX instructions ，用于加速动态规划类算法。NVIDIA 官方提到 DPX 可以加速 Smith-Waterman 基因序列比对、Floyd-Warshall 最短路径等动态规划任务，相比 A100 最高可获得 7 倍提升。(developer.nvidia.com)

这个对 LLM 不是核心，但对 HPC、基因组学、路径规划、组合优化有价值。

8. Confidential Computing：安全计算

Hopper 引入加速计算平台上的 confidential computing 能力，用于保护数据和应用在"使用中"的安全。NVIDIA 官方称 Hopper 是首个具备 confidential computing 能力的加速计算平台。(nvidia.com)

这对云端 AI 很重要：

text 复制代码

模型权重
用户数据
推理请求
企业私有数据

在云上运行时可以获得更强硬件级隔离与保护。

9. HBM3 和更高内存带宽

H100 SXM5 支持 80GB HBM3，NVIDIA 官方材料中提到其显存带宽超过 3 TB/s，相比 A100 有明显提升。(developer.nvidia.com)

这对大模型推理尤其关键，因为 decode 阶段经常不是算力瓶颈，而是：

text 复制代码

读权重
读 KV cache
读 expert 参数
小 batch GEMV/GEMM

带宽越高，decode 越有优势。

10. 和 A800/A100 的本质差异

可以这样记：

能力	A800/A100 Ampere	H100/H800 Hopper
Tensor Core	第三代	第四代
FP8 Tensor Core	没有	有
Transformer Engine	没有	有
TMA	没有	有
WGMMA	没有	有
编程范式	`cp.async + mma.sync`	`TMA + WGMMA + async pipeline`
NVLink	第三代	第四代
长上下文 attention	FA2 友好	FA3 更友好
大模型推理	能跑，但很多新快路径吃不到	更适合 FP8 / MoE / 长上下文

11. 对大模型推理最重要的 4 个点

如果只看 LLM，Hopper 最关键的是：

text 复制代码

1. FP8 Transformer Engine
2. TMA 数据搬运
3. WGMMA 大粒度 Tensor Core 矩阵乘
4. NVLink / NVSwitch 多卡通信

对应到 DeepSeek-V4 / MoE / 长上下文：

text 复制代码

FP8：
降低权重、激活、KV cache 带宽压力

TMA：
更高效搬 Q/K/V tile 和 GEMM tile

WGMMA：
更高效做大矩阵乘和 FlashAttention

NVLink：
支撑 expert parallel / tensor parallel / all-to-all

最简洁结论：

Hopper 的新特点不是单纯"算力更大"，而是为 Transformer 大模型构建了一整套硬件路径：FP8 低精度、TMA 搬数据、WGMMA 算矩阵、NVLink 做多卡通信。A800/A100 仍然是强卡，但它们缺少这些 Hopper 专门为大模型时代准备的新机制。