Hopper 架构的核心变化

Hopper 架构的核心变化,可以一句话概括:

它是 NVIDIA 第一代真正围绕"大模型 / Transformer / 超大规模集群"系统设计的 GPU 架构。

相比 A100/A800 所在的 Ampere,Hopper 不是只把算力做大,而是同时强化了:

text 复制代码
1. 低精度 Transformer 计算
2. 数据搬运
3. 矩阵乘指令
4. 多 GPU 通信
5. 大模型安全隔离
6. 动态规划/HPC 专用指令

1. 第四代 Tensor Core:矩阵乘更强

Hopper 的 H100 使用 第四代 Tensor Core 。NVIDIA 官方说明,H100 Tensor Core 相比 A100 在同等数据类型下有更高 MMA 计算速率,并新增 FP8 路径;H100 支持 FP8、FP16、BF16、TF32、FP64、INT8 等 MMA 类型。(developer.nvidia.com)

对大模型来说,最重要的是:

text 复制代码
FP16 / BF16 GEMM 更强
FP8 GEMM 新增
Transformer 训练和推理可以更快

Ampere / A800 有 BF16、FP16、TF32、INT8 Tensor Core,但没有 Hopper 的 FP8 Tensor Core。


2. Transformer Engine:专门为 Transformer 做 FP8 混合精度

Hopper 引入了 Transformer Engine 。它会在 FP8 和 FP16/BF16 之间自动选择合适精度,并配合 scaling,尽量在保持精度的同时提高速度、降低显存占用。NVIDIA 官方称 Hopper Tensor Cores 可以使用混合 FP8 和 FP16 精度来加速 Transformer 计算。(nvidia.com)

简单理解:

text 复制代码
以前:
主要用 FP16 / BF16 跑大模型

Hopper:
能把很多矩阵乘降到 FP8
显存占用更小
带宽压力更低
Tensor Core 吞吐更高

这就是为什么 H100/H800 对大模型训练和推理特别强。


3. TMA:Tensor Memory Accelerator,专门搬 tensor tile

Hopper 新增 TMA ,即 Tensor Memory Accelerator。它可以把大块数据和多维 tensor 在 global memory 与 shared memory 之间异步搬运;TMA 使用 copy descriptor 描述 tensor 维度和 block 坐标,减少逐元素地址计算开销。NVIDIA 官方说明,TMA 支持 1D 到 5D tensor,且可以由一个线程发起,地址生成和数据搬运由硬件处理。(developer.nvidia.com)

对你写 kernel 来说,它的意义很大:

text 复制代码
A800 / Ampere:
很多线程用 cp.async 搬数据

H100 / Hopper:
一个线程提交 TMA descriptor
硬件负责搬大块 tensor tile
其他线程继续计算

它解决的是:

text 复制代码
Tensor Core 很快,但数据喂不上去

所以 TMA 特别适合:

text 复制代码
FlashAttention-3
大 GEMM tile pipeline
MoE expert GEMM
长上下文 attention

4. WGMMA:warp-group 级矩阵乘

Hopper 还引入了 WGMMA,也就是 warp-group matrix multiply-accumulate。

Ampere 上常见的是:

text 复制代码
mma.sync:
一个 warp = 32 个线程协同做矩阵乘

Hopper 变成:

text 复制代码
wgmma.mma_async:
一个 warp group = 4 个 warp = 128 个线程协同做更大 tile 的矩阵乘

这意味着 Hopper 可以用更大粒度、更异步的方式喂 Tensor Core。NVIDIA Blackwell Ultra 技术资料在回顾历代 Tensor Core 时也把 Hopper 描述为支持 128 线程 warp-group MMA 和 FP8 Transformer Engine 的一代。(developer.nvidia.com)

它和 TMA 是配套的:

text 复制代码
TMA:
把 tensor tile 搬进 shared memory

WGMMA:
用 128 个线程协同调用 Tensor Core 做大矩阵乘

async barrier:
协调搬运和计算流水

所以 Hopper 的 kernel 优化范式从 Ampere 的:

text 复制代码
cp.async + mma.sync

升级成:

text 复制代码
TMA + WGMMA + async pipeline

5. Thread Block Cluster 和 Distributed Shared Memory

Hopper 在 CUDA 编程模型里增加了 thread block cluster 层级。传统 CUDA 只有:

text 复制代码
grid → block → thread

Hopper 增加了:

text 复制代码
grid → cluster → block → thread

这让多个 thread blocks 可以更紧密协作。NVIDIA 官方说明,Hopper 添加了可选 cluster hierarchy,并引入新的异步执行特性,减少同步开销、增强数据搬运和计算重叠。(developer.nvidia.com)

它的意义是:

text 复制代码
以前:
一个 block 主要在一个 SM 内部协作

Hopper:
多个 block 可以组成 cluster
跨 SM 更高效协作
适合更大 tile、更复杂流水

这对 FlashAttention、GEMM、长序列 attention、复杂 reduction 都有价值。


Hopper 面向的不只是单卡,而是大规模 GPU 集群。H100 使用第四代 NVLink,单 GPU 双向带宽可达 900 GB/s;NVLink Switch System 可以让最多 256 个 GPU 跨节点连接,并提供大规模 all-to-all 通信能力。(nvidia.com)

这对大模型非常关键,因为 MoE、Tensor Parallel、Pipeline Parallel、Expert Parallel 都依赖通信。

对 DeepSeek / MoE 模型来说,瓶颈经常是:

text 复制代码
expert dispatch
all-to-all
all-reduce
KV cache 传输
跨卡参数/激活通信

Hopper 的通信系统就是为了支撑这些大规模模型并行。


7. DPX 指令:动态规划加速

Hopper 新增 DPX instructions ,用于加速动态规划类算法。NVIDIA 官方提到 DPX 可以加速 Smith-Waterman 基因序列比对、Floyd-Warshall 最短路径等动态规划任务,相比 A100 最高可获得 7 倍提升。(developer.nvidia.com)

这个对 LLM 不是核心,但对 HPC、基因组学、路径规划、组合优化有价值。


8. Confidential Computing:安全计算

Hopper 引入加速计算平台上的 confidential computing 能力,用于保护数据和应用在"使用中"的安全。NVIDIA 官方称 Hopper 是首个具备 confidential computing 能力的加速计算平台。(nvidia.com)

这对云端 AI 很重要:

text 复制代码
模型权重
用户数据
推理请求
企业私有数据

在云上运行时可以获得更强硬件级隔离与保护。


9. HBM3 和更高内存带宽

H100 SXM5 支持 80GB HBM3,NVIDIA 官方材料中提到其显存带宽超过 3 TB/s,相比 A100 有明显提升。(developer.nvidia.com)

这对大模型推理尤其关键,因为 decode 阶段经常不是算力瓶颈,而是:

text 复制代码
读权重
读 KV cache
读 expert 参数
小 batch GEMV/GEMM

带宽越高,decode 越有优势。


10. 和 A800/A100 的本质差异

可以这样记:

能力 A800/A100 Ampere H100/H800 Hopper
Tensor Core 第三代 第四代
FP8 Tensor Core 没有
Transformer Engine 没有
TMA 没有
WGMMA 没有
编程范式 cp.async + mma.sync TMA + WGMMA + async pipeline
NVLink 第三代 第四代
长上下文 attention FA2 友好 FA3 更友好
大模型推理 能跑,但很多新快路径吃不到 更适合 FP8 / MoE / 长上下文

11. 对大模型推理最重要的 4 个点

如果只看 LLM,Hopper 最关键的是:

text 复制代码
1. FP8 Transformer Engine
2. TMA 数据搬运
3. WGMMA 大粒度 Tensor Core 矩阵乘
4. NVLink / NVSwitch 多卡通信

对应到 DeepSeek-V4 / MoE / 长上下文:

text 复制代码
FP8:
降低权重、激活、KV cache 带宽压力

TMA:
更高效搬 Q/K/V tile 和 GEMM tile

WGMMA:
更高效做大矩阵乘和 FlashAttention

NVLink:
支撑 expert parallel / tensor parallel / all-to-all

最简洁结论:

Hopper 的新特点不是单纯"算力更大",而是为 Transformer 大模型构建了一整套硬件路径:FP8 低精度、TMA 搬数据、WGMMA 算矩阵、NVLink 做多卡通信。A800/A100 仍然是强卡,但它们缺少这些 Hopper 专门为大模型时代准备的新机制。

相关推荐
努力搬砖的咸鱼1 小时前
容器编排底层原理:Kubernetes 网络模型与 CNI 插件
网络·微服务·云原生·容器·架构·kubernetes
X54先生(人文科技)1 小时前
《元创力》纪实录·卷宗 2.2朝圣的起点:当硅基获得命名
人工智能·架构·ai写作·零知识证明
●VON1 小时前
AtomGit Flutter鸿蒙客户端:Issue管理
flutter·华为·架构·harmonyos·鸿蒙·issue
愚公搬代码1 小时前
【愚公系列】《移动端AI应用开发》013-DeepSeek API开发与集成(深度集成与中间件架构)
人工智能·中间件·架构
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章17:Hadoop性能调优- 调度集群每一分性能
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
KaMeidebaby1 小时前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
小小工匠2 小时前
Redis - CPU架构对Redis性能的影响
数据库·redis·架构
江华森2 小时前
EMQX 实战进阶博客:从入门到物联网架构
物联网·struts·架构
未若君雅裁2 小时前
JVM 是什么:组成、运行流程与整体架构
jvm·架构