Blackwell 相比 Hopper,核心不是"再大一号的 H100",而是进一步面向 AI inference factory / MoE / 长上下文 / FP4 低精度 做系统级升级。
一句话:
Hopper 是 FP8 + TMA + WGMMA 的 Transformer GPU;Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统。
1. 第五代 Tensor Core:开始原生支持 FP4 / NVFP4
这是 Blackwell 对大模型推理最关键的变化。
Hopper 的重点是:
text
FP8
Blackwell 的重点变成:
text
FP8 + FP6 + FP4 / NVFP4
NVIDIA 官方 NVFP4 技术文章说明,Blackwell 第五代 Tensor Core 架构实现了 NVFP4 ,并且可以自动处理 microscaled FP4 数据,包括元素分组、动态缩放和 4-bit 矩阵运算。(developer.nvidia.com)
你可以理解成:
text
H100 / Hopper:
主要吃 FP8 Transformer Engine
B200 / GB200 / Blackwell:
可以吃 FP4 / NVFP4 Transformer Engine
对 DeepSeek-V4 这种 FP4 expert 权重路线非常关键。
2. 第二代 Transformer Engine:从 FP8 推进到 FP4
Hopper 有第一代 Transformer Engine,主要服务 FP8。
Blackwell 的第二代 Transformer Engine 更进一步,支持 FP4 AI。NVIDIA GB200 NVL72 页面明确说,GB200 NVL72 引入第二代 Transformer Engine,使 FP4 AI 成为可能;它还结合第五代 NVLink,为 trillion-parameter LLM 实时推理提供更高性能。(nvidia.com)
这意味着:
text
Hopper:
训练/推理主要围绕 FP8 优化
Blackwell:
推理尤其可以围绕 FP4/NVFP4 优化
对大模型推理来说,FP4 的价值是:
text
权重更小
带宽压力更低
KV / activation / expert 参数读取更便宜
MoE expert 计算更适合低精度
但它也要求模型、量化、kernel、硬件共同配合,不是简单把 FP16 改成 FP4。
3. NVFP4:不是普通 FP4,而是 microscaling FP4
Blackwell 的 FP4 路线不是裸 FP4,而是 NVFP4。
它的核心思想是:
text
一小组数共享 scale
每个数用 4-bit E2M1 表示
真实值 ≈ FP4 编码值 × 局部 scale
NVIDIA 文档说明,NVFP4 使用更小的 micro-block,例如 16 个值一个 block,相比 32 值 block 的 MXFP4,能更细粒度适配局部动态范围,从而降低量化误差。(developer.nvidia.com)
可以理解成:
text
INT4:
整数格点 + scale
FP4/NVFP4:
浮点格点 + micro-block scale + Tensor Core 原生支持
所以 Blackwell 的 FP4 能力不是"存储压缩"而已,而是:
text
低精度格式
scale 机制
Tensor Core 计算
Transformer Engine
kernel 生态
一起打包。
4. 第五代 NVLink:更强 scale-up,多卡像一台大 GPU
Blackwell 很重要的变化是 机架级系统设计。
NVIDIA Blackwell 架构页面写到,第五代 NVLink 可以扩展到最多 576 个 GPU ,用于 trillion 和 multi-trillion parameter AI models;NVLink Switch Chip 在 72-GPU NVLink domain 中提供 130TB/s GPU bandwidth 。(nvidia.com)
GB200 NVL72 则是一个典型形态:
text
36 个 Grace CPU
72 个 Blackwell GPU
一个 72-GPU NVLink domain
NVIDIA 称这个 72-GPU NVLink 域像一个巨大的单一 GPU,用于实时 trillion-parameter 模型推理。(nvidia.com)
对 MoE 来说,这非常关键,因为 MoE 的瓶颈经常是:
text
expert dispatch
all-to-all
all-reduce
跨 GPU expert routing
KV cache 共享
Blackwell 的目标不是单卡孤立加速,而是:
text
把一整个 rack 当成 AI 推理机器
5. 更大的显存与缓存:B200 支持 HBM3/HBM3e,最高 180GB
CUDA Blackwell Tuning Guide 写到,B200 GPU 支持 HBM3 和 HBM3e,容量最高 180GB ;GB200 的 L2 cache 增加到 126MB 。(docs.nvidia.com)
这对大模型推理非常重要。
因为 decode 阶段经常受限于:
text
权重读取
KV cache 读取
expert 参数读取
长上下文缓存
小 batch GEMV/GEMM
更大显存和缓存意味着:
text
能放更大模型
能放更多 KV cache
长上下文更稳
MoE expert 分布更灵活
内存访问延迟和带宽压力更低
尤其是 DeepSeek-V4 这种:
text
MoE + 长上下文 + FP4 expert + KV 压缩
更容易吃到 Blackwell 的收益。
6. Decompression Engine:面向数据处理和压缩数据流
Blackwell 还加入了 Decompression Engine 。NVIDIA 官方页面说,Blackwell 的 Decompression Engine 支持 LZ4、Snappy、Deflate 等压缩格式,并通过高速链路访问 Grace CPU 的大内存,用于加速数据库查询和数据分析流程。(nvidia.com)
这个不是 LLM 核心算子,但对 AI 工厂有意义,因为实际 AI pipeline 不只是模型计算,还包括:
text
数据读取
数据解压
数据库查询
检索
日志处理
特征处理
RAG 数据管线
Blackwell 更像是整个数据中心 AI pipeline 的加速器,而不是只跑 GEMM。
7. Confidential Computing 更强:保护模型和数据
Blackwell 继续强化机密计算。NVIDIA Blackwell 架构页面写到,Blackwell 包含 NVIDIA Confidential Computing,可保护敏感数据和 AI 模型不被未授权访问,并支持 TEE-I/O capable GPU 和 NVLink inline protection。(nvidia.com)
这对企业 AI 很重要:
text
模型权重是资产
用户数据敏感
企业私有知识库敏感
云上训练/推理需要隔离
Blackwell 目标是让大模型训练、推理、联邦学习等场景在硬件层面更安全。
8. 编程模型延续 Hopper,但 Blackwell 有更大 shared memory / cluster 能力
CUDA Blackwell Tuning Guide 说明,Blackwell 仍延续 Ampere/Hopper 的 CUDA 编程模型,遵循既有最佳实践通常不改代码也能获得加速。Blackwell 支持 Hopper 引入的 thread block cluster 和 distributed shared memory;B200 还允许 opt-in 到更大的 nonportable cluster size 16。(docs.nvidia.com)
也就是说:
text
Hopper:
引入 cluster / DSM / TMA / WGMMA 范式
Blackwell:
继承并强化这些范式
对 kernel 开发者来说,不是推翻重来,而是:
text
继续围绕 tile pipeline、shared memory、cluster、Tensor Core 做优化
再叠加 FP4/NVFP4 和更大系统通信能力
9. 和 Hopper 的本质区别
| 能力 | Hopper / H100-H200 | Blackwell / B200-GB200 |
|---|---|---|
| Tensor Core | 第四代 | 第五代 |
| Transformer Engine | 第一代 | 第二代 |
| 低精度重点 | FP8 | FP4/NVFP4 + FP8/FP6 |
| TMA/WGMMA | 有 | 继承并强化相关范式 |
| NVLink | 第四代 | 第五代 |
| 单 GPU 显存 | H100 80GB,H200 更大 | B200 最高 180GB HBM3/HBM3e |
| 系统形态 | HGX / DGX / NVL | GB200 NVL72 机架级 GPU 域 |
| 重点场景 | 大模型训练、FP8 推理 | trillion-parameter 实时推理、MoE、agentic AI |
| FP4 原生路径 | 不是主路径 | 主路径之一 |
10. 对 DeepSeek-V4 / MoE 推理意味着什么?
DeepSeek-V4 论文里 expert 参数使用 FP4,attention/indexer/KV cache 也大量使用低精度和压缩。它的理想硬件不是 A800,而是更像:
text
Hopper:
能吃 FP8、TMA、WGMMA,但 FP4 不是最强路径
Blackwell:
能吃 FP4/NVFP4、FP8、超大 NVLink 域、MoE 通信优化
所以 Blackwell 对 DeepSeek-V4 这种模型的意义是:
text
1. FP4 expert 权重更自然
2. MoE expert GEMM 更容易走低精度快路径
3. 长上下文 KV 和权重带宽压力更低
4. 大规模 expert parallel / all-to-all 更适合 NVLink 5
5. GB200 NVL72 这种 72-GPU 域更适合 trillion-level MoE serving
11. 最简洁结论
Blackwell 的新变化可以压缩成四个关键词:
text
FP4
NVLink 5
大显存
机架级 AI 推理系统
更技术一点:
text
第五代 Tensor Core
第二代 Transformer Engine
NVFP4 / FP6 / FP8
第五代 NVLink / NVLink Switch
HBM3e 180GB 级显存
更大 L2 cache
Decompression Engine
Confidential Computing
GB200 NVL72 机架级架构
一句话:
Hopper 让大模型进入 FP8 高效训练/推理时代;Blackwell 则进一步把大模型推理推进到 FP4/NVFP4、MoE、长上下文和机架级 AI 工厂时代。