Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统

Blackwell 相比 Hopper，核心不是"再大一号的 H100"，而是进一步面向 AI inference factory / MoE / 长上下文 / FP4 低精度 做系统级升级。

一句话：

Hopper 是 FP8 + TMA + WGMMA 的 Transformer GPU；Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统。

1. 第五代 Tensor Core：开始原生支持 FP4 / NVFP4

这是 Blackwell 对大模型推理最关键的变化。

Hopper 的重点是：

text 复制代码

FP8

Blackwell 的重点变成：

text 复制代码

FP8 + FP6 + FP4 / NVFP4

NVIDIA 官方 NVFP4 技术文章说明，Blackwell 第五代 Tensor Core 架构实现了 NVFP4 ，并且可以自动处理 microscaled FP4 数据，包括元素分组、动态缩放和 4-bit 矩阵运算。(developer.nvidia.com)

你可以理解成：

text 复制代码

H100 / Hopper：
主要吃 FP8 Transformer Engine

B200 / GB200 / Blackwell：
可以吃 FP4 / NVFP4 Transformer Engine

对 DeepSeek-V4 这种 FP4 expert 权重路线非常关键。

2. 第二代 Transformer Engine：从 FP8 推进到 FP4

Hopper 有第一代 Transformer Engine，主要服务 FP8。

Blackwell 的第二代 Transformer Engine 更进一步，支持 FP4 AI。NVIDIA GB200 NVL72 页面明确说，GB200 NVL72 引入第二代 Transformer Engine，使 FP4 AI 成为可能；它还结合第五代 NVLink，为 trillion-parameter LLM 实时推理提供更高性能。(nvidia.com)

这意味着：

text 复制代码

Hopper：
训练/推理主要围绕 FP8 优化

Blackwell：
推理尤其可以围绕 FP4/NVFP4 优化

对大模型推理来说，FP4 的价值是：

text 复制代码

权重更小
带宽压力更低
KV / activation / expert 参数读取更便宜
MoE expert 计算更适合低精度

但它也要求模型、量化、kernel、硬件共同配合，不是简单把 FP16 改成 FP4。

3. NVFP4：不是普通 FP4，而是 microscaling FP4

Blackwell 的 FP4 路线不是裸 FP4，而是 NVFP4。

它的核心思想是：

text 复制代码

一小组数共享 scale
每个数用 4-bit E2M1 表示
真实值 ≈ FP4 编码值 × 局部 scale

NVIDIA 文档说明，NVFP4 使用更小的 micro-block，例如 16 个值一个 block，相比 32 值 block 的 MXFP4，能更细粒度适配局部动态范围，从而降低量化误差。(developer.nvidia.com)

可以理解成：

text 复制代码

INT4：
整数格点 + scale

FP4/NVFP4：
浮点格点 + micro-block scale + Tensor Core 原生支持

所以 Blackwell 的 FP4 能力不是"存储压缩"而已，而是：

text 复制代码

低精度格式
scale 机制
Tensor Core 计算
Transformer Engine
kernel 生态

一起打包。

4. 第五代 NVLink：更强 scale-up，多卡像一台大 GPU

Blackwell 很重要的变化是 机架级系统设计。

NVIDIA Blackwell 架构页面写到，第五代 NVLink 可以扩展到最多 576 个 GPU ，用于 trillion 和 multi-trillion parameter AI models；NVLink Switch Chip 在 72-GPU NVLink domain 中提供 130TB/s GPU bandwidth 。(nvidia.com)

GB200 NVL72 则是一个典型形态：

text 复制代码

36 个 Grace CPU
72 个 Blackwell GPU
一个 72-GPU NVLink domain

NVIDIA 称这个 72-GPU NVLink 域像一个巨大的单一 GPU，用于实时 trillion-parameter 模型推理。(nvidia.com)

对 MoE 来说，这非常关键，因为 MoE 的瓶颈经常是：

text 复制代码

expert dispatch
all-to-all
all-reduce
跨 GPU expert routing
KV cache 共享

Blackwell 的目标不是单卡孤立加速，而是：

text 复制代码

把一整个 rack 当成 AI 推理机器

5. 更大的显存与缓存：B200 支持 HBM3/HBM3e，最高 180GB

CUDA Blackwell Tuning Guide 写到，B200 GPU 支持 HBM3 和 HBM3e，容量最高 180GB ；GB200 的 L2 cache 增加到 126MB 。(docs.nvidia.com)

这对大模型推理非常重要。

因为 decode 阶段经常受限于：

text 复制代码

权重读取
KV cache 读取
expert 参数读取
长上下文缓存
小 batch GEMV/GEMM

更大显存和缓存意味着：

text 复制代码

能放更大模型
能放更多 KV cache
长上下文更稳
MoE expert 分布更灵活
内存访问延迟和带宽压力更低

尤其是 DeepSeek-V4 这种：

text 复制代码

MoE + 长上下文 + FP4 expert + KV 压缩

更容易吃到 Blackwell 的收益。

6. Decompression Engine：面向数据处理和压缩数据流

Blackwell 还加入了 Decompression Engine 。NVIDIA 官方页面说，Blackwell 的 Decompression Engine 支持 LZ4、Snappy、Deflate 等压缩格式，并通过高速链路访问 Grace CPU 的大内存，用于加速数据库查询和数据分析流程。(nvidia.com)

这个不是 LLM 核心算子，但对 AI 工厂有意义，因为实际 AI pipeline 不只是模型计算，还包括：

text 复制代码

数据读取
数据解压
数据库查询
检索
日志处理
特征处理
RAG 数据管线

Blackwell 更像是整个数据中心 AI pipeline 的加速器，而不是只跑 GEMM。

7. Confidential Computing 更强：保护模型和数据

Blackwell 继续强化机密计算。NVIDIA Blackwell 架构页面写到，Blackwell 包含 NVIDIA Confidential Computing，可保护敏感数据和 AI 模型不被未授权访问，并支持 TEE-I/O capable GPU 和 NVLink inline protection。(nvidia.com)

这对企业 AI 很重要：

text 复制代码

模型权重是资产
用户数据敏感
企业私有知识库敏感
云上训练/推理需要隔离

Blackwell 目标是让大模型训练、推理、联邦学习等场景在硬件层面更安全。

8. 编程模型延续 Hopper，但 Blackwell 有更大 shared memory / cluster 能力

CUDA Blackwell Tuning Guide 说明，Blackwell 仍延续 Ampere/Hopper 的 CUDA 编程模型，遵循既有最佳实践通常不改代码也能获得加速。Blackwell 支持 Hopper 引入的 thread block cluster 和 distributed shared memory；B200 还允许 opt-in 到更大的 nonportable cluster size 16。(docs.nvidia.com)

也就是说：

text 复制代码

Hopper：
引入 cluster / DSM / TMA / WGMMA 范式

Blackwell：
继承并强化这些范式

对 kernel 开发者来说，不是推翻重来，而是：

text 复制代码

继续围绕 tile pipeline、shared memory、cluster、Tensor Core 做优化
再叠加 FP4/NVFP4 和更大系统通信能力

9. 和 Hopper 的本质区别

能力	Hopper / H100-H200	Blackwell / B200-GB200
Tensor Core	第四代	第五代
Transformer Engine	第一代	第二代
低精度重点	FP8	FP4/NVFP4 + FP8/FP6
TMA/WGMMA	有	继承并强化相关范式
NVLink	第四代	第五代
单 GPU 显存	H100 80GB，H200 更大	B200 最高 180GB HBM3/HBM3e
系统形态	HGX / DGX / NVL	GB200 NVL72 机架级 GPU 域
重点场景	大模型训练、FP8 推理	trillion-parameter 实时推理、MoE、agentic AI
FP4 原生路径	不是主路径	主路径之一

10. 对 DeepSeek-V4 / MoE 推理意味着什么？

DeepSeek-V4 论文里 expert 参数使用 FP4，attention/indexer/KV cache 也大量使用低精度和压缩。它的理想硬件不是 A800，而是更像：

text 复制代码

Hopper：
能吃 FP8、TMA、WGMMA，但 FP4 不是最强路径

Blackwell：
能吃 FP4/NVFP4、FP8、超大 NVLink 域、MoE 通信优化

所以 Blackwell 对 DeepSeek-V4 这种模型的意义是：

text 复制代码

1. FP4 expert 权重更自然
2. MoE expert GEMM 更容易走低精度快路径
3. 长上下文 KV 和权重带宽压力更低
4. 大规模 expert parallel / all-to-all 更适合 NVLink 5
5. GB200 NVL72 这种 72-GPU 域更适合 trillion-level MoE serving

11. 最简洁结论

Blackwell 的新变化可以压缩成四个关键词：

text 复制代码

FP4
NVLink 5
大显存
机架级 AI 推理系统

更技术一点：

text 复制代码

第五代 Tensor Core
第二代 Transformer Engine
NVFP4 / FP6 / FP8
第五代 NVLink / NVLink Switch
HBM3e 180GB 级显存
更大 L2 cache
Decompression Engine
Confidential Computing
GB200 NVL72 机架级架构

一句话：

Hopper 让大模型进入 FP8 高效训练/推理时代；Blackwell 则进一步把大模型推理推进到 FP4/NVFP4、MoE、长上下文和机架级 AI 工厂时代。