Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统

Blackwell 相比 Hopper,核心不是"再大一号的 H100",而是进一步面向 AI inference factory / MoE / 长上下文 / FP4 低精度 做系统级升级。

一句话:

Hopper 是 FP8 + TMA + WGMMA 的 Transformer GPU;Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统。


1. 第五代 Tensor Core:开始原生支持 FP4 / NVFP4

这是 Blackwell 对大模型推理最关键的变化。

Hopper 的重点是:

text 复制代码
FP8

Blackwell 的重点变成:

text 复制代码
FP8 + FP6 + FP4 / NVFP4

NVIDIA 官方 NVFP4 技术文章说明,Blackwell 第五代 Tensor Core 架构实现了 NVFP4 ,并且可以自动处理 microscaled FP4 数据,包括元素分组、动态缩放和 4-bit 矩阵运算。(developer.nvidia.com)

你可以理解成:

text 复制代码
H100 / Hopper:
主要吃 FP8 Transformer Engine

B200 / GB200 / Blackwell:
可以吃 FP4 / NVFP4 Transformer Engine

对 DeepSeek-V4 这种 FP4 expert 权重路线非常关键。


2. 第二代 Transformer Engine:从 FP8 推进到 FP4

Hopper 有第一代 Transformer Engine,主要服务 FP8。

Blackwell 的第二代 Transformer Engine 更进一步,支持 FP4 AI。NVIDIA GB200 NVL72 页面明确说,GB200 NVL72 引入第二代 Transformer Engine,使 FP4 AI 成为可能;它还结合第五代 NVLink,为 trillion-parameter LLM 实时推理提供更高性能。(nvidia.com)

这意味着:

text 复制代码
Hopper:
训练/推理主要围绕 FP8 优化

Blackwell:
推理尤其可以围绕 FP4/NVFP4 优化

对大模型推理来说,FP4 的价值是:

text 复制代码
权重更小
带宽压力更低
KV / activation / expert 参数读取更便宜
MoE expert 计算更适合低精度

但它也要求模型、量化、kernel、硬件共同配合,不是简单把 FP16 改成 FP4。


3. NVFP4:不是普通 FP4,而是 microscaling FP4

Blackwell 的 FP4 路线不是裸 FP4,而是 NVFP4

它的核心思想是:

text 复制代码
一小组数共享 scale
每个数用 4-bit E2M1 表示
真实值 ≈ FP4 编码值 × 局部 scale

NVIDIA 文档说明,NVFP4 使用更小的 micro-block,例如 16 个值一个 block,相比 32 值 block 的 MXFP4,能更细粒度适配局部动态范围,从而降低量化误差。(developer.nvidia.com)

可以理解成:

text 复制代码
INT4:
整数格点 + scale

FP4/NVFP4:
浮点格点 + micro-block scale + Tensor Core 原生支持

所以 Blackwell 的 FP4 能力不是"存储压缩"而已,而是:

text 复制代码
低精度格式
scale 机制
Tensor Core 计算
Transformer Engine
kernel 生态

一起打包。


4. 第五代 NVLink:更强 scale-up,多卡像一台大 GPU

Blackwell 很重要的变化是 机架级系统设计

NVIDIA Blackwell 架构页面写到,第五代 NVLink 可以扩展到最多 576 个 GPU ,用于 trillion 和 multi-trillion parameter AI models;NVLink Switch Chip 在 72-GPU NVLink domain 中提供 130TB/s GPU bandwidth 。(nvidia.com)

GB200 NVL72 则是一个典型形态:

text 复制代码
36 个 Grace CPU
72 个 Blackwell GPU
一个 72-GPU NVLink domain

NVIDIA 称这个 72-GPU NVLink 域像一个巨大的单一 GPU,用于实时 trillion-parameter 模型推理。(nvidia.com)

对 MoE 来说,这非常关键,因为 MoE 的瓶颈经常是:

text 复制代码
expert dispatch
all-to-all
all-reduce
跨 GPU expert routing
KV cache 共享

Blackwell 的目标不是单卡孤立加速,而是:

text 复制代码
把一整个 rack 当成 AI 推理机器

5. 更大的显存与缓存:B200 支持 HBM3/HBM3e,最高 180GB

CUDA Blackwell Tuning Guide 写到,B200 GPU 支持 HBM3 和 HBM3e,容量最高 180GB ;GB200 的 L2 cache 增加到 126MB 。(docs.nvidia.com)

这对大模型推理非常重要。

因为 decode 阶段经常受限于:

text 复制代码
权重读取
KV cache 读取
expert 参数读取
长上下文缓存
小 batch GEMV/GEMM

更大显存和缓存意味着:

text 复制代码
能放更大模型
能放更多 KV cache
长上下文更稳
MoE expert 分布更灵活
内存访问延迟和带宽压力更低

尤其是 DeepSeek-V4 这种:

text 复制代码
MoE + 长上下文 + FP4 expert + KV 压缩

更容易吃到 Blackwell 的收益。


6. Decompression Engine:面向数据处理和压缩数据流

Blackwell 还加入了 Decompression Engine 。NVIDIA 官方页面说,Blackwell 的 Decompression Engine 支持 LZ4、Snappy、Deflate 等压缩格式,并通过高速链路访问 Grace CPU 的大内存,用于加速数据库查询和数据分析流程。(nvidia.com)

这个不是 LLM 核心算子,但对 AI 工厂有意义,因为实际 AI pipeline 不只是模型计算,还包括:

text 复制代码
数据读取
数据解压
数据库查询
检索
日志处理
特征处理
RAG 数据管线

Blackwell 更像是整个数据中心 AI pipeline 的加速器,而不是只跑 GEMM。


7. Confidential Computing 更强:保护模型和数据

Blackwell 继续强化机密计算。NVIDIA Blackwell 架构页面写到,Blackwell 包含 NVIDIA Confidential Computing,可保护敏感数据和 AI 模型不被未授权访问,并支持 TEE-I/O capable GPU 和 NVLink inline protection。(nvidia.com)

这对企业 AI 很重要:

text 复制代码
模型权重是资产
用户数据敏感
企业私有知识库敏感
云上训练/推理需要隔离

Blackwell 目标是让大模型训练、推理、联邦学习等场景在硬件层面更安全。


8. 编程模型延续 Hopper,但 Blackwell 有更大 shared memory / cluster 能力

CUDA Blackwell Tuning Guide 说明,Blackwell 仍延续 Ampere/Hopper 的 CUDA 编程模型,遵循既有最佳实践通常不改代码也能获得加速。Blackwell 支持 Hopper 引入的 thread block cluster 和 distributed shared memory;B200 还允许 opt-in 到更大的 nonportable cluster size 16。(docs.nvidia.com)

也就是说:

text 复制代码
Hopper:
引入 cluster / DSM / TMA / WGMMA 范式

Blackwell:
继承并强化这些范式

对 kernel 开发者来说,不是推翻重来,而是:

text 复制代码
继续围绕 tile pipeline、shared memory、cluster、Tensor Core 做优化
再叠加 FP4/NVFP4 和更大系统通信能力

9. 和 Hopper 的本质区别

能力 Hopper / H100-H200 Blackwell / B200-GB200
Tensor Core 第四代 第五代
Transformer Engine 第一代 第二代
低精度重点 FP8 FP4/NVFP4 + FP8/FP6
TMA/WGMMA 继承并强化相关范式
NVLink 第四代 第五代
单 GPU 显存 H100 80GB,H200 更大 B200 最高 180GB HBM3/HBM3e
系统形态 HGX / DGX / NVL GB200 NVL72 机架级 GPU 域
重点场景 大模型训练、FP8 推理 trillion-parameter 实时推理、MoE、agentic AI
FP4 原生路径 不是主路径 主路径之一

10. 对 DeepSeek-V4 / MoE 推理意味着什么?

DeepSeek-V4 论文里 expert 参数使用 FP4,attention/indexer/KV cache 也大量使用低精度和压缩。它的理想硬件不是 A800,而是更像:

text 复制代码
Hopper:
能吃 FP8、TMA、WGMMA,但 FP4 不是最强路径

Blackwell:
能吃 FP4/NVFP4、FP8、超大 NVLink 域、MoE 通信优化

所以 Blackwell 对 DeepSeek-V4 这种模型的意义是:

text 复制代码
1. FP4 expert 权重更自然
2. MoE expert GEMM 更容易走低精度快路径
3. 长上下文 KV 和权重带宽压力更低
4. 大规模 expert parallel / all-to-all 更适合 NVLink 5
5. GB200 NVL72 这种 72-GPU 域更适合 trillion-level MoE serving

11. 最简洁结论

Blackwell 的新变化可以压缩成四个关键词:

text 复制代码
FP4
NVLink 5
大显存
机架级 AI 推理系统

更技术一点:

text 复制代码
第五代 Tensor Core
第二代 Transformer Engine
NVFP4 / FP6 / FP8
第五代 NVLink / NVLink Switch
HBM3e 180GB 级显存
更大 L2 cache
Decompression Engine
Confidential Computing
GB200 NVL72 机架级架构

一句话:

Hopper 让大模型进入 FP8 高效训练/推理时代;Blackwell 则进一步把大模型推理推进到 FP4/NVFP4、MoE、长上下文和机架级 AI 工厂时代。

相关推荐
朱大喜几秒前
AI 数据分析实战:大模型驱动的自动化报表生成,从数据到洞察的工程化链路
人工智能
wb0430720112 分钟前
阿明的二次创业——从阿明用 AI 开第二家店,看 AI 原生创业的四阶段方法论
大数据·人工智能·架构
Godspeed Zhao12 分钟前
Level 4自动驾驶系统设计0——功能与场景0
人工智能·机器学习·自动驾驶
Dola_Zou15 分钟前
边缘智能的“黑暗森林”:工业 AI 模型下沉的资产防护与变现密码
人工智能·安全·自动化·软件工程·软件加密
青岛前景互联信息技术有限公司16 分钟前
前景互联·新一代智能接处警系统:AI+大模型+Agent智能接处警一体化解决方案
大数据·人工智能·物联网
xin_yao_xin18 分钟前
Claude Code 安装与 DeepSeek-V4 模型配置(2026 最新)
人工智能·ai·大模型·deepseek·claude code
北京软秦科技有限公司19 分钟前
通用零部件来料材质证书智能把关,IACheck搭配AI报告审核通审Agent版比对订单与报告参数
人工智能·材质
Charlotte_jc22 分钟前
ai agent 真实项目开发工程实践
人工智能
CCC:CarCrazeCurator24 分钟前
大模型核心注意力机制技术深度报告:MHA、MQA、GQA 与 MLA 技术原理、性能对比与场景适配
人工智能·机器学习·自动驾驶·transformer
卢卡上学25 分钟前
CodeBuddy 与 WorkBuddy 完整联动方案,研发 + 办公双线提效!
人工智能·腾讯workbuddy·腾讯codebuddy