Blackwell 架构和昇腾架构：从大模型数据流看 GPU 与 NPU 的收敛

核心判断

从大模型专用计算的方向看，NVIDIA Blackwell 架构正在越来越接近昇腾这类 AI DSA / NPU 架构的思想。

但更准确地说：

不是 Blackwell 变成了昇腾，而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向：低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。

也就是说，未来 AI 芯片的核心竞争，不再只是"GPU 还是 NPU"，而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。

1. 从传统 GPU 到 Blackwell：GPU 正在 DSA 化

传统 GPU 的核心思想是通用并行计算：

text 复制代码

大量 CUDA cores
SIMT 编程模型
通用 kernel
程序员显式管理线程、访存、同步

这种架构非常通用，既能做图形渲染，也能做科学计算、HPC、AI 训练和推理。

但是到了 Hopper、Blackwell、Rubin 这一代，NVIDIA GPU 内部越来越多模块已经变成面向大模型的专用加速结构：

text 复制代码

Tensor Core          → 专门做矩阵乘
TMA                  → 专门搬 tensor tile
WGMMA                → 专门组织大粒度矩阵乘
Transformer Engine   → 专门管理 FP8 / FP4 / NVFP4 低精度
NVLink / NVSwitch    → 专门服务多 GPU AI 通信
DPU / SuperNIC       → 专门处理数据中心数据路径

所以 Blackwell 虽然仍然是 GPU，但它已经不是传统意义上的"纯通用 GPU"。

更准确地说，它是：

text 复制代码

通用 GPU 底座
    +
面向 Transformer / MoE 的专用数据流加速器

这就是所谓的 GPU DSA 化。

2. 昇腾从一开始就是 AI DSA / NPU 思路

昇腾架构的设计起点不是图形 GPU，而是 AI workload。

它的典型数据路径可以抽象为：

text 复制代码

Global Memory
    ↓ MTE / DataCopy
Local Memory / UB / L0
    ↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

这个结构的核心思想是：

text 复制代码

显式搬运数据
显式管理片上缓存
用 Cube 做矩阵乘
用 Vector 做向量算子
用 Scalar 做控制调度
通过 CANN / Ascend C / 算子库完成编译和执行

所以昇腾本质上更像：

text 复制代码

AI workload 专用数据流处理器

它从架构起点上就强调：

text 复制代码

矩阵计算
向量计算
数据搬运
片上缓存
算子编译
数据 layout

3. Blackwell 和昇腾的数据流越来越相似

Blackwell 的典型大模型计算路径可以抽象成：

text 复制代码

HBM
    ↓ TMA
Shared Memory
    ↓ WGMMA
Tensor Core
    ↓
FP8 / FP4 / NVFP4 MMA

昇腾的典型计算路径可以抽象成：

text 复制代码

Global Memory
    ↓ MTE / DataCopy
UB / L0 / Local Memory
    ↓
Cube
    ↓
FP16 / BF16 / INT8 / FP8 等矩阵计算

把细节抽掉后，两者非常相似：

text 复制代码

外部大内存
    ↓ 专用数据搬运单元
片上缓存
    ↓ 专用矩阵计算单元
低精度矩阵计算
    ↓
高精度累加 / 输出

所以二者的共同主线是：

text 复制代码

不要让矩阵计算单元等数据；
不要反复访问外部大内存；
把数据切成 tile；
提前搬到片上缓存；
让搬运和计算形成流水；
用低精度提高吞吐和降低带宽压力。

4. FP4 / NVFP4 为什么让 Blackwell 更像 NPU？

FP4 / NVFP4 已经不是传统意义上的普通浮点计算。

普通 FP16 / FP32 计算可以简单理解为：

text 复制代码

x × y

两个浮点数直接相乘。

但 NVFP4 的数学形式是：

text 复制代码

x ≈ q_fp4 × s_block × s_global

其中：

text 复制代码

q_fp4    = 4-bit FP4 编码值
s_block  = block scale
s_global = global scale

矩阵乘时变成：

text 复制代码

C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

其中：

text 复制代码

αA_ik = A_ik 对应 block 的 scale
αB_kj = B_kj 对应 block 的 scale

这意味着，硬件处理的已经不是普通浮点数，而是：

text 复制代码

压缩编码值
    +
scale 元数据
    +
block / tile layout
    +
专用矩阵计算路径

这就是典型的 format-aware computation，也就是"格式感知计算"。

计算单元不只是做乘加，而是要理解：

text 复制代码

低精度编码
scale
block
tile
layout
累加精度
输出格式

这和 NPU / DSA 的思想高度接近。

5. Blackwell 和昇腾的共同点

5.1 都以矩阵单元为中心

Blackwell：

text 复制代码

Tensor Core

昇腾：

text 复制代码

Cube

它们的核心都不是普通标量运算，而是大规模矩阵乘。

Transformer / MoE 的主要计算都是：

text 复制代码

QK^T
P V
MLP GEMM
MoE expert GEMM

所以硬件必须围绕矩阵乘优化。

5.2 都强调显式数据搬运

Blackwell：

text 复制代码

TMA
HBM → Shared Memory

昇腾：

text 复制代码

MTE / DataCopy
Global Memory → UB / L0 / Local Memory

共同目标是：

text 复制代码

提前搬数据
减少外部内存访问
让数据搬运和矩阵计算重叠

5.3 都依赖片上缓存流水

Blackwell：

text 复制代码

Shared Memory + Register + Tensor Core pipeline

昇腾：

text 复制代码

UB / L0A / L0B / L0C + Cube pipeline

共同思想是：

text 复制代码

大矩阵不能直接在外部内存上算；
必须切成 tile；
每次把一个 tile 搬到片上；
在片上完成计算；
同时预取下一个 tile。

5.4 都走低精度路线

Blackwell：

text 复制代码

FP8
FP4 / NVFP4
INT8

昇腾：

text 复制代码

FP16
BF16
INT8
FP8 等路线，具体依平台而定

未来的关键不是"支持某个格式"本身，而是：

text 复制代码

低精度格式
    +
scale 机制
    +
矩阵单元
    +
片上缓存
    +
编译器
    +
算子库

是否能形成完整闭环。

5.5 都需要编译器和算子库深度协同

Blackwell 依赖：

text 复制代码

CUDA
CUTLASS
CuTe
TensorRT
Transformer Engine
Triton / TileLang

昇腾依赖：

text 复制代码

CANN
Ascend C
TBE
图编译
算子库

未来的大模型推理不是简单手写一个 kernel，而是：

text 复制代码

模型结构
    ↓
图优化
    ↓
算子融合
    ↓
tile 生成
    ↓
layout 选择
    ↓
硬件执行

编译器和 runtime 会越来越重要。

6. Blackwell 和昇腾的关键差异

虽然二者方向越来越像，但底层哲学仍然不同。

维度	Blackwell 架构	昇腾架构
架构起点	GPU 演化而来	AI NPU / DSA 起点
编程模型	CUDA / SIMT + Tensor Core	CANN / Ascend C / Cube
数据搬运	TMA / Shared Memory	MTE / DataCopy / UB / L0
矩阵单元	Tensor Core	Cube
低精度重点	FP8 / FP4 / NVFP4	FP16 / BF16 / INT8 / FP8 等，依平台而定
通用性	更强，可覆盖图形、HPC、AI	更偏 AI 专用
生态	CUDA 生态极强	国产 CANN 生态
系统方向	GPU DSA 化	NPU 工程化

最关键区别是：

text 复制代码

Blackwell = 通用 GPU 底座上叠加越来越强的 AI 专用单元
昇腾     = 从一开始就面向 AI workload 的 DSA / NPU

所以 Blackwell 没有变成纯 NPU。它仍然保留：

text 复制代码

CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景能力

而昇腾更强调：

text 复制代码

AI 图优化
算子编译
显式数据搬运
Cube 矩阵计算
国产软硬件栈闭环

7. 为什么所有 AI 芯片都会越来越像？

根本原因是 Transformer / MoE 的数学结构太固定。

大模型核心计算基本是：

text 复制代码

QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all
all-reduce

这些计算有共同特征：

text 复制代码

矩阵乘占主导
数据搬运巨大
低精度可接受
片上缓存复用关键
长上下文依赖 KV cache
MoE 依赖 expert dispatch
多卡依赖高速通信

因此硬件自然会收敛到：

text 复制代码

专用矩阵单元
低精度格式
显式数据搬运
片上 SRAM / UB / shared memory
编译器控制 tile
算子库深度优化
多卡通信硬件化

可以写成：

text 复制代码

Transformer workload
      ↓
GEMM dominant
      ↓
Tensor Core / Cube / Matrix Engine
      ↓
FP8 / FP4 / INT8 / INT4
      ↓
Shared Memory / UB / SRAM
      ↓
TMA / MTE / DMA
      ↓
Compiler + Runtime + Kernel 深度绑定

所以不是谁在简单模仿谁，而是：

大模型的矩阵数学把不同硬件架构逼向同一种高效数据流形态。

8. 对推理引擎开发的启发

如果只理解 CUDA kernel，还不够。

未来真正有价值的是理解完整映射链路：

text 复制代码

模型结构
    ↓
矩阵形状
    ↓
量化格式
    ↓
scale 设计
    ↓
数据 layout
    ↓
片上缓存
    ↓
搬运流水
    ↓
矩阵单元
    ↓
多卡通信
    ↓
推理服务系统

也就是：

text 复制代码

模型数学 → 硬件数据流 → kernel / compiler / runtime

对于 DeepSeek-V4、MoE、长上下文模型来说，关键问题不是单个 GEMM，而是：

text 复制代码

FP4 / NVFP4 量化
MoE expert dispatch
grouped GEMM
KV cache 管理
all-to-all 通信
长上下文 attention
数据 layout
算子融合

所以推理引擎的核心价值不是简单：

text 复制代码

写一个 CUDA kernel

而是：

text 复制代码

把 Transformer / MoE / KV cache / FP4 量化
映射到不同硬件的数据流和矩阵单元上。

这也是你现在应该重点抓住的能力：

text 复制代码

模型数学
    ↓
硬件结构
    ↓
数据流设计
    ↓
kernel / compiler / runtime
    ↓
端到端推理性能

9. 最终结论

Blackwell 架构确实越来越接近昇腾这类 AI DSA / NPU 架构的思想。

但更准确的表达是：

text 复制代码

Blackwell 不是变成了昇腾；
昇腾也不是简单复制 GPU；
二者是在 Transformer / MoE 的数学结构压力下，
共同收敛到低精度矩阵数据流架构。

这个方向可以概括为：

text 复制代码

低精度矩阵单元
显式数据搬运
片上缓存流水
scale-aware computation
编译器 / 算子 / runtime 深度协同
多卡通信系统化

一句话：

未来 AI 芯片的核心分野，不再是 GPU 还是 NPU，而是谁能把 Transformer / MoE 的矩阵数学最高效地映射成硬件数据流。