Blackwell 架构和昇腾架构:从大模型数据流看 GPU 与 NPU 的收敛

Blackwell 架构和昇腾架构:从大模型数据流看 GPU 与 NPU 的收敛

核心判断

从大模型专用计算的方向看,NVIDIA Blackwell 架构正在越来越接近昇腾这类 AI DSA / NPU 架构的思想

但更准确地说:

不是 Blackwell 变成了昇腾,而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向:低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。

也就是说,未来 AI 芯片的核心竞争,不再只是"GPU 还是 NPU",而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。


1. 从传统 GPU 到 Blackwell:GPU 正在 DSA 化

传统 GPU 的核心思想是通用并行计算:

text 复制代码
大量 CUDA cores
SIMT 编程模型
通用 kernel
程序员显式管理线程、访存、同步

这种架构非常通用,既能做图形渲染,也能做科学计算、HPC、AI 训练和推理。

但是到了 Hopper、Blackwell、Rubin 这一代,NVIDIA GPU 内部越来越多模块已经变成面向大模型的专用加速结构:

text 复制代码
Tensor Core          → 专门做矩阵乘
TMA                  → 专门搬 tensor tile
WGMMA                → 专门组织大粒度矩阵乘
Transformer Engine   → 专门管理 FP8 / FP4 / NVFP4 低精度
NVLink / NVSwitch    → 专门服务多 GPU AI 通信
DPU / SuperNIC       → 专门处理数据中心数据路径

所以 Blackwell 虽然仍然是 GPU,但它已经不是传统意义上的"纯通用 GPU"。

更准确地说,它是:

text 复制代码
通用 GPU 底座
    +
面向 Transformer / MoE 的专用数据流加速器

这就是所谓的 GPU DSA 化


2. 昇腾从一开始就是 AI DSA / NPU 思路

昇腾架构的设计起点不是图形 GPU,而是 AI workload。

它的典型数据路径可以抽象为:

text 复制代码
Global Memory
    ↓ MTE / DataCopy
Local Memory / UB / L0
    ↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

这个结构的核心思想是:

text 复制代码
显式搬运数据
显式管理片上缓存
用 Cube 做矩阵乘
用 Vector 做向量算子
用 Scalar 做控制调度
通过 CANN / Ascend C / 算子库完成编译和执行

所以昇腾本质上更像:

text 复制代码
AI workload 专用数据流处理器

它从架构起点上就强调:

text 复制代码
矩阵计算
向量计算
数据搬运
片上缓存
算子编译
数据 layout

3. Blackwell 和昇腾的数据流越来越相似

Blackwell 的典型大模型计算路径可以抽象成:

text 复制代码
HBM
    ↓ TMA
Shared Memory
    ↓ WGMMA
Tensor Core
    ↓
FP8 / FP4 / NVFP4 MMA

昇腾的典型计算路径可以抽象成:

text 复制代码
Global Memory
    ↓ MTE / DataCopy
UB / L0 / Local Memory
    ↓
Cube
    ↓
FP16 / BF16 / INT8 / FP8 等矩阵计算

把细节抽掉后,两者非常相似:

text 复制代码
外部大内存
    ↓ 专用数据搬运单元
片上缓存
    ↓ 专用矩阵计算单元
低精度矩阵计算
    ↓
高精度累加 / 输出

所以二者的共同主线是:

text 复制代码
不要让矩阵计算单元等数据;
不要反复访问外部大内存;
把数据切成 tile;
提前搬到片上缓存;
让搬运和计算形成流水;
用低精度提高吞吐和降低带宽压力。

4. FP4 / NVFP4 为什么让 Blackwell 更像 NPU?

FP4 / NVFP4 已经不是传统意义上的普通浮点计算。

普通 FP16 / FP32 计算可以简单理解为:

text 复制代码
x × y

两个浮点数直接相乘。

但 NVFP4 的数学形式是:

text 复制代码
x ≈ q_fp4 × s_block × s_global

其中:

text 复制代码
q_fp4    = 4-bit FP4 编码值
s_block  = block scale
s_global = global scale

矩阵乘时变成:

text 复制代码
C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

其中:

text 复制代码
αA_ik = A_ik 对应 block 的 scale
αB_kj = B_kj 对应 block 的 scale

这意味着,硬件处理的已经不是普通浮点数,而是:

text 复制代码
压缩编码值
    +
scale 元数据
    +
block / tile layout
    +
专用矩阵计算路径

这就是典型的 format-aware computation,也就是"格式感知计算"。

计算单元不只是做乘加,而是要理解:

text 复制代码
低精度编码
scale
block
tile
layout
累加精度
输出格式

这和 NPU / DSA 的思想高度接近。


5. Blackwell 和昇腾的共同点

5.1 都以矩阵单元为中心

Blackwell:

text 复制代码
Tensor Core

昇腾:

text 复制代码
Cube

它们的核心都不是普通标量运算,而是大规模矩阵乘。

Transformer / MoE 的主要计算都是:

text 复制代码
QK^T
P V
MLP GEMM
MoE expert GEMM

所以硬件必须围绕矩阵乘优化。


5.2 都强调显式数据搬运

Blackwell:

text 复制代码
TMA
HBM → Shared Memory

昇腾:

text 复制代码
MTE / DataCopy
Global Memory → UB / L0 / Local Memory

共同目标是:

text 复制代码
提前搬数据
减少外部内存访问
让数据搬运和矩阵计算重叠

5.3 都依赖片上缓存流水

Blackwell:

text 复制代码
Shared Memory + Register + Tensor Core pipeline

昇腾:

text 复制代码
UB / L0A / L0B / L0C + Cube pipeline

共同思想是:

text 复制代码
大矩阵不能直接在外部内存上算;
必须切成 tile;
每次把一个 tile 搬到片上;
在片上完成计算;
同时预取下一个 tile。

5.4 都走低精度路线

Blackwell:

text 复制代码
FP8
FP4 / NVFP4
INT8

昇腾:

text 复制代码
FP16
BF16
INT8
FP8 等路线,具体依平台而定

未来的关键不是"支持某个格式"本身,而是:

text 复制代码
低精度格式
    +
scale 机制
    +
矩阵单元
    +
片上缓存
    +
编译器
    +
算子库

是否能形成完整闭环。


5.5 都需要编译器和算子库深度协同

Blackwell 依赖:

text 复制代码
CUDA
CUTLASS
CuTe
TensorRT
Transformer Engine
Triton / TileLang

昇腾依赖:

text 复制代码
CANN
Ascend C
TBE
图编译
算子库

未来的大模型推理不是简单手写一个 kernel,而是:

text 复制代码
模型结构
    ↓
图优化
    ↓
算子融合
    ↓
tile 生成
    ↓
layout 选择
    ↓
硬件执行

编译器和 runtime 会越来越重要。


6. Blackwell 和昇腾的关键差异

虽然二者方向越来越像,但底层哲学仍然不同。

维度 Blackwell 架构 昇腾架构
架构起点 GPU 演化而来 AI NPU / DSA 起点
编程模型 CUDA / SIMT + Tensor Core CANN / Ascend C / Cube
数据搬运 TMA / Shared Memory MTE / DataCopy / UB / L0
矩阵单元 Tensor Core Cube
低精度重点 FP8 / FP4 / NVFP4 FP16 / BF16 / INT8 / FP8 等,依平台而定
通用性 更强,可覆盖图形、HPC、AI 更偏 AI 专用
生态 CUDA 生态极强 国产 CANN 生态
系统方向 GPU DSA 化 NPU 工程化

最关键区别是:

text 复制代码
Blackwell = 通用 GPU 底座上叠加越来越强的 AI 专用单元
昇腾     = 从一开始就面向 AI workload 的 DSA / NPU

所以 Blackwell 没有变成纯 NPU。它仍然保留:

text 复制代码
CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景能力

而昇腾更强调:

text 复制代码
AI 图优化
算子编译
显式数据搬运
Cube 矩阵计算
国产软硬件栈闭环

7. 为什么所有 AI 芯片都会越来越像?

根本原因是 Transformer / MoE 的数学结构太固定。

大模型核心计算基本是:

text 复制代码
QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all
all-reduce

这些计算有共同特征:

text 复制代码
矩阵乘占主导
数据搬运巨大
低精度可接受
片上缓存复用关键
长上下文依赖 KV cache
MoE 依赖 expert dispatch
多卡依赖高速通信

因此硬件自然会收敛到:

text 复制代码
专用矩阵单元
低精度格式
显式数据搬运
片上 SRAM / UB / shared memory
编译器控制 tile
算子库深度优化
多卡通信硬件化

可以写成:

text 复制代码
Transformer workload
      ↓
GEMM dominant
      ↓
Tensor Core / Cube / Matrix Engine
      ↓
FP8 / FP4 / INT8 / INT4
      ↓
Shared Memory / UB / SRAM
      ↓
TMA / MTE / DMA
      ↓
Compiler + Runtime + Kernel 深度绑定

所以不是谁在简单模仿谁,而是:

大模型的矩阵数学把不同硬件架构逼向同一种高效数据流形态。


8. 对推理引擎开发的启发

如果只理解 CUDA kernel,还不够。

未来真正有价值的是理解完整映射链路:

text 复制代码
模型结构
    ↓
矩阵形状
    ↓
量化格式
    ↓
scale 设计
    ↓
数据 layout
    ↓
片上缓存
    ↓
搬运流水
    ↓
矩阵单元
    ↓
多卡通信
    ↓
推理服务系统

也就是:

text 复制代码
模型数学 → 硬件数据流 → kernel / compiler / runtime

对于 DeepSeek-V4、MoE、长上下文模型来说,关键问题不是单个 GEMM,而是:

text 复制代码
FP4 / NVFP4 量化
MoE expert dispatch
grouped GEMM
KV cache 管理
all-to-all 通信
长上下文 attention
数据 layout
算子融合

所以推理引擎的核心价值不是简单:

text 复制代码
写一个 CUDA kernel

而是:

text 复制代码
把 Transformer / MoE / KV cache / FP4 量化
映射到不同硬件的数据流和矩阵单元上。

这也是你现在应该重点抓住的能力:

text 复制代码
模型数学
    ↓
硬件结构
    ↓
数据流设计
    ↓
kernel / compiler / runtime
    ↓
端到端推理性能

9. 最终结论

Blackwell 架构确实越来越接近昇腾这类 AI DSA / NPU 架构的思想。

但更准确的表达是:

text 复制代码
Blackwell 不是变成了昇腾;
昇腾也不是简单复制 GPU;
二者是在 Transformer / MoE 的数学结构压力下,
共同收敛到低精度矩阵数据流架构。

这个方向可以概括为:

text 复制代码
低精度矩阵单元
显式数据搬运
片上缓存流水
scale-aware computation
编译器 / 算子 / runtime 深度协同
多卡通信系统化

一句话:

未来 AI 芯片的核心分野,不再是 GPU 还是 NPU,而是谁能把 Transformer / MoE 的矩阵数学最高效地映射成硬件数据流。

相关推荐
Hello:CodeWorld2 小时前
深入浅出 C++:静态多态与动态多态的业务应用场景与源码级实战
开发语言·c++·架构
混迹中的咸鱼2 小时前
游戏开发核心架构指南
c++·游戏·架构
娟宝宝萌萌哒2 小时前
Agent 应用工程架构:模块、挑战与传统工程迁移
人工智能·架构
梦梦代码精2 小时前
TP8+Vue3+UniApp:LikeShop架构受青睐!
架构·uni-app
Whoami!2 小时前
03-【高校】多校区链路加解密架构
网络安全·架构·链路加解密
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章13:数据湖架构 - 工业大数据的统一存储底座
大数据·人工智能·hadoop·分布式·架构·高炉炼铁·高炉智能化
Sam_Deep_Thinking2 小时前
SaaS多租户业务差异化:扩展点机制的设计与实现
java·架构
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章14:Hadoop集群部署 - 从规划到上线的全流程实践
大数据·数据库·人工智能·hadoop·学习·架构·高炉炼铁
@insist1232 小时前
系统架构设计师-信息安全架构综合设计:从数字签名到安全系统
安全·架构·系统架构·软考·系统架构设计师·软件水平考试