【AI系统】GPU 架构回顾（从2018年-2024年）

Turing 架构

2018 年 Turing 图灵架构发布，采用 TSMC 12 nm 工艺，总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面，效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core（专门为执行张量/矩阵操作而设计的专门执行单元，深度学习计算核心）、CUDA 和 CuDNN 库的不断改进，更好地应用于深度学习推理。RT Core（Ray Tracing Core）提供实时的光线跟踪渲染，包括具有物理上精确的投影、反射和折射，更逼真的渲染物体和环境。支持 GDDR6 内存，与 GDDR5 内存相比，拥有 14 Gbps 传输速率，实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽，使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。

TU102 GPU 包括 6 个图形处理集群（GPCs）、36 个纹理处理集群（TPCs）和 72 个流式多处理器（SMs）。每个 GPC 包括一个专用光栅引擎和 6 个 TPC，每个 TPC 包括两个 SMs。每个 SM 包含 64 个 CUDA 核心、8 个张量核心、一个 256 KB 的寄存器文件、4 个纹理单元和 96 KB 的 L1/共享内存，这些内存可以根据计算或图形工作负载配置为不同的容量。因此总共有 4608 个 CUDA 核心、72 个 RT 核心、576 个张量核心、288 纹理单元和 12 个 32 位 GDDR6 内存控制器（总共 384 位）。

艾伦·图灵（Alan Turing）是 20 世纪英国数学家、逻辑学家和密码学家，被誉为计算机科学之父。他在计算理论和人工智能领域做出了开创性的工作，对现代计算机科学的发展产生了深远影响。主要成就包括：

发展了图灵机概念，这是一种抽象的数学模型，被认为是计算机的理论基础，为计算机科学奠定了基础。

在第二次世界大战期间，他领导了英国破解德国恩尼格玛密码的团队，对盟军在战争中的胜利做出了重要贡献。

提出了图灵测试，用来衡量机器是否具有智能，为人工智能领域的发展提供了重要思想。

在逻辑学领域，他提出了图灵判定问题，对计算机可解性和不可解性做出了重要贡献。

随着神经网络模型的量化部署逐渐成熟，Turing 架构中的 Tensor Core（张量核心）增加了对 INT8/INT4/Binary 的支持，加速神经网络训练和推理函数的矩阵乘法核心。一个 TU102 GPU 包含 576 个张量核心，每个张量核心可以使用 FP16 输入在每个时钟执行多达 64 个浮点融合乘法加法（FMA）操作。SM 中 8 个张量核心在每个时钟中总共执行 512 次 FP16 的乘法和累积运算，或者在每个时钟执行 1024 次 FP 运算，新的 INT8 精度模式以两倍的速率工作，即每个时钟进行 2048 个整数运算。Tensor Core 用于加速基于 AI 的英伟达 NGX 功能，增强图形、渲染和其它类型的客户端应用程序，包括 DLSS（深度学习超级采样）、 AI 绘画、AI Super Rez（图像/视频超分辨率）和 AI Slow-Mo（视频流插帧）。

每个 SMs 分别有 64 个 FP32 核和 64 个 INT32 核，还包括 8 个混合精度的张量核（Tensor Core），每个 SM 被分为四个块，每个块包括一个新的 L0 指令缓存和一个 64 KB 的寄存器文件。四个块共享一个 96 KB L1 数据缓存/共享内存。传统的图形工作负载将 96 KB 的 L1/共享内存划分为 64 KB 的专用图形着色器 RAM 和 32 KB 的用于纹理缓存和寄存器文件溢出区域。计算工作负载可以将 96 KB 划分为 32 KB 共享内存和 64 KB L1 缓存，或者 64 KB 共享内存和 32 KB L1 缓存。

RT Core 主要用于三角形与光线求交点，并通过 BVH（Bounding Volume Hierarchy）结构加速三角形的遍历，由于布置在 block 之外，相对于普通 ALU 计算来说是异步的，包括两个部分，一部分检测碰撞盒来剔除面片，另一部分做真正的相交测试。RT Core 的使用，使 SM 在很大程度上可以用来做图形计算之外的工作。

Bounding Volume Hierarchy（BVH）结构

光线追踪（Ray Tracing）中的 Bounding Volume Hierarchy（BVH）结构是一种用于加速光线追踪算法的数据结构。BVH 通过将场景中的物体分层组织成包围盒（Bounding Volume）的层次结构，从而减少光线与物体的相交测试次数，提高光线追踪的效率。

在 BVH 结构中，每个节点都代表一个包围盒，该包围盒可以包含多个物体或其他子包围盒。通过递归地构建 BVH 树，可以将场景中的物体分层组织成一个高效的数据结构，以便快速地确定光线与哪些物体相交，从而减少需要测试的物体数量，提高光线追踪的效率。

当增加 RT Core 之后实现硬件光线追踪，当 RTX 光线追踪技术打开时场景中人物和光线更加逼真，火焰可以在车身上清晰的看到。虽然光线追踪可以产生比栅格化更真实的图像，但是计算密集型使得混合渲染是更优的技术路线，光线追踪用在比栅格化更有效的地方，如渲染反射、折射和阴影。光线追踪可以运行在单个 Quadro RTX 6000 或 GeForce RTX 2080 Ti GPU 上，渲染质量几乎等同于电影实拍效果。

除了为高端游戏和专业图形带来革命性的新功能外，Turing 还提供了多精度计算，随着英伟达深度学习平台的持续推进，如 TensorRT 5.0 和 CUDA 10 技术的进步，基于英伟达 GPU 的推理解决方案显著降低了数据中心的成本、规模和功耗。

Ampere 架构

2020 年 Ampere 安培架构发布，Ampere 架构主要有以下特性：

1）超过 540 亿个晶体管，使其成为 2020 年世界上最大的 7 nm 处理器（英伟达 A100）；

2）提出 Tensor Core3.0，新增 TF32（TensorFloat-32）包括针对 AI 的扩展，可使 FP32 精度的 AI 性能提高 20 倍；

3）多实例 GPU（Multi-Instance GPU，MIG）将单个 A100 GPU 划分为多达 7 个独立的 GPU，为不同任务提供不同算力，为云服务器厂商提供更好的算力切分方案；

4）提出 NVLink3.0 和 NV-Switch，NV-Switch 可以将多台机器进行互联，将 GPU 高速连接的速度加倍，可在服务器中提供有效的性能扩展；

5）利用 AI 数学计算中固有的稀疏特性将性能提升一倍。以上改进使 Ampere 成为新一代数据中心和云计算 GPU 架构，可用于 AI 和高性能计算场景。

安德烈-玛丽·安培（André-Marie Ampère）是 19 世纪法国物理学家和数学家，被誉为电磁学之父。他对电流和磁场之间的相互作用进行了深入研究，提出了安培定律，对电磁理论的发展做出了重要贡献。主要成就包括：

提出了安培定律，描述了电流元素之间的相互作用，为电磁感应和电磁场的研究奠定了基础。

发展了电动力学理论，将电流和磁场的关系系统化，并提出了电流环的磁场理论。

研究了电磁感应现象，揭示了磁场和电场之间的关系，为后来法拉第的电磁感应定律的提出奠定了基础。

对电磁学和热力学等领域都有重要贡献，被认为是 19 世纪最杰出的物理学家之一。

英伟达 A100 GPU 包括 8 个 GPC，每个 GPC 包含 8 个 TPC，每个 TPC 包含 2S 个 SMs/，每个 GPC 包含 16 个 SM/GPC，整个 GPU 拥有 128 个 SMs。每个 SM 有 64 个 FP32 CUDA 核心，总共 8192 FP32 CUDA 核心。Tensor Core3.0，总共 512 个。6 个 HBM2 存储栈，12 个 512 位内存控制器，内存可达到 40 GB。第三代 NVLink，GPU 和服务器双向带宽为 4.8 TB/s，GPU 之间的互联速度为 600 GB/s。A100 SM 拥有 192 KB 共享内存和 L1 数据缓存，比 V100 SM 大 1.5 倍。

A100 Tensor Core3.0 增强操作数共享并提高计算效率，引入了 TF32、BF16 和 FP64 数据类型的支持。平时训练模型的过程中使用更多的是 FP32 和 FP16，TF32 在指数位有 8 位，FP16 在指数为有 5 位，因此 FP32 的位宽比 FP16 更多，小数位决定精度，FP32 在小数位有 23 位，FP16 只有 10 位，在 AI 训练的过程中很多时候 FP16 是够用的，但是动态范围会有限制，因此提出 TF32，指数位保持和 FP32 相同，小数位和 FP16 保持相同，BF16 的指数位和 FP32、TF32 相同，但是小数位少了三位。数百个张量核并行运行，大幅提高吞吐量和计算效率。

A100 FP32 FFMA，INT8、INT4 和 Binary 分别提高了 32x、64x 和 256x，与 Volta 架构一样，自动混合精度（AMP）允许用户使用与 FP16 相结合的混合精度来进行 AI 训练，使用 AMP 之后 A100 提供了比 TF32 快 2 倍的张量核心性能。

Tensor Core 除了执行乘法和加法操作之外还可以支持稀疏化结构矩阵（Sparse Tensor），实现细粒度的结构化稀疏，支持一个 2:4 的结构化稀疏矩阵与另一个稠密矩阵直接相乘。一种常见的方法是利用稀疏矩阵的结构特点，只对非零元素进行计算，从而减少计算量。一个训练得到的稠密矩阵在推理阶段经过剪枝之后会变成一个稀疏化矩阵，然后英伟达架构对矩阵进行压缩后变成一个稠密的数据矩阵和一个 indices，索引压缩过的数据方便检索记录，最后进行矩阵乘。

A100 张量核心 GPU 可以被分为 7 个 GPU 实例并被不同任务使用，每个实例的处理器在整个内存系统中都有单独且相互隔离的路径，片上交叉端口、L2 缓存、内存控制器和 DRAM 地址总线都被唯一地分配给一个单独的实例，确保单个用户的工作负载可以在可预测的吞吐量和延迟下运行，同时具有相同的 L2 缓存分配和 DRAM 带宽，即使其他任务正在读写缓存或 DRAM 接口。用户可以将这些虚拟 GPU 实例当成真的 GPU 进行使用，为云计算厂商提供算力切分和多用户租赁服务。

DGX A100 是英伟达专门构建的第三代 AI 系统，在单个系统中可以提供 5 PFLOPS（petaflop）性能，通过一种新的基础设施结构，彻底改变了企业数据中心，旨在将所有 AI 工作负载统一在一个新的通用平台和架构上。A100 以整机的形式出售，最上面是散热器，中间的 A100 芯片不再通过 PCIe 进行连接，而是直接封装在主板上，这样便于在同一个节点上进行模型并行，但是跨节点跨机器之间训练大模型时带宽就会成为整个大模型训练的瓶颈。内存高达 1TB 或者 2TB，可以直接将数据全部加载到 CPU 里面，然后再不断回传到 GPU 中，加速大模型训练。

Hopper 架构

2022 年 Hopper 赫柏架构发布，英伟达 Grace Hopper Superchip 架构将英伟达 Hopper GPU 的突破性性能与英伟达 Grace CPU 的多功能性结合在一起，在单个超级芯片中与高带宽和内存一致的英伟达 NVLink Chip-2-Chip（C2C）互连，并且支持新的英伟达 NVLink 切换系统，CPU 和 GPU、GPU 和 GPU 之间通过 NVLink 进行连接，数据的传输速率高达 900 GB/s，解决了 CPU 和 GPU 之间数据的时延问题，跨机之间通过 PCIe5 进行连接。

Hopper 架构是第一个真正的异构加速平台，适用于高性能计算（HPC）和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连，高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片，最高可达 150 TB 的 GPU 可寻址内存。

H100	参数
NVIDIA Grace CPU	72 个 Arm Neoverse V2 内核，每个内核 Armv9.0-A ISA 和 4 个 128 位 SIMD 单元
	512 GB LPDDR5X 内存，提供高达 546 GB/s 的内存带宽
	117MB 的 L3 缓存，内存带宽高达 3.2 TB/s
	64 个 PCIe Gen5 通道
NVIDIA Hopper GPU	144 个第四代 Tensor Core、Transformer Engine、DPX 和 3 倍高 FP32 的 FP64 的 SM
	96 GB HBM3 内存提供高达 3000 GB/s 的速度
	60 MB 二级缓存
	NVLink 4 和 PCIe 5
NVIDIA NVLink-C2C	Grace CPU 和 Hopper GPU 之间硬件一致性互连
	高达 900 GB/s 的总带宽、450 GB/s/dir
	扩展 GPU 内存功能使 Hopper GPU 能够将所有 CPU 内存寻址为 GPU 内存。每个 Hopper CPU 可以在超级芯片内寻址多达 608 GB 内存
NVIDIA NVLink 切换系统	使用 NVLink 4 连接多达 256 个 NVIDIA Grace Hopper 超级芯片
	每个连接 NVLink 的 Hopper GPU 都可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存，最高可达 150 TB 的 GPU 可寻址内存

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM，总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3，容量 80 GB，位宽 5120-bit，带宽高达 3 TB/s。

（注意：上面的图是GH100的图，而不是H100的图）

格蕾丝·赫希贝尔·赫柏（Grace Hopper）是 20 世纪美国计算机科学家和海军军官，被誉为计算机编程先驱和软件工程的奠基人之一。在 1934 年获得了耶鲁大学数学博士学位，成为该校历史上第一位女性获得博士学位的人。在计算机领域做出了重要贡献，尤其在编程语言和软件开发方面有突出成就，被尊称为"软件工程之母"和"编程女王"。主要成就包括：

开发了第一个编译器，将高级语言翻译成机器码，这项创新大大简化了编程过程，为软件开发奠定了基础。

提出了 COBOL（通用商业导向语言）编程语言的概念和设计，这是一种面向商业应用的高级语言，对商业和金融领域的计算机化起到了重要作用。

在计算机科学教育和推广方面做出了杰出贡献，她致力于将计算机科学普及到更广泛的人群中，并激励了许多人进入这一领域。

作为美国海军的一名军官，她参与了多个计算机课程，包括 UNIVAC 和 Mark 系列计算机的开发，为军事和民用领域的计算机化做出了贡献。

具体到 SM 结构，Hopper 赫柏架构 FP32 Core 和 FP64 Core 两倍于 Ampere 架构，同时采用 Tensor Core4.0 使用新的 8 位浮点精度（FP8），可为万亿参数模型训练提供比 FP16 高 6 倍的性能。FP8 用于 Transformer 引擎，能够应用 FP8 和 FP16 的混合精度模式，大幅加速 Transformer 训练，同时兼顾准确性。FP8 还可大幅提升大型语言模型推理的速度，性能较 Ampere 提升高达 30 倍。新增 Tensor Memory Accelerator，专门针对张量进行数据传输，更好地加速大模型。

Hopper 赫柏架构 SM 硬件单元	Hopper 赫柏架构每个 Process Block	相比 Ampere 架构
4 个 Warp Scheduler，4 个 Dispatch Unit	1 个 Warp Scheduler，1 个 Dispatch Unit	相同
128 个 FP32 Core（4 * 32）	32 个 FP32 Core	x2
64 个 INT32 Core（4 * 16）	16 个 INT32 Core	相同
64 个 FP64 Core（4 * 16）	16 个 FP32 Core	x2
4 个 Tensor Core4.0（4 * 1）	1 个 Tensor Core	Tensor Core3.0
32 个 LD/ST Unit（4 * 8）	8 个 LD/ST Unit	相同
16 个 SFU（4 * 4）	4 个 SFU	相同
Tensor Memory Accelerator		新增

NVIDIA Quantum-2 Infiniband 是英伟达推出的一种高性能互连技术，用于数据中心和高性能计算环境中的互连网络，具有高性能、低延迟、高可靠性和支持异构计算等特点，主要用于连接计算节点、存储系统和其他关键设备，以实现高速数据传输和低延迟通信。

NVIDIA BlueField-3 DPU（Data Processing Unit）是一种数据处理单元，提供数据中心的网络、存储和安全加速功能。BlueField-3 DPU 结合了网络接口控制器（NIC）、存储控制器、加密引擎和智能加速器等功能于一体，为数据中心提供了高性能、低延迟的数据处理解决方案。

NVIDIA CUDA 平台针对 NVIDIA Grace CPU，NVIDIA Grace Hopper Superchip 和 NVIDIA NVLink Switch 系统进行了优化，使得 NVIDIA CUDA 发展成为一个全面、高效、高性能的加速计算平台，为开发人员在异构平台上加速应用程序提供了最佳的体验。

基于 Hopper 架构，英伟达推出 NVIDIA H100 高性能计算加速器，旨在为各种规模的计算工作负载提供出色的性能和效率。在单服务器规模下，结合主流服务器使用 H100 加速卡可以提供强大的计算能力，加速各种计算密集型工作负载。在多服务器规模下，组成 GPU 集群的多块 H100 加速卡可以构建高性能计算集群，支持分布式计算和并行计算，提高整体计算效率。而在超级计算规模下，大量 H100 加速卡组成的超级计算集群可以处理极端规模的计算任务，支持复杂的科学计算和研究。

从单服务器到多服务器再到超级计算规模（Mainstream Servers to DGX to DGX SuperPOD），NVIDIA H100 在不同层次和规模下展现出色的计算性能和效率，满足各种计算需求和业务目标。企业可以根据自身需求和预算选择适合的 NVIDIA H100 解决方案，加速其计算任务和推动 AI 领域的发展。

Blackwell 架构

2024 年 3 月，英伟达发布 Blackwell 架构，专门用于处理数据中心规模的生成式 AI 工作流，能效是 Hopper 的 25 倍，新一代架构在以下方面做了创新：

新型 AI 超级芯片：Blackwell 架构 GPU 具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。
第二代 Transformer 引擎：将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。
第五代 NVLink：为了加速万亿参数和混合专家模型的性能，新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽，支持多达 576 个 GPU 间的无缝高速通信，适用于复杂大语言模型。
RAS 引擎：Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力，以识别早期可能发生的潜在故障，从而更大限度地减少停机时间。
安全 AI：内置英伟达机密计算技术，可通过基于硬件的强大安全性保护敏感数据和 AI 模型，使其免遭未经授权的访问。
解压缩引擎：拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力，可加速整个数据库查询工作流，从而在数据分析和数据科学方面实现更高性能。

大卫·哈罗德·布莱克韦尔（David Harold Blackwell）是 20 世纪美国著名的数学家和统计学家，他在统计学领域做出了卓越的贡献，被誉为统计学的巨匠，第一个非裔美国人当选为美国国家科学院院士，也是第一个获得美国数学学会最高奖------Leroy P. Steele 奖章的非裔美国人。主要成就包括：

在贝叶斯统计学领域做出了开创性的工作，提出了许多重要的方法和理论，推动了贝叶斯分析在统计学中的发展。

在信息论方面的研究成果为该领域的发展做出了重要贡献，提供了许多重要的理论基础和方法。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联，将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型，需要 8000 个 Hopper 架构 GPU，15 兆瓦功率，Blackwell 架构只需要 2000 个 GPU，以及 1/4 的能源消耗。8 年时间，从 Pascal 架构到 Blackwell 架构，英伟达将 AI 计算性能提升了 1000 倍！

英伟达 GB200 NVL72 集群以机架形式设计连接 36 个 GB200 超级芯片(36 个 Grace cpu 和 72 个 Blackwell GPU)。GB200 NVL72 是一款液冷、机架型 72 GPU NVLink，可以作为单个大规模 GPU，提供比上一代 HGX H100 实现 30 倍的实时万亿参数 LLM 推理，加速下一代 AI 和加速计算。

	GB200 NVL72	GB200 Grace Blackwell Superchip
Configuration	36 Grace CPU : 72 Blackwell GPUs	1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core2	1,440 PFLOPS	40 PFLOPS
FP8/FP6 Tensor Core2	720 PFLOPS	20 PFLOPS
INT8 Tensor Core2	720 POPS	20 POPS
FP16/BF16 Tensor Core2	360 PFLOPS	10 PFLOPS
TF32 Tensor Core2	180 PFLOPS	5 PFLOPS
FP64 Tensor Core	3,240 TFLOPS	90 TFLOPS
GPU Memory \| Bandwidth	Up to 13.5 TB HBM3e \| 576 TB/s	Up to 384 GB HBM3e \| 16 TB/s
NVLink Bandwidth	130TB/s	3.6TB/s
CPU Core Count	2,592 Arm Neoverse V2 cores	72 Arm Neoverse V2 cores
CPU Memory \| Bandwidth	Up to 17 TB LPDDR5X \| Up to 18.4 TB/s	Up to 480GB LPDDR5X \| Up to 512 GB/s
1. Preliminary specifications. May be subject to change. 1. With sparsity.

随着大模型（LLM）参数量增长对算力的需求，英伟达在存储带宽和内存方面不断创新，P100 上首次使用 HBM2，A100 使用 HBM2e，H100 使用 HBM3，H200 和 B100 使用 HBM3e。

英伟达 Blackwell HGX B200 和 HGX B100 在生成式 AI 、数据分析和高性能计算方面具有相同的突破性进展。HGX B200 是基于 8 个 B200 x86 平台，提供 144 petaFLOPs 的 AI 性能，每个 GPU 最高可配置 1000 瓦。HGX B100 是基于 8 个 B100 x86 平台，提供 112 petaFLOPs 的 AI 性能，每个 GPU 最高可配置为 700 瓦。

	HGX B200	HGX B100
Blackwell GPUs	8	8
FP4 Tensor Core	144 PetaFLOPS	112 PetaFLOPS
FP8/FP6/INT872	72 PetaFLOPS	56 PetaFLOPS
Fast Memory	Up to 1.5 TB	Up to 1.5TB
Aggregate Memory Bandwidth	Up to 64 TB/s	Up to 64 TB/s
Aggregate NVLink Bandwidth	14.4 TB/s	14.4 TB/s
Per GPU Specifications
FP4 Tensor Core	18 petaFLOPS	14 petaFLOPS
FP8/FP6 Tensor Core	9 petaFLOPS	7 petaFLOPS
INT8 Tensor Core	9 petaOPS	7 petaOPS
FP16/BF16 Tensor Core	4.5 petaFLOPS	3.5 petaFLOPS
TF32 Tensor Core	2.2 petaFLOPS	1.8 petaFLOPS
FP64 Tensor Core	40 teraFLOPS	30 teraFLOPS
GPU memory \| Bandwidth	Up to 192 GB HBM3e \| Up to 8 TB/s
Max thermal design power (TDP)	1,000W	700W
Interconnect	NVLink: 1.8TB/s, PCIe Gen6: 256GB/s	NVLink: 1.8TB/s, PCIe Gen6: 256GB/s
Server options	NVIDIA HGX B200 partner and NVIDIA-Certified Systems with 8 GPUs	NVIDIA HGX B100 partner and NVIDIA-Certified Systems with 8 GPUs

Preliminary specifications subject to change.
All petaFLOPS and petaOPS are with Sparsity except FP64 which is dense.