GPU的硬件架构:SM(流式多处理器)剖析

一个 NVIDIA GPU 芯片由多个 SM 组成。SM 是 GPU 的 "CPU 内核",但专为高度并行计算设计。GPU 的整体并行能力和吞吐量主要取决于其拥有的 SM 数量和每个 SM 的计算能力。

1. SM 的核心功能

SM 的主要任务是执行线程块(Thread Blocks)。CUDA 运行时会将一个 Kernel 启动的 Grid 中的一个或多个线程块调度到一个可用的 SM 上执行。

  • 线程调度: SM 内部的 Warp 调度器负责管理和调度 Warp(32 个线程的组)的执行。

  • 资源管理: SM 为其上的线程块提供计算核心、缓存、寄存器文件和共享内存等资源。

2. SM 的主要组成部分

一个 SM 是一个自包含的并行处理单元,包含了以下关键组件:

2.1 CUDA 核心 (CUDA Cores)

CUDA 核心是 SM 内部执行浮点和整数指令的基本算术逻辑单元 (ALU)。

  • 数量: 每个 SM 包含数百个 CUDA 核心。

  • 并行性: 这些核心以 Warp 为单位接收和执行指令。

2.2 Tensor Core (张量核心)

自 Volta 架构引入,Tensor Core 是专为加速深度学习和高性能计算中的矩阵乘法而设计的专用硬件单元。

  • 功能: 高效执行低精度(FP16/BF16/INT8)的矩阵乘法累加运算。

  • 用途: 显著提高了 GPU 在 AI 训练和推理中的吞吐量。

2.3 寄存器文件 (Register File, RF)

寄存器用于存储线程私有的局部变量,是 SM 中最快的内存资源。

  • 特点: 寄存器文件是所有并发线程块共享的有限资源。

  • 影响: 如果 Kernel 使用了过多的寄存器,会导致每个 SM 上能运行的线程块数量减少(低占用率),从而影响性能。

2.4 共享内存 (Shared Memory) / L1 缓存

SM 拥有一块快速的片上内存,可以根据配置用于共享内存或 L1 缓存。

  • 共享内存: 供同一线程块内的线程进行高速数据交换和重用。

  • L1 缓存: 缓存全局内存的读取数据,以隐藏高延迟。

  • 统一结构: 在现代 GPU 架构中,共享内存和 L1 缓存通常共享同一物理资源,开发者可以通过配置来调整两者的分配比例。

2.5 Warp 调度器 (Warp Scheduler)

这是 SM 的"大脑",负责决定下一个要执行指令的 Warp。

  • 任务: 持续地监控和选择处于准备就绪状态(即数据已就绪,没有停滞)的 Warp,并将其指令分发给 CUDA 核心和 Tensor Core 执行。

  • 隐藏延迟: 通过快速切换和交错执行来自不同 Warp 的指令,调度器可以隐藏因内存访问或指令依赖导致的延迟。

2.6 加载/存储单元 (Load/Store Units)

这些单元负责处理所有对 SM 外部存储器(如全局内存)的数据加载和存储请求。它们是实现内存合并的关键。

3. SM 与 CUDA 线程层次结构的映射

SM 的结构直接映射了 CUDA 的编程模型:

CUDA 编程模型 SM 硬件组件 映射关系
Grid (网格) GPU 芯片 整个 Grid 分发到 GPU 上所有可用的 SM。
Block (线程块) SM 一个线程块被原子性地分配给一个 SM,并在其上执行。
Warp (线程束) Warp 调度器/CUDA 核心 线程块被细分为 Warp,由调度器执行。
Thread (线程) CUDA 核心 Warp 中的每个线程最终在 CUDA 核心上执行其指令。
Shared Memory Shared Memory/L1 缓存 线程块内的线程共享 SM 上的片上存储。
Register Register File 每个线程使用 SM 上的寄存器资源。

4. 占用率(Occupancy):衡量 SM 效率的关键

占用率(Occupancy) 是衡量 SM 利用率的关键指标。

  • 定义: 实际活跃的 Warp/线程块数量与 SM 支持的最大 Warp/线程块数量之比。

  • 目标: 高占用率确保 SM 上总是有足够多的 Warp 处于就绪状态,从而让 Warp 调度器能够有效地隐藏内存访问延迟。

  • 限制因素: 线程块对寄存器和共享内存的需求越高,单个 SM 能容纳的线程块数量就越少,可能导致占用率降低。

总结:

SM 是 NVIDIA GPU 的计算核心,它通过集成大量的并行核心(CUDA Cores, Tensor Cores)和高速片上存储器(共享内存/L1 缓存),并配合高效的 Warp 调度器,实现了 CUDA 程序所需的大规模并行计算能力。理解 SM 的资源限制和调度机制,是编写出能充分利用 GPU 潜力的优化代码的前提。

相关推荐
HyperAI超神经17 小时前
【Triton 教程】triton_language.load
人工智能·学习·大语言模型·cpu·gpu·编程语言·triton
扫地的小何尚1 天前
NVIDIA CUDA-Q QEC权威指南:实时解码、GPU解码器与AI推理增强
人工智能·深度学习·算法·llm·gpu·量子计算·nvidia
HyperAI超神经2 天前
【vLLM 学习】Prithvi Geospatial Mae
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
云雾J视界2 天前
FPGA在AI时代的角色重塑:硬件可重构性与异构计算的完美结合
fpga开发·边缘计算·gpu·vitis·ai推理·azure云·异构编程
渡我白衣2 天前
C++可变参数队列与压栈顺序:从模板语法到汇编调用约定的深度解析
c语言·汇编·c++·人工智能·windows·深度学习·硬件架构
绿算技术2 天前
在稀缺时代,定义“性价比”新标准
大数据·数据结构·科技·算法·硬件架构
HyperAI超神经2 天前
【TVM 教程】交叉编译与 RPC
网络·人工智能·网络协议·rpc·gpu·编程语言·tvm
神算大模型APi--天枢6463 天前
全栈自主可控:国产算力平台重塑大模型后端开发与部署生态
大数据·前端·人工智能·架构·硬件架构