GPU的硬件架构:SM(流式多处理器)剖析

一个 NVIDIA GPU 芯片由多个 SM 组成。SM 是 GPU 的 "CPU 内核",但专为高度并行计算设计。GPU 的整体并行能力和吞吐量主要取决于其拥有的 SM 数量和每个 SM 的计算能力。

1. SM 的核心功能

SM 的主要任务是执行线程块(Thread Blocks)。CUDA 运行时会将一个 Kernel 启动的 Grid 中的一个或多个线程块调度到一个可用的 SM 上执行。

  • 线程调度: SM 内部的 Warp 调度器负责管理和调度 Warp(32 个线程的组)的执行。

  • 资源管理: SM 为其上的线程块提供计算核心、缓存、寄存器文件和共享内存等资源。

2. SM 的主要组成部分

一个 SM 是一个自包含的并行处理单元,包含了以下关键组件:

2.1 CUDA 核心 (CUDA Cores)

CUDA 核心是 SM 内部执行浮点和整数指令的基本算术逻辑单元 (ALU)。

  • 数量: 每个 SM 包含数百个 CUDA 核心。

  • 并行性: 这些核心以 Warp 为单位接收和执行指令。

2.2 Tensor Core (张量核心)

自 Volta 架构引入,Tensor Core 是专为加速深度学习和高性能计算中的矩阵乘法而设计的专用硬件单元。

  • 功能: 高效执行低精度(FP16/BF16/INT8)的矩阵乘法累加运算。

  • 用途: 显著提高了 GPU 在 AI 训练和推理中的吞吐量。

2.3 寄存器文件 (Register File, RF)

寄存器用于存储线程私有的局部变量,是 SM 中最快的内存资源。

  • 特点: 寄存器文件是所有并发线程块共享的有限资源。

  • 影响: 如果 Kernel 使用了过多的寄存器,会导致每个 SM 上能运行的线程块数量减少(低占用率),从而影响性能。

2.4 共享内存 (Shared Memory) / L1 缓存

SM 拥有一块快速的片上内存,可以根据配置用于共享内存或 L1 缓存。

  • 共享内存: 供同一线程块内的线程进行高速数据交换和重用。

  • L1 缓存: 缓存全局内存的读取数据,以隐藏高延迟。

  • 统一结构: 在现代 GPU 架构中,共享内存和 L1 缓存通常共享同一物理资源,开发者可以通过配置来调整两者的分配比例。

2.5 Warp 调度器 (Warp Scheduler)

这是 SM 的"大脑",负责决定下一个要执行指令的 Warp。

  • 任务: 持续地监控和选择处于准备就绪状态(即数据已就绪,没有停滞)的 Warp,并将其指令分发给 CUDA 核心和 Tensor Core 执行。

  • 隐藏延迟: 通过快速切换和交错执行来自不同 Warp 的指令,调度器可以隐藏因内存访问或指令依赖导致的延迟。

2.6 加载/存储单元 (Load/Store Units)

这些单元负责处理所有对 SM 外部存储器(如全局内存)的数据加载和存储请求。它们是实现内存合并的关键。

3. SM 与 CUDA 线程层次结构的映射

SM 的结构直接映射了 CUDA 的编程模型:

CUDA 编程模型 SM 硬件组件 映射关系
Grid (网格) GPU 芯片 整个 Grid 分发到 GPU 上所有可用的 SM。
Block (线程块) SM 一个线程块被原子性地分配给一个 SM,并在其上执行。
Warp (线程束) Warp 调度器/CUDA 核心 线程块被细分为 Warp,由调度器执行。
Thread (线程) CUDA 核心 Warp 中的每个线程最终在 CUDA 核心上执行其指令。
Shared Memory Shared Memory/L1 缓存 线程块内的线程共享 SM 上的片上存储。
Register Register File 每个线程使用 SM 上的寄存器资源。

4. 占用率(Occupancy):衡量 SM 效率的关键

占用率(Occupancy) 是衡量 SM 利用率的关键指标。

  • 定义: 实际活跃的 Warp/线程块数量与 SM 支持的最大 Warp/线程块数量之比。

  • 目标: 高占用率确保 SM 上总是有足够多的 Warp 处于就绪状态,从而让 Warp 调度器能够有效地隐藏内存访问延迟。

  • 限制因素: 线程块对寄存器和共享内存的需求越高,单个 SM 能容纳的线程块数量就越少,可能导致占用率降低。

总结:

SM 是 NVIDIA GPU 的计算核心,它通过集成大量的并行核心(CUDA Cores, Tensor Cores)和高速片上存储器(共享内存/L1 缓存),并配合高效的 Warp 调度器,实现了 CUDA 程序所需的大规模并行计算能力。理解 SM 的资源限制和调度机制,是编写出能充分利用 GPU 潜力的优化代码的前提。

相关推荐
小白狮ww17 小时前
Ovis-Image:卓越的图像生成模型
人工智能·深度学习·目标检测·机器学习·cpu·gpu·视觉分割模型
小郭团队19 小时前
2_6_五段式SVPWM(经典算法+DPWM2)算法理论与MATLAB实现详解
算法·matlab·硬件架构·arm·dsp开发
hans汉斯21 小时前
基于语义增强与规则引导的弱监督视频异常检测方法
人工智能·深度学习·算法·机器学习·自然语言处理·硬件架构·汉斯出版社
模拟IC攻城狮1 天前
电压模buck电路详尽设计仿真报告+电路文件+仿真状态+smic0.18um工艺库
嵌入式硬件·硬件架构·pcb工艺·数字芯片
virtaitech2 天前
云平台一键部署【rednote-hilab/dots.ocr】多语言文档布局解析模型
人工智能·科技·ai·ocr·gpu·算力
virtaitech3 天前
如何评价趋动科技推出永久免费的OrionX社区版?
人工智能·科技·ai·免费·gpu·池化技术
XerCis3 天前
Python读取硬盘信息pySMART——调用smartctl
开发语言·python·硬件架构
纽格立科技3 天前
从模拟 FM 到数字 CDR:手机硬件架构为何难以跨越这道技术鸿沟
智能手机·硬件架构
【赫兹威客】浩哥4 天前
【赫兹威客】伪分布式Hive测试教程
硬件架构
小龙报5 天前
【SOLIDWORKS 练习题】草图专题:2.GAME BOY
人工智能·驱动开发·硬件架构·硬件工程·pcb工艺·材料工程·精益工程