TensorRT及CUDA自学笔记005 GPU架构和线程束

抢公主的大魔王2024-02-25 11:17

TensorRT及CUDA自学笔记005 GPU架构和线程束

GPU架构

流处理器streaming multiprocessor （SM）

每一个SM包含整数个CUDA core、共享内存\L1缓存（shared memory\L1cache）、注册文件（Register File）、加载和存储单元（Load\Store Units）、特殊函数单元SFU（Special Function Unit）、Warps调度（Warps Scheduler）

Fermi架构

Fermi架构中512个CUDA内核构成16个SM，每个core中包含算数逻辑单元（ALU）和浮点计算单元（FPU）
Fermi架构包含6G全局内存
Fermi架构通过PCIE总线和主机连接
Fermi架构中，每个SM包含16个加载和存储单元
Fermi架构包含四个SFU，包含两个Warps Scheduler，两个Dispatch Unit

其中绿色为CUDA core

线程束（Warps）

左边是编程时的软件模型，右边时线程在物理层面的模型

每个GPU可以并行执行大量的thread，GPU中的每一个core执行一个thread，但是在物理上thread并不是真正的完全同步运行的，core，block总共就那么多，是不能支持过多的thread完全同时运行的，所以，就像排队一样，grid中的block被分配到GPU上的SM上执行，每个SM是先执行完一批thread后在执行下一批thread，多批线程块按顺序地在同一批SM中执行。

当block被分配在SM上时，就会以32个thread为一组进行分割，每一组为一个warp

线程束的数量计算

每个Warp包含32个thread
每个warp中只能包含同一个block中的thread（每个block中的所有thread的计算是一样的，只有其用于计算的数据是不同的）

所以我们要用block的维度计算出的thread的数量除以32，再向上取整就可以得到共需要多少个warp（注意不是SM）