GPU微架构

GPU微架构

kkk123442025-10-14 13:23

第一章 GPU架构设计的目标

文章目录

GPU微架构
GPU与多线程
- GPU采用多线程架构的原因
- GPU采用多线程架构的方法
GPU的多线程前端拓展

GPU与多线程

GPU与CPU架构的典型特征在于并行计算，以及计算控制方法

GPU采用多线程架构的原因

处理需求具有一致性（最典型的属于渲染管线：典型的渲染过程包括）
针对AI计算便于多粒度组合计算（一方面支持多Batch；另一方面支持变化规模，例如feature size的变化或者MatMul的矩阵规模变化）

GPU采用多线程架构的方法

理论上，当前处理器均采用多级流水线的方法，每条指令依次通过各阶段的处理（F、D、S、E、W）。然而在顺序处理器中，如果指令数据缓存未命中，那么后续指令必须等待。而实际上存在大量情况下后续指令并不依赖当前指令。此次引入两种处理策略

在多线程方法中，处理器简单切换到另一个线程，不管前一条指令是否产生阻塞。GPU采用多线程技术，灵活切换线程执行指令
CPU采用乱序、缓存系统和指令级并行（ILP）来应对延迟
[备注] 更长的内存延迟一般需要更懂数量的线程来隐藏

GPU的多线程前端拓展

GPU通过程序计数器（PC）值来标记每个线程束。除了PC，每个线程束一般还需要独立的寄存器。所以，GPU中的上下文切换意味着在多个PC寄存器和寄存器文件之间的指针切换，而CPU的上下文切换一般需要把调用线程的内容重新加载寄存器文件之中，继而产生显著的时间开销
[备注] 典型的，K个线程束，每个线程具有N个寄存器，那么总寄存器文件大小为 K × N K \times N K×N