GPU微架构

GPU微架构

第一章 GPU架构设计的目标


文章目录


GPU与多线程

GPU与CPU架构的典型特征在于并行计算,以及计算控制方法

GPU采用多线程架构的原因

  • 处理需求具有一致性(最典型的属于渲染管线:典型的渲染过程包括)
  • 针对AI计算便于多粒度组合计算(一方面支持多Batch;另一方面支持变化规模,例如feature size的变化或者MatMul的矩阵规模变化)

GPU采用多线程架构的方法

理论上,当前处理器均采用多级流水线的方法,每条指令依次通过各阶段的处理(F、D、S、E、W)。然而在顺序处理器中,如果指令数据缓存未命中,那么后续指令必须等待。而实际上存在大量情况下后续指令并不依赖当前指令。此次引入两种处理策略

  • 在多线程方法中,处理器简单切换到另一个线程,不管前一条指令是否产生阻塞。GPU采用多线程技术,灵活切换线程执行指令
  • CPU采用乱序、缓存系统和指令级并行(ILP)来应对延迟
    [备注] 更长的内存延迟一般需要更懂数量的线程来隐藏

GPU的多线程前端拓展

GPU通过程序计数器(PC)值来标记每个线程束。除了PC,每个线程束一般还需要独立的寄存器。所以,GPU中的上下文切换意味着在多个PC寄存器和寄存器文件之间的指针切换,而CPU的上下文切换一般需要把调用线程的内容重新加载寄存器文件之中,继而产生显著的时间开销
[备注] 典型的,K个线程束,每个线程具有N个寄存器,那么总寄存器文件大小为 K × N K \times N K×N

相关推荐
麦聪聊数据5 分钟前
为何通用堡垒机无法在数据库运维中实现精准风控?
数据库·sql·安全·低代码·架构
2的n次方_26 分钟前
CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制
c语言·开发语言·架构
L、21837 分钟前
深入理解CANN:面向AI加速的异构计算架构详解
人工智能·架构
Max_uuc2 小时前
【架构心法】嵌入式系统的“防御性编程”:如何构建一个在灾难中存活的系统
架构
lbb 小魔仙2 小时前
面向 NPU 的高性能矩阵乘法:CANN ops-nn 算子库架构与优化技术
线性代数·矩阵·架构
是码龙不是码农3 小时前
支付防重复下单|5 种幂等性设计方案(从初级到架构级)
java·架构·幂等性
云边有个稻草人3 小时前
CANN异构架构:以ops-nn为翼,驱动AIGC底层计算新突破
架构·aigc
心疼你的一切3 小时前
模态交响:CANN驱动的跨模态AIGC统一架构
数据仓库·深度学习·架构·aigc·cann
晚霞的不甘3 小时前
CANN × ROS 2:为智能机器人打造实时 AI 推理底座
人工智能·神经网络·架构·机器人·开源
jiet_h4 小时前
后端 Verticle 架构实战:用 NeonBeeDeployable 推送一条通知
架构