【GPU 基础】架构与内存设计

​ 算子融合之所以重要,是因为"GPU 上内存读写比计算本身更慢";内存规划之所以关键,是因为"GPU 显存分配是一个重量级操作"。

​ 这两句话如果没有 GPU 硬件的背景知识,很难真正理解。这个番外系列补上这块基础,从 GPU 架构讲起。

一、CPU 和 GPU 的本质区别

​ 我们可以通过一个类比来理解这两者的区别:

  • CPU 像一个很聪明的专家,一次只能做一件事,但每件事做得很快、很灵活(复杂逻辑、分支判断都擅长)
  • GPU 像一个有几千个工人的工厂,每个工人能力一般,但同时干活,适合大量重复的简单计算(比如矩阵乘法)

​ 神经网络推理的核心操作是矩阵乘法,把输入矩阵和权重矩阵相乘。一个 32,768×768,307232, 768 \times 768, 307232,768×768,3072 的矩阵乘法包含32×768×3072≈750032 × 768 × 3072 ≈ 750032×768×3072≈7500 万次乘加操作,每次操作完全独立,天然适合 GPU 的几千个核心并行处理。

​ 这也是为什么 GPU 最初是为了图形渲染设计的,屏幕上的每个像素的颜色计算是互不依赖的,成千上万的像素可以同时处理。深度学习中的矩阵运算与此非常相似。

二、GPU 的内存层次

​ 理解 GPU 性能瓶颈的关键,不是算力,而是内存。GPU 内部的存储系统从快到慢分为四级,具体如下:

层级 大小 速度 说明
寄存器 每个核心几 KB 最快 计算单元直接读写,零延迟
共享内存 每个 SM 几十 KB 很快 同一计算块内的线程共享
L2 缓存 几 MB 全局缓存,所有核心共享
显存(VRAM) 几 GB ~ 80 GB 存放模型权重和中间结果

​ 这个层次和 CPU 的缓存体系(L1 → L2 → L3 → 内存)是类似的思路:越靠近计算单元的存储越快、但越小。不同之处在于, GPU 的共享内存是程序员可以显式控制的,你可以决定哪些数据放进共享内存,而 CPU 的缓存完全由硬件自动管理。

2.1 举例

​ 以 NVIDIA A100 为例,我们来看看各级存储的访问延迟:

  • 寄存器访问:零延迟

  • 共享内存访问:约 20 个时钟周期

  • 显存访问:约 200~400 个时钟周期

    从寄存器到显存,访问延迟差距高达 10~20 倍

​ 打个比方:寄存器就像是你手边的纸,共享内存是桌上的文件夹,而显存则是房间角落的大书柜。如果每次计算都得去书柜拿数据然后再返回,这样的"走路"时间就占据了大部分计算时间。

三、SM:GPU 的基本计算单元

​ GPU 并不是简单地由几千个核心组成,而是将这些核心分组管理。每一组称为 SM(Streaming Multiprocessor)

  • 每个 SM 包含多个 CUDA 核心(以 A100 为例,每个 SM 有 64 个 FP32 核心)
  • 每个 SM 都有自己的共享内存和寄存器堆
  • A100 总共有 108 个 SM,合计 6912 个 FP32 核心

​ 当你提交一个矩阵乘法任务给 GPU 时,CUDA 运行时会将任务划分成多个小块(线程块),并分配到各个 SM 上并行执行。每个 SM 内部的线程共享该 SM 的共享内存,线程之间可以高效通信;而 不同 SM 之间的通信必须通过显存。这也说明了显存和 SM 之间数据搬运的效率对整体性能的重要性。

四、总结

  • GPU 的核心优势是大规模并行:几千个核心同时执行相同的操作,天然适合矩阵运算
  • GPU 内存分四级,从寄存器到显存延迟差 10~20 倍,数据在哪里,比算得多快更重要
  • SM 是 GPU 的基本计算单元,SM 内部的线程共享共享内存进行高效通信,不同 SM 之间则依赖显存传输数据。
  • 性能瓶颈:GPU 推理时,权重和中间结果存储在显存中,每次计算都需要将数据搬运到 SM 内部,这个过程对性能有很大影响。
相关推荐
杨了个杨898221 分钟前
Keepalived + Nginx + HAProxy 高可用架构部署实战案例
java·nginx·架构
56AI2 小时前
360 智语 AI 企业智能体平台深度评测:从 L4 蜂群架构到政企落地实战
人工智能·架构
youngerwang3 小时前
【从搬运工到协处理器:网卡芯片架构、算法、验证与边缘演进深度剖析】
网络·算法·架构·芯片
老毛肚3 小时前
JeecgBoot 后端架构与技术栈全景导读 01
架构
@insist1234 小时前
系统架构设计师-操作系统进程管理核心知识点详解
架构·系统架构·软考·系统架构设计师·软件水平考试
●VON4 小时前
AtomGit Flutter鸿蒙客户端:用户资料
flutter·华为·架构·跨平台·harmonyos·鸿蒙
SL-staff5 小时前
Web 白板技术架构深度解析:从渲染到协作的选型哲学
前端·架构
前端冒菜师5 小时前
别急着做 Agent,AI 工程化的第一步是 Skill 化
架构·ai编程