【GPU 基础】架构与内存设计

​ 算子融合之所以重要,是因为"GPU 上内存读写比计算本身更慢";内存规划之所以关键,是因为"GPU 显存分配是一个重量级操作"。

​ 这两句话如果没有 GPU 硬件的背景知识,很难真正理解。这个番外系列补上这块基础,从 GPU 架构讲起。

一、CPU 和 GPU 的本质区别

​ 我们可以通过一个类比来理解这两者的区别:

  • CPU 像一个很聪明的专家,一次只能做一件事,但每件事做得很快、很灵活(复杂逻辑、分支判断都擅长)
  • GPU 像一个有几千个工人的工厂,每个工人能力一般,但同时干活,适合大量重复的简单计算(比如矩阵乘法)

​ 神经网络推理的核心操作是矩阵乘法,把输入矩阵和权重矩阵相乘。一个 [32,768]×[768,3072][32, 768] \times [768, 3072][32,768]×[768,3072] 的矩阵乘法包含32×768×3072≈750032 × 768 × 3072 ≈ 750032×768×3072≈7500 万次乘加操作,每次操作完全独立,天然适合 GPU 的几千个核心并行处理。

​ 这也是为什么 GPU 最初是为了图形渲染设计的,屏幕上的每个像素的颜色计算是互不依赖的,成千上万的像素可以同时处理。深度学习中的矩阵运算与此非常相似。

二、GPU 的内存层次

​ 理解 GPU 性能瓶颈的关键,不是算力,而是内存。GPU 内部的存储系统从快到慢分为四级,具体如下:

层级 大小 速度 说明
寄存器 每个核心几 KB 最快 计算单元直接读写,零延迟
共享内存 每个 SM 几十 KB 很快 同一计算块内的线程共享
L2 缓存 几 MB 全局缓存,所有核心共享
显存(VRAM) 几 GB ~ 80 GB 存放模型权重和中间结果

​ 这个层次和 CPU 的缓存体系(L1 → L2 → L3 → 内存)是类似的思路:越靠近计算单元的存储越快、但越小。不同之处在于, GPU 的共享内存是程序员可以显式控制的,你可以决定哪些数据放进共享内存,而 CPU 的缓存完全由硬件自动管理。

2.1 举例

​ 以 NVIDIA A100 为例,我们来看看各级存储的访问延迟:

  • 寄存器访问:零延迟

  • 共享内存访问:约 20 个时钟周期

  • 显存访问:约 200~400 个时钟周期

    从寄存器到显存,访问延迟差距高达 10~20 倍

​ 打个比方:寄存器就像是你手边的纸,共享内存是桌上的文件夹,而显存则是房间角落的大书柜。如果每次计算都得去书柜拿数据然后再返回,这样的"走路"时间就占据了大部分计算时间。

三、SM:GPU 的基本计算单元

​ GPU 并不是简单地由几千个核心组成,而是将这些核心分组管理。每一组称为 SM(Streaming Multiprocessor)

  • 每个 SM 包含多个 CUDA 核心(以 A100 为例,每个 SM 有 64 个 FP32 核心)
  • 每个 SM 都有自己的共享内存和寄存器堆
  • A100 总共有 108 个 SM,合计 6912 个 FP32 核心

​ 当你提交一个矩阵乘法任务给 GPU 时,CUDA 运行时会将任务划分成多个小块(线程块),并分配到各个 SM 上并行执行。每个 SM 内部的线程共享该 SM 的共享内存,线程之间可以高效通信;而 不同 SM 之间的通信必须通过显存。这也说明了显存和 SM 之间数据搬运的效率对整体性能的重要性。

四、总结

  • GPU 的核心优势是大规模并行:几千个核心同时执行相同的操作,天然适合矩阵运算
  • GPU 内存分四级,从寄存器到显存延迟差 10~20 倍,数据在哪里,比算得多快更重要
  • SM 是 GPU 的基本计算单元,SM 内部的线程共享共享内存进行高效通信,不同 SM 之间则依赖显存传输数据。
  • 性能瓶颈:GPU 推理时,权重和中间结果存储在显存中,每次计算都需要将数据搬运到 SM 内部,这个过程对性能有很大影响。
相关推荐
Java面试题总结3 小时前
Spring AI 核心架构、抽象模型与四大核心组件设计精髓
人工智能·spring·架构
波波0073 小时前
每日一题:什么是CQRS,在微服务中如何应用
微服务·架构
算力百科小智3 小时前
NVIDIA A100 GPU:基于 Ampere 架构的选型方法论
人工智能·架构·智星云·gpu算力租用·a100显卡
一江寒逸3 小时前
【30天做一个生产级RAG知识库系统】第8篇:并发优化与缓存设计,解决多用户访问崩服务的问题
缓存·架构
无忧智库3 小时前
智库级深度研判:数字中国浪潮下的医疗行业数字化转型与智慧医疗架构全景解构(PPT)
架构
贵慜_Derek4 小时前
我们能从 DeerFlow 学到哪些优秀的技术架构设计
人工智能·设计模式·架构
Coder个人博客4 小时前
19_apollo_cyber_base子模块软件架构分析
架构
LONGZETECH4 小时前
龙泽科技新能源充电设备仿真教学软件|技术解析+职教落地指南
科技·架构·汽车·汽车仿真教学软件·新能源汽车仿真教学软件
龙码精神4 小时前
JMeter压测QPS不翻倍问题排查与性能优化全记录
性能优化·架构