GPU学习笔记

1. GPU 内存访问机制

GPU 的特点:

  • 每个 GPU 核心(线程)会处理一个小任务(比如一个粒子或一个像素)

  • 这些线程通常是 成组执行 的(称为 warpwavefront,NVIDIA 上是 32 个线程一组)

  • 这些线程会同时请求内存,如果它们访问的是连续的内存地址,GPU 会把这些请求合并(coalesced),一次性读入一块连续内存

  • 如果访问不连续,GPU 需要多次访问,效率大幅下降


1. GPU 并行执行的特点

GPU 的线程是 成组执行 (NVIDIA 叫 warp,AMD 叫 wavefront),比如 NVIDIA 是 32 个线程一组

  • 这一组线程同时执行同一条指令(SIMD/Single Instruction Multiple Data)

  • 如果所有线程都做同样的操作,执行非常快

  • 如果有条件分支 (if),情况就复杂了

2. 为什么 if 会慢

假设你有这样一个代码片段:

if (condition)

doA();

else

doB();

  • 如果条件在 warp 内所有线程一致 → GPU 一次执行 doAdoB,效率正常

  • 如果条件不同(warp divergence) → GPU 需要:

    1. 先执行满足条件的线程

    2. 再执行不满足条件的线程

    3. 最后合并结果

这个过程叫 warp divergence ,会导致部分线程闲置,吞吐量下降。

2. 分支情况下(warp divergence)

假设 warp 内线程条件不一致:

复制代码

if (condition)

doA();

else

doB();

  • GPU 内部处理方式:

    1. 执行满足条件的线程 doA() → 其他线程被掩盖(idle)

    2. 执行不满足条件的线程 doB() → 前面 idle 的线程现在执行,原来的 doA 线程 idle

    3. 恢复线程状态,合并结果

结果:每条指令可能要执行两次(甚至更多,如果条件更多),导致部分线程在每次执行时闲置 → 实际吞吐量下降。


3. 性能消耗量化

假设:

  • 没有分支:warp 执行一次操作,32 个线程都忙 → 100% 利用率

  • 有分支:16 个线程做 doA,16 个做 doB

那么:

  • 执行 doA:16 个线程有效,16 个线程 idle → 利用率 50%

  • 执行 doB:16 个线程有效,16 个线程 idle → 利用率 50%

  • 平均下来,这条指令的 warp 利用率 = 50%

可以看出,理论上 warp divergence 会直接降低吞吐率,性能消耗很明显,尤其在大量分支和大 warp 的情况下。


为什么很多代码只用 dot(a,a)

在很多图形学 / 游戏 / shader 里,经常直接用 dot(a,a),原因是:

  • 不用 sqrt,计算更快

  • 如果只是比较距离大小,用平方就够了

平方非常便宜,sqrt 相对贵很多,但"贵多少"取决于硬件和编译器。总体规律在 CPU / GPU 上都差不多。

1️⃣ 运算成本对比(大致级别)

运算 大致成本
加 / 减 非常便宜(1 cycle 左右)
乘法(平方就是乘法) 很便宜(1--3 cycles)
除法 比乘法贵很多
sqrt 明显更贵

在计算机图形学和 GPU 编程中,Warp(线程束)是 GPU 执行线程的一种调度单位。简单来说:

Warp = 一组同时执行同一条指令的线程集合。

最常见的情况是在 NVIDIA GPU 架构中:

  • 1 个 Warp = 32 个线程

  • 这 32 个线程会 锁步(lockstep)执行同一条指令

  • Warp 是 GPU 调度器分配执行的最小单位

每个线程的数据不同 指令相同?

1 什么叫 指令相同

假设有一段 Shader / GPU 代码:

color = textureColor * light;

GPU 在某一时刻执行的 指令 其实是类似:

MUL r0, r1, r2

意思是:

r0 = r1 * r2

在一个 Warp(32个线程) 中:

所有线程此刻都在执行这一条 MUL 指令。

所以叫:

Single Instruction(单条指令)


2 什么叫 数据不同

虽然执行的指令一样,但每个线程操作的数据不同

例如在 Pixel Shader 里:

屏幕有很多像素:

pixel0

pixel1

pixel2

pixel3

...

Warp 中:

thread0 → pixel0

thread1 → pixel1

thread2 → pixel2

thread3 → pixel3

...

当执行:

color = textureColor * light

实际上发生的是:

thread0: color0 = texture0 * light0

thread1: color1 = texture1 * light1

thread2: color2 = texture2 * light2

thread3: color3 = texture3 * light3

相关推荐
小雨下雨的雨1 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道3 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟3 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love3 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇3 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明3 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc3 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技3 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本3 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent4 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt