GPU学习笔记

1. GPU 内存访问机制

GPU 的特点:

  • 每个 GPU 核心(线程)会处理一个小任务(比如一个粒子或一个像素)

  • 这些线程通常是 成组执行 的(称为 warpwavefront,NVIDIA 上是 32 个线程一组)

  • 这些线程会同时请求内存,如果它们访问的是连续的内存地址,GPU 会把这些请求合并(coalesced),一次性读入一块连续内存

  • 如果访问不连续,GPU 需要多次访问,效率大幅下降


1. GPU 并行执行的特点

GPU 的线程是 成组执行 (NVIDIA 叫 warp,AMD 叫 wavefront),比如 NVIDIA 是 32 个线程一组

  • 这一组线程同时执行同一条指令(SIMD/Single Instruction Multiple Data)

  • 如果所有线程都做同样的操作,执行非常快

  • 如果有条件分支 (if),情况就复杂了

2. 为什么 if 会慢

假设你有这样一个代码片段:

if (condition)

doA();

else

doB();

  • 如果条件在 warp 内所有线程一致 → GPU 一次执行 doAdoB,效率正常

  • 如果条件不同(warp divergence) → GPU 需要:

    1. 先执行满足条件的线程

    2. 再执行不满足条件的线程

    3. 最后合并结果

这个过程叫 warp divergence ,会导致部分线程闲置,吞吐量下降。

2. 分支情况下(warp divergence)

假设 warp 内线程条件不一致:

复制代码

if (condition)

doA();

else

doB();

  • GPU 内部处理方式:

    1. 执行满足条件的线程 doA() → 其他线程被掩盖(idle)

    2. 执行不满足条件的线程 doB() → 前面 idle 的线程现在执行,原来的 doA 线程 idle

    3. 恢复线程状态,合并结果

结果:每条指令可能要执行两次(甚至更多,如果条件更多),导致部分线程在每次执行时闲置 → 实际吞吐量下降。


3. 性能消耗量化

假设:

  • 没有分支:warp 执行一次操作,32 个线程都忙 → 100% 利用率

  • 有分支:16 个线程做 doA,16 个做 doB

那么:

  • 执行 doA:16 个线程有效,16 个线程 idle → 利用率 50%

  • 执行 doB:16 个线程有效,16 个线程 idle → 利用率 50%

  • 平均下来,这条指令的 warp 利用率 = 50%

可以看出,理论上 warp divergence 会直接降低吞吐率,性能消耗很明显,尤其在大量分支和大 warp 的情况下。


为什么很多代码只用 dot(a,a)

在很多图形学 / 游戏 / shader 里,经常直接用 dot(a,a),原因是:

  • 不用 sqrt,计算更快

  • 如果只是比较距离大小,用平方就够了

平方非常便宜,sqrt 相对贵很多,但"贵多少"取决于硬件和编译器。总体规律在 CPU / GPU 上都差不多。

1️⃣ 运算成本对比(大致级别)

运算 大致成本
加 / 减 非常便宜(1 cycle 左右)
乘法(平方就是乘法) 很便宜(1--3 cycles)
除法 比乘法贵很多
sqrt 明显更贵

在计算机图形学和 GPU 编程中,Warp(线程束)是 GPU 执行线程的一种调度单位。简单来说:

Warp = 一组同时执行同一条指令的线程集合。

最常见的情况是在 NVIDIA GPU 架构中:

  • 1 个 Warp = 32 个线程

  • 这 32 个线程会 锁步(lockstep)执行同一条指令

  • Warp 是 GPU 调度器分配执行的最小单位

每个线程的数据不同 指令相同?

1 什么叫 指令相同

假设有一段 Shader / GPU 代码:

color = textureColor * light;

GPU 在某一时刻执行的 指令 其实是类似:

MUL r0, r1, r2

意思是:

r0 = r1 * r2

在一个 Warp(32个线程) 中:

所有线程此刻都在执行这一条 MUL 指令。

所以叫:

Single Instruction(单条指令)


2 什么叫 数据不同

虽然执行的指令一样,但每个线程操作的数据不同

例如在 Pixel Shader 里:

屏幕有很多像素:

pixel0

pixel1

pixel2

pixel3

...

Warp 中:

thread0 → pixel0

thread1 → pixel1

thread2 → pixel2

thread3 → pixel3

...

当执行:

color = textureColor * light

实际上发生的是:

thread0: color0 = texture0 * light0

thread1: color1 = texture1 * light1

thread2: color2 = texture2 * light2

thread3: color3 = texture3 * light3

相关推荐
CNNACN电商经济1 小时前
脑洞科技2025年报透露的“超维计算“或将引爆下一轮增长
人工智能
yuhaiqiang1 小时前
最强的 AI也许不是无所不知,但一定是最懂你的
人工智能
爱写代码的小朋友4 小时前
人工智能驱动下个性化学习路径的构建与实践研究——以K12数学学科为例
人工智能·学习
宝贝儿好6 小时前
【强化学习实战】第十一章:Gymnasium库的介绍和使用(1)、出租车游戏代码详解(Sarsa & Q learning)
人工智能·python·深度学习·算法·游戏·机器学习
绝世这天下8 小时前
【在 DGX Spark 上运行 vLLM-Omni 用于 Qwen3-TTS(语音设计,语音克隆)】
人工智能
陈大鱼头9 小时前
[译]费尽心思来保障 OpenClaw ?那跟直接用 GPT 有什么区别?
人工智能
Fleshy数模9 小时前
玩转OpenCV:视频椒盐噪声处理与图像形态学操作实战
人工智能·opencv·音视频
幂律智能9 小时前
Agent × 流程引擎融合架构:从静态流程到智能流程编排
人工智能·架构·agent
无垠的广袤9 小时前
ChatECNU 大语言模型与 PicoClaw 部署
人工智能·语言模型·自然语言处理·嵌入式·树莓派