【WebGPU学习杂记】Uniform和Stroage的区别和适用场景

想象一下你在一个大型工厂里指挥一群机器人（Shader）干活。

Uniform Buffer (统一缓冲区) 就像是工厂中央广播里循环播放的 "当日指令"。
Storage Buffer (存储缓冲区) 就像是每个机器人都能去读写的 "共享任务看板/仓库"。

现在我们来详细拆解这个比喻，对应到你的问题：区别、性能、存储、场景。

核心区别：一个"广播"，一个"仓库"

特性	统一缓冲区	存储缓冲区
核心作用	只读。向一批着色器（一次draw call里的所有顶点/片元着色器）提供一份完全相同的数据。	可读可写。可以被着色器读取，也可以被写入。每个着色器实例可以访问缓冲区的不同部分。
数据访问	所有着色器实例看到的数据一模一样，就像听同一个广播。	每个着色器实例可以通过索引（比如 `instance_index` 或 `vertex_index`）访问仓库里不同的货架，拿取或存放不同的东西。
存储容量	小。有严格的大小限制，通常是 64KB ( `maxUniformBufferBindingSize` )。这是硬件限制。	大。容量非常大，通常至少是 128MB ( `maxStorageBufferBindingSize` )，甚至更大。
性能	极快。GPU有专门为它优化的硬件路径和高速缓存。因为数据是统一且只读的，GPU可以非常高效地把它广播给所有计算单元。	较快，但更通用。因为可读写且尺寸大，它使用的内存和缓存路径不如Uniform专用和高效。但对于大数据量，它是唯一的选择。
读写能力	在着色器（WGSL）中只读。	在着色器（WGSL）中可以声明为 `read` (只读) 或 `read_write` (读写)。
适用场景	1. 场景全局信息：相机矩阵（视图、投影矩阵）、环境光颜色、太阳光方向、当前时间。 2. 单个物体的变换：当一次只绘制一个物体时，传入它的模型矩阵。	1. 海量数据处理：粒子系统（每个粒子有自己的位置、速度），每个粒子数据就是一个结构体，成千上万个组成一个大数组。 2. 骨骼动画：所有骨骼的变换矩阵数组。 3. GPU计算 (Compute Shader) ：这是它的主场。比如，从一个Storage Buffer读取数据，计算后，写入另一个Storage Buffer。图像处理、物理模拟等。 4. 一次绘制大量不同物体 (Instancing) ：每个物体有自己的模型矩阵和颜色，可以把这些信息组成一个大数组放在Storage Buffer里，用 `instance_index` 去取。

深入理解性能差异 (为什么Uniform更快?)

这和你了解的操作系统知识有关，可以类比CPU的缓存层级（L1, L2, L3 Cache）。

GPU内部有多种不同的内存。Uniform Buffer 的数据通常会被加载到一种非常靠近计算核心的、速度极快的专用缓存 中。因为GPU知道这份数据对于接下来成百上千个并行任务都是一样的，所以它会做特别的优化，确保每个核心都能以最小的延迟访问到。

Storage Buffer 的数据则存放在更通用的显存区域（VRAM）。虽然访问也很快，但它没有 Uniform Buffer 那样的"VIP通道"。特别是当着色器需要写入 Storage Buffer 时，还需要处理缓存一致性、内存屏障等问题，这会带来额外的开销。

简单总结性能：

如果你的数据小、只读、且对一批处理都相同 ，用 Uniform Buffer 会获得最佳性能。
如果你的数据很大，或者需要在着色器里修改 ，或者每个着色器实例需要访问不同的数据 ，你必须使用 Storage Buffer。这时候就不用纠结性能了，因为 Uniform Buffer 根本做不到。

如何在代码中选择？（一个简单的决策流程）

问自己几个问题：

这份数据需要在着色器里被修改吗？
- 是 -> 必须用 Storage Buffer (并声明为 read_write)。
- 否 -> 继续问下一个问题。
这份数据的大小是否可能超过 64KB？ （比如，一个包含1000个 mat4x4<f32> 矩阵的数组就已经 1000 * 64 = 64000字节，接近极限了）
- 是 -> 必须用 Storage Buffer。
- 否 -> 继续问下一个问题。
在一次绘制命令（draw call）中，每个顶点/片元着色器实例访问的是不是完全相同的数据？
- 是（比如场景的投影矩阵） -> 优先使用 Uniform Buffer，性能最好。
- 否（比如每个实例需要根据自己的ID去数组里取不同的颜色或位置） -> 使用 Storage Buffer。

WGSL代码中的体现

wgsl 复制代码

// Uniform Buffer: 传入一个统一的变换矩阵
@group(0) @binding(0)
var<uniform> scene: SceneUniforms; // scene 是一个结构体，比如 { projMat: mat4x4<f32> }

// Storage Buffer: 传入一个粒子数组，可读可写
struct Particle {
  pos: vec2<f32>,
  vel: vec2<f32>,
};
@group(0) @binding(1)
var<storage, read_write> particleData: array<Particle>; // 注意这里的 read_write

// 使用
let projMatrix = scene.projMat; // 所有实例拿到的 projMatrix 都一样
var particle = particleData[instance_index]; // 每个实例根据自己的 instance_index 拿到不同的粒子
particle.pos += particle.vel; // 修改数据
particleData[instance_index] = particle; // 写回数据