CUDA图形互操作（Graphics Interop）

CUDA 图形互操作允许 GPU 计算核心 （用于执行 CUDA Kernel）直接访问和操作由 图形 API（如 OpenGL、DirectX 或 Vulkan）创建和管理的资源，例如纹理、顶点缓冲区和像素缓冲区。

在没有互操作之前，如果一个 CUDA 程序需要处理图形数据，数据流通常是这样的：

问题： 频繁的 CPU/GPU 内存复制（通过慢速的 PCIe 总线）会造成巨大的性能瓶颈。

图形互操作的核心机制是：CUDA 能够将图形资源直接映射到其地址空间，从而实现：

CUDA 提供了与主流图形 API 交互的特定 API 集合。

开发者必须首先使用 CUDA 互操作 API 注册图形资源，使其对 CUDA 可见。

Host 端操作： 在主机代码中，调用特定的 CUDA API 函数（例如，cudaGraphicsGLRegisterBuffer() 或 cudaGraphicsD3D11RegisterResource()）。
作用： 注册操作创建了 CUDA 句柄（Handle），将图形资源与 CUDA 的运行时连接起来。

在 CUDA Kernel 执行之前，必须执行**映射（Mapping）**操作。

映射： cudaGraphicsMapResources() 将已注册的资源映射到 CUDA 的地址空间，并返回一个或多个 CUDA 可访问的指针或纹理对象。
Kernel 执行： CUDA Kernel 使用这些指针直接读写 GPU 显存中的图形数据。
解映射： Kernel 执行完毕后，必须调用 cudaGraphicsUnmapResources() 解除映射。解除映射后，控制权交还给图形 API，图形管线可以使用更新后的数据进行渲染。

重要： 在资源被映射给 CUDA 期间，图形 API 不能对其进行访问；反之亦然。这确保了资源访问的一致性和线程安全。

过程：
1. 创建一个 OpenGL **顶点缓冲区对象（VBO）**来存储粒子位置。
2. 将 VBO 注册并映射给 CUDA。
3. CUDA Kernel 读取 VBO 中的粒子位置，计算物理运动（例如，重力、碰撞）。
4. Kernel 将新的位置数据直接写入 VBO。
5. 解除映射，OpenGL 立即使用 VBO 中的新坐标渲染粒子。
优势： 整个模拟和渲染过程的数据流都在 GPU 内部高速完成。

过程：
1. 图形 API 渲染场景到一个帧缓冲区对象（FBO）（或纹理）。
2. 将该纹理注册并映射给 CUDA。
3. CUDA Kernel 执行复杂的图像处理算法（例如，景深、抗锯齿、光线追踪后处理）。
4. 解除映射，图形 API 即可显示处理后的图像。
优势： 使用 CUDA 可以实现比图形 API 内置着色语言（如 GLSL/HLSL）更复杂、更灵活的计算。

使用 CUDA Kernel 来执行复杂的体积光线投射计算，并将最终的图像数据直接写入图形 API 的像素缓冲区进行显示。

CUDA 图形互操作是连接 GPU 计算和图形渲染世界的桥梁：

这使得开发者能够构建出高性能的实时模拟、高级可视化和混合计算应用程序。