高级 API 性能：同步

nvdev2023-08-03 13:45

这篇文章最初发表在 NVIDIA 技术博客上。

图形编程中的同步是指协调和控制并发操作，以确保渲染任务的正确和可预测执行。 CPU 和 GPU 之间的不正确同步可能导致性能下降、比赛条件和视觉伪影。

推荐

如果异步运行工作负载，请确保它们强调不同的 GPU 单元。例如，将带宽繁重的任务与数学繁重的任务配对。也就是说，使用 z-prepass 和 BVH 构建或后处理。
始终验证异步实现在不同的体系结构中是否更快。
异步工作可以属于不同的框架。使用此技术可以帮助找到更好的配对工作负载。
等待并发出信号量/围栏的绝对最小值。每一个过量的信号量/围栏都可能在管道中引入一个气泡。
使用 GPU 评测工具（ NVIDIA Nsight Graphics 在 GPU trace 模式、 PIX 或 GPU View 中）查看工作重叠和围栏在不拖延一个或另一个队列的情况下配合得如何。
为了避免额外的同步和资源障碍，可以在计算队列中进行异步复制/传输工作。

不推荐

避免创建不会使用的队列。
- 每个额外的队列都会增加处理的开销。
- 由于操作系统调度程序的限制，除非启用了硬件加速的 GPU 调度，否则多个异步计算队列不会重叠。更多详细信息，请参阅硬件加速的 GPU 调度。
尽可能避免微小的异步任务并将其分组。耗时＜ 0 . 2 毫秒的异步工作负载不太可能显示出任何好处，因为这大约是解决硬件调度前围栏问题的时间。
避免使用围栏来同步队列中的工作。根据规范，命令列表/缓冲区保证在命令队列中按提交顺序执行。
不应使用信号灯/围栏代替资源屏障。它们要贵得多，而且支持不同的用途。
不要实施占用率低的工作负载，以使其与图形队列上的更多工作保持一致。 GPU 功能可能会发生变化，占用率低的工作可能会变成拖尾，拖尾另一个队列。

上一篇：[tomcat-jdbc]Can‘t call commit when autocommit=true

下一篇：Matplotlib基础-绘图配置

热门推荐

01GitHub 镜像站点 02OpenCode 入门教程：介绍 · 安装 · 配置第三方 API (如 Claude)03Claude Code Skills 实用使用手册 04在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）05UV安装并设置国内源 06AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）08Linux下V2Ray安装配置指南 09BongoCat - 跨平台键盘猫动画工具 10Open Code教程（四）| 高级配置与集成