高级 API 性能:同步

这篇文章最初发表在 NVIDIA 技术博客上。

图形编程中的同步是指协调和控制并发操作,以确保渲染任务的正确和可预测执行。 CPU 和 GPU 之间的不正确同步可能导致性能下降、比赛条件和视觉伪影。

推荐

  • 如果异步运行工作负载,请确保它们强调不同的 GPU 单元。例如,将带宽繁重的任务与数学繁重的任务配对。也就是说,使用 z-prepass 和 BVH 构建或后处理。
  • 始终验证异步实现在不同的体系结构中是否更快。
  • 异步工作可以属于不同的框架。使用此技术可以帮助找到更好的配对工作负载。
  • 等待并发出信号量/围栏的绝对最小值。每一个过量的信号量/围栏都可能在管道中引入一个气泡。
  • 使用 GPU 评测工具( NVIDIA Nsight Graphics 在 GPU trace 模式、 PIX 或 GPU View 中)查看工作重叠和围栏在不拖延一个或另一个队列的情况下配合得如何。
  • 为了避免额外的同步和资源障碍,可以在计算队列中进行异步复制/传输工作。

不推荐

  • 避免创建不会使用的队列。
    • 每个额外的队列都会增加处理的开销。
    • 由于操作系统调度程序的限制,除非启用了硬件加速的 GPU 调度,否则多个异步计算队列不会重叠。更多详细信息,请参阅硬件加速的 GPU 调度
  • 尽可能避免微小的异步任务并将其分组。耗时< 0 . 2 毫秒的异步工作负载不太可能显示出任何好处,因为这大约是解决硬件调度前围栏问题的时间。
  • 避免使用围栏来同步队列中的工作。根据规范,命令列表/缓冲区保证在命令队列中按提交顺序执行。
  • 不应使用信号灯/围栏代替资源屏障。它们要贵得多,而且支持不同的用途。
  • 不要实施占用率低的工作负载,以使其与图形队列上的更多工作保持一致。 GPU 功能可能会发生变化,占用率低的工作可能会变成拖尾,拖尾另一个队列。

阅读原文

相关推荐
乌恩大侠7 天前
【东枫科技】使用LabVIEW进行NVIDIA CUDA GPU 开发
人工智能·科技·labview·nvidia·usrp
yangtzi8 天前
Windows Server 2025开启GPU分区(GPU-P)部署DoraCloud云桌面
nvidia·hyper-v·gpu-p·doracloud
乌恩大侠11 天前
【东枫科技】代理销售 NVIDIA DGX Spark 您的桌上有一台 Grace Blackwell AI 超级计算机。
大数据·人工智能·科技·spark·nvidia
乌恩大侠12 天前
【东枫科技】代理英伟达产品:DPU
人工智能·科技·nvidia·6g·usrp
乌恩大侠15 天前
【东枫科技】AMD / Xilinx Alveo™ V80计算加速器卡
人工智能·科技·5g·nvidia·6g·usrp
落樱弥城1 个月前
Nvidia显卡架构演进
人工智能·ai·gpu·nvidia·gpgpu
Panesle1 个月前
英伟达开源253B语言模型:Llama-3.1-Nemotron-Ultra-253B-v1 模型情况
人工智能·语言模型·llama·nvidia
Panesle1 个月前
英伟达Llama-3.1-Nemotron-Ultra-253B-v1语言模型论文快读:FFN Fusion
人工智能·语言模型·llama·nvidia
mortimer1 个月前
5090 装机后无法使用 GPU 加速?别急,这里有解决办法!
github·gpu·nvidia
kcarly1 个月前
TensorRT 有什么特殊之处
ai·ai绘画·nvidia·tensorrt