高级 API 性能:同步

这篇文章最初发表在 NVIDIA 技术博客上。

图形编程中的同步是指协调和控制并发操作,以确保渲染任务的正确和可预测执行。 CPU 和 GPU 之间的不正确同步可能导致性能下降、比赛条件和视觉伪影。

推荐

  • 如果异步运行工作负载,请确保它们强调不同的 GPU 单元。例如,将带宽繁重的任务与数学繁重的任务配对。也就是说,使用 z-prepass 和 BVH 构建或后处理。
  • 始终验证异步实现在不同的体系结构中是否更快。
  • 异步工作可以属于不同的框架。使用此技术可以帮助找到更好的配对工作负载。
  • 等待并发出信号量/围栏的绝对最小值。每一个过量的信号量/围栏都可能在管道中引入一个气泡。
  • 使用 GPU 评测工具( NVIDIA Nsight Graphics 在 GPU trace 模式、 PIX 或 GPU View 中)查看工作重叠和围栏在不拖延一个或另一个队列的情况下配合得如何。
  • 为了避免额外的同步和资源障碍,可以在计算队列中进行异步复制/传输工作。

不推荐

  • 避免创建不会使用的队列。
    • 每个额外的队列都会增加处理的开销。
    • 由于操作系统调度程序的限制,除非启用了硬件加速的 GPU 调度,否则多个异步计算队列不会重叠。更多详细信息,请参阅硬件加速的 GPU 调度
  • 尽可能避免微小的异步任务并将其分组。耗时< 0 . 2 毫秒的异步工作负载不太可能显示出任何好处,因为这大约是解决硬件调度前围栏问题的时间。
  • 避免使用围栏来同步队列中的工作。根据规范,命令列表/缓冲区保证在命令队列中按提交顺序执行。
  • 不应使用信号灯/围栏代替资源屏障。它们要贵得多,而且支持不同的用途。
  • 不要实施占用率低的工作负载,以使其与图形队列上的更多工作保持一致。 GPU 功能可能会发生变化,占用率低的工作可能会变成拖尾,拖尾另一个队列。

阅读原文

相关推荐
算家计算1 天前
芯片战打响!谷歌TPU挑战英伟达:AI算力战争背后的行业变局
人工智能·nvidia·芯片
云雾J视界1 天前
AI芯片设计实战:用Verilog高级综合技术优化神经网络加速器功耗与性能
深度学习·神经网络·verilog·nvidia·ai芯片·卷积加速器
算家计算6 天前
黄仁勋马斯克罕见同台!定调AI未来三大关键词:算力、货币失效与泡沫
人工智能·nvidia·资讯
人工智能训练11 天前
Docker中容器的备份方法和步骤
linux·运维·人工智能·ubuntu·docker·容器·nvidia
恋上钢琴的虫16 天前
nvidia驱动安装(openEuler上安装T4驱动)
nvidia
hszmoran19 天前
电脑关机重启时显示rundll32 内存不能为read解决方法
电脑·nvidia·驱动
赞奇科技Xsuperzone21 天前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
视***间22 天前
方寸之间,算力之巅 视程空间—EDG SC6N0-S T5X 超算计算机以 Jetson AGX Thor 重构个人计算边界
边缘计算·nvidia·算力·ai算力·视程空间
万俟淋曦23 天前
NVIDIA DriveOS 推动新一代智能汽车实现突破
人工智能·ai·汽车·nvidia·智能汽车·driveos·driveworks
安全二次方security²24 天前
CUDA C++编程指南(1)——简介
nvidia·cuda·c/c++·device·cuda编程·architecture·compute unified