高级 API 性能:同步

这篇文章最初发表在 NVIDIA 技术博客上。

图形编程中的同步是指协调和控制并发操作,以确保渲染任务的正确和可预测执行。 CPU 和 GPU 之间的不正确同步可能导致性能下降、比赛条件和视觉伪影。

推荐

  • 如果异步运行工作负载,请确保它们强调不同的 GPU 单元。例如,将带宽繁重的任务与数学繁重的任务配对。也就是说,使用 z-prepass 和 BVH 构建或后处理。
  • 始终验证异步实现在不同的体系结构中是否更快。
  • 异步工作可以属于不同的框架。使用此技术可以帮助找到更好的配对工作负载。
  • 等待并发出信号量/围栏的绝对最小值。每一个过量的信号量/围栏都可能在管道中引入一个气泡。
  • 使用 GPU 评测工具( NVIDIA Nsight Graphics 在 GPU trace 模式、 PIX 或 GPU View 中)查看工作重叠和围栏在不拖延一个或另一个队列的情况下配合得如何。
  • 为了避免额外的同步和资源障碍,可以在计算队列中进行异步复制/传输工作。

不推荐

  • 避免创建不会使用的队列。
    • 每个额外的队列都会增加处理的开销。
    • 由于操作系统调度程序的限制,除非启用了硬件加速的 GPU 调度,否则多个异步计算队列不会重叠。更多详细信息,请参阅硬件加速的 GPU 调度
  • 尽可能避免微小的异步任务并将其分组。耗时< 0 . 2 毫秒的异步工作负载不太可能显示出任何好处,因为这大约是解决硬件调度前围栏问题的时间。
  • 避免使用围栏来同步队列中的工作。根据规范,命令列表/缓冲区保证在命令队列中按提交顺序执行。
  • 不应使用信号灯/围栏代替资源屏障。它们要贵得多,而且支持不同的用途。
  • 不要实施占用率低的工作负载,以使其与图形队列上的更多工作保持一致。 GPU 功能可能会发生变化,占用率低的工作可能会变成拖尾,拖尾另一个队列。

阅读原文

相关推荐
视***间1 天前
方寸之间,算力之巅 视程空间—EDG SC6N0-S T5X 超算计算机以 Jetson AGX Thor 重构个人计算边界
边缘计算·nvidia·算力·ai算力·视程空间
万俟淋曦2 天前
NVIDIA DriveOS 推动新一代智能汽车实现突破
人工智能·ai·汽车·nvidia·智能汽车·driveos·driveworks
安全二次方security²3 天前
CUDA C++编程指南(1)——简介
nvidia·cuda·c/c++·device·cuda编程·architecture·compute unified
算家计算8 天前
英伟达亮出最强AI芯片!性能暴增3倍,算力竞赛迎来新节点
人工智能·nvidia·芯片
扫地的小何尚11 天前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
扫地的小何尚12 天前
一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体
开发语言·人工智能·chrome·bash·gpu·nvidia
安全二次方security²13 天前
CUDA-GDB(11)——调试示例演练
gdb·nvidia·cuda·调试·cuda-gdb·autostep·mpi cuda
BothSavage20 天前
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc
mortimer25 天前
在 Windows 上部署 NVIDIA Parakeet-TDT 遇到的坑
python·github·nvidia
扫地的小何尚25 天前
Isaac Lab 2.3深度解析:全身控制与增强遥操作如何重塑机器人学习
arm开发·人工智能·学习·自然语言处理·机器人·gpu·nvidia