这篇文章最初发表在 NVIDIA 技术博客上。
NVIDIA推出最新版本的 CUDA Toolkit, 使用最新的 NVIDIA GPU 持续推动加速计算性能的发展。CUDA Toolkit 12.3 版的新功能包括:
- Windows 上默认延迟加载
- Windows 上的单步CUDA卸载
- 增强的 NVIDIA Nsight Compute 和 NVIDIA Nsight Systems 开发者工具
CUDA 和 CUDA Toolkit继续为多个领域内的加速计算应用提供支持,这些领域包括:数据科学、机器学习和深度学习、用于训练和推理的大语言模型的生成式AI、图形和模拟、科学计算等。CUDA 为解决世界上最复杂的计算问题提供强大的技术支持。
NVIDIA Nsight 开发者工具
CUDA Toolkit 12.3包含最新版本的 NVIDIA Nsight 开发者工具,可帮助您在 NVIDIA Grace Hopper 平台上优化和调试CUDA 应用程序。
Nsight Compute
Nsight Compute 为 CUDA 内核提供了详细的评测和分析,2023.3 版本随 CUDA Toolkit 12.3 一起首次亮相。该版本包括了可以提高性能的功能,以及数据收集和分析的功能。
新的 PM Sampling功能添加了与时间相关的内核性能数据。以前,大多数性能指标都是在整个内核中聚合的。这个常用的功能可以帮助用户发现内核中分阶段出现的性能问题以及诸如尾部效应之类的时间效应(图 1)。它包含在 --full 指标集中。它可以添加为 GUI 中的 PM Sampling部分,或者通过将 --section PmSampling 添加到 CLI。
图 1:Nsight Compute PM Sampling
Nsight Compute 2023.3版本还引入了跨配置文件比较源代码更改的能力,以了解修改如何影响源代码级别的性能。要使用此功能,请将一份报告设置为基线,然后单击另一份报告中的"来源比较"按钮,以查看突出显示的来源差异和相关的性能指标。
编译内核时使用 ---lineinfo 标志以启用源解析以及是否就地修改了源文件。使用导入源选项或 --import-source 标志来保留原始源代码。
要了解有关 Nsight Compute 2023.3 版本的更多功能,请参阅 Nsight Compute 入门。
Nsight Systems
CUDA Toolkit 12.3 版本还包括 Nsight Systems 2023.3,这是一个性能调优工具,可以在统一的时间线上分析硬件指标和 CUDA 应用程序、API 和库。
最新版本的 Nsight 系统 引入了对 NVIDIA Grace CPU 的支持,使您能够在应用程序性能的背景下深入研究Grace CPU 周期。Nsight Systems 2023.3 还添加了新功能,包括通过GUI 进行网络接口卡(NIC)分析。
作为数据在服务器硬件单元之间移动的主要方式,了解网络中节点间的通信将有助于诊断瓶颈。Nsight Systems 能够监控 NIC 吞吐量,以图表形式发送和接收的字节数。如果 NIC 的等待时间延长,这强烈表明节点间的网络需要优化。Nsight Systems还可以分析 NVIDIA Quantum InfiniBand 交换机的吞吐量。
要了解更多关于 Nsight Systems 2023.3 的功能,请参阅 Nsight Systems入门。如需深入了解 Nsight Systems 如何支持数据中心规模的开发,请参阅 使用 NVIDIA Nsight Systems加速数据中心和 HPC 性能分析。
总 结
CUDA Toolkit 12.3 版本丰富了用于加速计算的基础 NVIDIA 驱动程序和运行时软件,同时继续为最新的 NVIDIA GPU、加速库、编译器和开发工具提供增强的支持。
要了解更多信息,请参阅 CUDA 文档,查看NVIDIA DLI最新的课程或者浏览NGC 目录。另外,您还可以在 CUDA 开发者论坛中提出问题并加入讨论。