CUDA Toolkit 12.3 提供加速计算的新功能

这篇文章最初发表在 NVIDIA 技术博客上。

NVIDIA推出最新版本的 CUDA Toolkit, 使用最新的 NVIDIA GPU 持续推动加速计算性能的发展。CUDA Toolkit 12.3 版的新功能包括:

CUDA 和 CUDA Toolkit继续为多个领域内的加速计算应用提供支持,这些领域包括:数据科学、机器学习和深度学习、用于训练和推理的大语言模型的生成式AI、图形和模拟、科学计算等。CUDA 为解决世界上最复杂的计算问题提供强大的技术支持。

NVIDIA Nsight 开发者工具

CUDA Toolkit 12.3包含最新版本的 NVIDIA Nsight 开发者工具,可帮助您在 NVIDIA Grace Hopper 平台上优化和调试CUDA 应用程序。

Nsight Compute

Nsight Compute 为 CUDA 内核提供了详细的评测和分析,2023.3 版本随 CUDA Toolkit 12.3 一起首次亮相。该版本包括了可以提高性能的功能,以及数据收集和分析的功能。

新的 PM Sampling功能添加了与时间相关的内核性能数据。以前,大多数性能指标都是在整个内核中聚合的。这个常用的功能可以帮助用户发现内核中分阶段出现的性能问题以及诸如尾部效应之类的时间效应(图 1)。它包含在 --full 指标集中。它可以添加为 GUI 中的 PM Sampling部分,或者通过将 --section PmSampling 添加到 CLI。

图 1:Nsight Compute PM Sampling

Nsight Compute 2023.3版本还引入了跨配置文件比较源代码更改的能力,以了解修改如何影响源代码级别的性能。要使用此功能,请将一份报告设置为基线,然后单击另一份报告中的"来源比较"按钮,以查看突出显示的来源差异和相关的性能指标。

编译内核时使用 ---lineinfo 标志以启用源解析以及是否就地修改了源文件。使用导入源选项或 --import-source 标志来保留原始源代码。

要了解有关 Nsight Compute 2023.3 版本的更多功能,请参阅 Nsight Compute 入门

Nsight Systems

CUDA Toolkit 12.3 版本还包括 Nsight Systems 2023.3,这是一个性能调优工具,可以在统一的时间线上分析硬件指标和 CUDA 应用程序、API 和库。

最新版本的 Nsight 系统 引入了对 NVIDIA Grace CPU 的支持,使您能够在应用程序性能的背景下深入研究Grace CPU 周期。Nsight Systems 2023.3 还添加了新功能,包括通过GUI 进行网络接口卡(NIC)分析。

作为数据在服务器硬件单元之间移动的主要方式,了解网络中节点间的通信将有助于诊断瓶颈。Nsight Systems 能够监控 NIC 吞吐量,以图表形式发送和接收的字节数。如果 NIC 的等待时间延长,这强烈表明节点间的网络需要优化。Nsight Systems还可以分析 NVIDIA Quantum InfiniBand 交换机的吞吐量。

要了解更多关于 Nsight Systems 2023.3 的功能,请参阅 Nsight Systems入门。如需深入了解 Nsight Systems 如何支持数据中心规模的开发,请参阅 使用 NVIDIA Nsight Systems加速数据中心和 HPC 性能分析

总 结

CUDA Toolkit 12.3 版本丰富了用于加速计算的基础 NVIDIA 驱动程序和运行时软件,同时继续为最新的 NVIDIA GPU、加速库、编译器和开发工具提供增强的支持。

要了解更多信息,请参阅 CUDA 文档,查看NVIDIA DLI最新的课程或者浏览NGC 目录。另外,您还可以在 CUDA 开发者论坛中提出问题并加入讨论。

阅读原文

相关推荐
403240732 天前
【2026最新】Jetson全系列安装支持CUDA加速的OpenCV 4.10保姆级教程(适配Jetpack 6/5及Orin/Xavier/Nano等)
linux·opencv·计算机视觉·nvidia·cuda·jetson
REDcker9 天前
Nvidia英伟达显卡型号发布史与架构演进详解
架构·gpu·显卡·nvidia·cuda·英伟达·演进
scott19851211 天前
NVIDIA GPU内部结构:高性能矩阵乘法内核剖析
线性代数·矩阵·gpu·nvidia·cuda
clorisqqq12 天前
黄仁勋 CES 2026 演讲笔记(part2 精华)
nvidia·黄仁勋·ces2026
扫地的小何尚13 天前
NVIDIA RTX PC开源AI工具升级:加速LLM和扩散模型的性能革命
人工智能·python·算法·开源·nvidia·1024程序员节
@hdd14 天前
dcgmi diag报错Diagnostic can only be performed on a homogeneous group of GPUs.
nvidia·dcgm
墨风如雪16 天前
英伟达Rubin炸场:算力暴涨5倍,黄仁勋要让AI推理“白菜价”
aigc·nvidia
chinamaoge18 天前
NVIDIA大模型推理框架:TensorRT-LLM软件流程(三)trtllm-serve启动流程–HTTP Request
nvidia·大模型推理·tensorrt-llm
闻道且行之21 天前
Ubuntu 20.04 下 NVIDIA Tesla P40 驱动安装指南(核显桌面 + 计算卡分离方案)
linux·运维·ubuntu·nvidia·p40
AI视觉网奇23 天前
NVIDIA 生成key
笔记·nvidia