使用 NVIDIA DOCA 2.2 加速数据中心工作负载和 AI 应用程序

这篇文章最初发表在 NVIDIA 技术博客上。

NVIDIA DOCA SDK 和加速框架为开发人员提供了丰富的库、驱动程序和 API,以便为 NVIDIA BlueField DPUConnectX SmartNIC 创建高性能应用程序和服务。它推动了数据中心的创新,实现了应用程序的快速部署。

凭借全面的功能, NVIDIA DOCA 为 BlueField 开发人员提供了一站式服务,他们希望大规模加速数据中心工作负载和人工智能应用程序。

NVIDIA DOCA 已经有超过 10000 名开发者受益,现在已经普遍可用,允许访问更广泛的开发者社区,以利用 BlueField DPU 平台提供创新的人工智能和云服务。

新的 NVIDIA DOCA 2.2 功能和增强

NVIDIA DOCA 2.2 引入了新功能和增强功能,用于卸载、加速和隔离数据中心内的网络、存储、安全和管理基础设施。

视频 1。观看 NVIDIA DOCA 软件框架介绍

可编程性

NVIDIA BlueField-3 DPU 与其板载专用数据路径加速器(DPA)和 DOCA SDK 框架相结合,提供了一个无与伦比的平台。现在,开发人员可以创建要求高吞吐量和低延迟的高性能和可扩展的网络应用程序。

数据路径加速器

NVIDIA DOCA 2.2 提供了一些增强功能,以利用 BlueField-3 DPA 编程子系统。 DOCA DPA 是 DOCA SDK 包的一个新计算子系统部分,它提供了一个编程模型,用于卸载在 DPA 处理器上运行的以通信为中心的用户代码。 DOCA DPA 有助于卸载 CPU 流量,并通过 DPU 加速提高性能。

图 1。 NVIDIA BlueField-3 DPU 进出流量

DOCA DPA 还提供了显著的开发优势,包括在创建自定义模拟和拥塞控制时具有更大的灵活性。定制的拥塞控制对于人工智能工作流至关重要,可以实现性能隔离、提高公平性,并防止有损网络上的数据包丢失。

DOCA 2.2 版本引入了以下 SDK:

DOCA-FlexIO:这是一个用于 DPA 编程的低级 SDK。具体来说,DOCA FlexIO 驱动程序提供了 API,用于通过 DPA 管理和运行代码。

DOCA-PCC:这是一个用于拥塞控制开发的 SDK,它使 CSP 和企业客户能够创建自己的拥塞控制算法,从而通过提高带宽和降低延迟来增强网络操作的稳定性和效率。

NVIDIA 还提供必要的工具链、示例和辅助资料,以加快和支持开发工作。请注意, NVIDIA DOCA DPA 在 DPU 模式和 NIC 模式下都可用。

图 2: DOCA-PCC 提供更高的带宽和更低的延迟

网络

NVIDIA DOCA 和 BlueField-3 DPU 通过一个全面、开放的开发平台,共同开发出具有突破性网络性能的应用程序。 NVIDIA DOCA 包括一系列驱动程序、库、工具和示例应用程序,不断发展。此版本提供了以下附加功能,以支持网络应用程序的开发。

NVIDIA DOCA 流量

通过 NVIDIA DOCA Flow,用户可以定义和控制网络流量,实现网络策略,并以编程方式管理网络资源。它提供网络虚拟化、遥测、负载平衡、安全强制和流量监控等功能。这些功能有利于以低延迟处理高数据包工作负载,节省 CPU 资源并降低功耗。

此版本包括以下新功能,可为云部署带来即时好处:

支持隧道卸载- GENEVE 和 GRE: 提供增强的安全性、可见性、可扩展性、灵活性和可扩展性是站点通信、网络隔离和多租户的构建块。具体而言,GRE 隧道用于连接单独的网络并建立安全的 VPN 通信支持覆盖网络,提供协议灵活性,并实现流量工程。

**支持带有 bps/pps 选项的每个流量计:**在云环境中,监控/分析流量(即测量带宽或数据包速率)、管理 QoS(即强制限制)或增强安全性(即阻止拒绝服务攻击)都至关重要。

**增强的镜像功能(FDB / 交换机域):**这项新增功能不仅用于监控、故障排除、安全分析和性能优化,还能为镜像工作负载提供更高的 CPU 利用率。

OVS- DOCA (Beta)

OVS-DOCA 是 NVIDIA 网络服务的高度优化虚拟交换机。其高效的设计通过 NVIDIA NIC 或 DPU 提升了下一代性能和规模。现在,OVS-DOCA 可以在 DOCA 中用于 DPU ,也可以在 DOCA 中用于主机(二进制文件和源代码)。

图 3。OVS- DOCA 针对 NVIDIA 网络服务进行了优化

基于 Open vSwitch,OVS-DOCA 提供了相同的北行 API、OpenFlow、CLI 和数据接口,为 OVS 提供了一种替代方案。使用 OVS-DOCA 可以更快地实现未来 NVIDIA 创新的网络功能。

BlueField-3(增强型)NIC 模式(Beta 版)

此版本受益于增强的 BlueField-3 NIC 模式,目前处于测试版。与 BlueField-3 DPU 模式不同,其中卸载、加速和隔离都可用, BlueField-3 NIC 模式仅提供加速功能。

图 4。 BlueField-3(增强型)NIC 模式

在继续利用 BlueField 低功耗和低计算密集型 SKU 的同时,增强的 BlueField-3 NIC 模式比当前的 ConnectX BlueField-2 NIC 模式具有许多优势,包括:

  • 使用本地 DPU 内存实现更高的性能和更低的延迟
  • 具有可编程拥塞控制(PCC)的 Performant RDMA
  • 具有 DPA 和其他 BlueField 加速器的可编程性
  • 具有设备认证和卡上 BMC 的强大平台安全性

请注意, BlueField-3 NIC 模式将作为软件模式而非单独的 SKU 进行产品化,以实现未来 DPU-模式的使用。因此, BlueField-3 NIC 模式是所有 BlueField-3 SKU 上都可以使用的完全支持的软件功能。在 NIC 模式下运行的任何 BlueField-3 DPU 的 DPA 可编程性要求在主机上安装 DOCA 和基于主动主机的服务。

服务

NVIDIA DOCA 是一种基于 ZFK 的容器化服务,为特定用例提供端到端解决方案。这些服务可以通过 NVIDIA 的 NGC 获得,从而可以轻松地将它们直接部署到 DPU。DOCA 2.2 提供了更大的控制能力,现在可以离线安装 DOCA 服务。

NGC 离线服务安装

NGC 安装 DOCA 服务需要互联网连接。然而,许多客户在没有互联网接入的安全生产环境中运营。因此,我们提供了"非连接"部署选项,可以在完全安全的生产环境中安装服务,简化流程,避免了每个服务器都需要连接才能完成安装过程的情况。

例如,考虑在生产环境中安装 DOCA 遥测服务(DTS)以支持度量收集。整个安装过程只需两个步骤即可完成:

  • 步骤 1:在连接的服务器上下载 NGC
  • 步骤 2:使用内部安全传递进行离线安装

总结

NVIDIA DOCA 2.2 在推动数据中心创新以及为人工智能应用改造云和企业数据中心网络方面发挥着关键和不可或缺的作用。通过为 BlueField DPU 提供全面的 SDK 和加速框架, DOCA 为开发人员提供了强大的库、驱动程序和 API,从而能够创建高性能的应用程序和服务。

DOCA 2.2 有了一些新功能和增强,可以立即获得许多好处。除了通过 DPU 加速实现的性能提升外, DOCA-FlexIO 和 DOCA-PCC SDK 的加入为开发人员提供了以人工智能为中心的加速计算优势。这些 SDK 能够创建自定义仿真和算法,缩短上市时间,并显著改善整体开发体验。

此外, NVIDIA DOCA FLOW 和 OVS- DOCA 的网络特定更新为软件定义的网络和安全解决方案提供了简化的交付途径。这些功能提高了效率,增强了可见性、可扩展性和灵活性,对于构建复杂而安全的基础架构至关重要。

DOCA 为数据中心创新、人工智能应用加速和强大的网络基础设施做出了广泛贡献,是 NVIDIA 人工智能云服务的重要组成部分。随着行业朝着更复杂、更苛刻的计算需求发展, DOCA 的不断发展以及与尖端技术的集成将进一步巩固其作为开创性平台的地位,为数据中心和人工智能驱动的解决方案的未来赋能。

下载 NVIDIA DOCA 以开始享受 DOCA 所提供的所有好处并开始您的开发之旅。有关详细信息,请参阅以下资源:

阅读原文

相关推荐
扫地的小何尚5 天前
什么是大型语言模型
人工智能·语言模型·自然语言处理·机器人·gpu·nvidia
点云兔子6 天前
NX系列-使用 `nmcli` 命令创建 Wi-Fi 热点并设置固定 IP 地址
wifi·ip·nvidia·nx·hotspot·nano
self-motivation9 天前
gpu硬件架构
硬件架构·gpu·nvidia·tensor·cuda
程序员非鱼15 天前
深入解析神经网络的GPU显存占用与优化
人工智能·深度学习·神经网络·机器学习·nvidia·cuda
扫地的小何尚1 个月前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门1 个月前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
centurysee1 个月前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia
算家云2 个月前
moffee模型部署教程
人工智能·python·github·markdown·nvidia·ppt·幻灯片制作
坐望云起2 个月前
Ubuntu20.04 更新Nvidia驱动 + 安装CUDA12.1 + cudnn8.9.7
linux·ubuntu·nvidia·cuda·onnx·1024程序员节
RZer2 个月前
NVIDIA 发布适用于网络安全的 NIM Blueprint
安全·web安全·nvidia