适用于数据中心和 AI 时代的网络

这篇文章最初发表在 NVIDIA 技术博客上。

十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。本文探讨了网络在塑造数据中心的未来和推动 AI 时代方面发挥的关键作用。

专用数据中心:AI 工厂和 AI 云

目前正在涌现两类不同的数据中心:AI 工厂和 AI 云。这两类数据中心都是为满足 AI 工作负载的独特需求而定制的,其特点是依赖于加速计算。

AI 工厂旨在处理大规模的工作流程,并开发大语言模型 (LLM) 和其他基础 AI 模型。这些模型是构建更先进 AI 系统的基础模组。为了实现跨数千个 GPU 的无缝扩展和资源高效利用,强大的高性能网络势在必行。

AI 云扩展了传统云基础设施的功能,以支持大规模生成式人工智能应用程序。生成式 AI 超越了传统的 AI 系统,它基于其训练的数据创建新的内容,例如图像、文本和音频。管理拥有数千名用户的 AI 云需要高级管理工具和网络基础设施,以便高效处理各种工作负载。

AI 和分布式计算

AI 工作负载具有计算密集型,尤其是涉及 ChatGPT 和 BERT 等大型复杂模型的工作负载。为了加速模型训练和处理大量数据集,AI 从业者已转向分布式计算。这种方法涉及将工作负载分配到多个互联服务器或通过高速、低延迟网络连接的节点上。

分布式计算是 AI 取得成功的关键,而网络的可扩展性和处理越来越多节点的能力至关重要。高度可扩展的网络使 AI 研究人员能够利用更多的计算资源,从而更快、更出色地实现性能。

在为 AI 数据中心构建网络架构时,必须优先创建以分布式计算为核心的集成解决方案。数据中心架构师必须认真考虑网络设计,并根据他们计划部署的 AI 工作负载的独特需求定制解决方案。

NVIDIA Quantum-2 InfiniBandNVIDIA Spectrum-X 是两个专为应对 AI 数据中心的网络挑战而设计和优化的网络平台,每个平台都有自己独特的功能和创新。

InfiniBand 提升 AI 性能

InfiniBand 技术一直是复杂分布式科学计算大规模超级计算部署的驱动力。它已成为 AI 工厂的事实网络。凭借超低延迟,InfiniBand 已成为加速当今主流高性能计算 (HPC) 和 AI 应用的关键。高效 AI 系统所需的许多关键网络功能均原生于 NVIDIA Quantum-2 InfiniBand 平台。

由 InfiniBand 驱动的网络计算将基于硬件的计算引擎集成到网络中。这可以大规模卸载复杂的操作,并利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) (一种网络内聚合机制)。SHARP 支持多个并发集合操作,可将数据带宽翻倍,以减少数据并增强性能。

InfiniBand 自适应路由能够以最佳方式分散流量,从而缓解拥塞并提高资源利用率。在子网管理器的指导下,InfiniBand 会根据网络条件选择无拥塞的路由,从而在不影响数据包到达顺序的情况下更大限度地提高效率。

InfiniBand 拥塞控制架构可确保确定性带宽和延迟。它使用三个阶段来管理拥塞,从而防止 AI 工作负载中的性能瓶颈。

这些固有的优化使 InfiniBand 能够满足 AI 应用的需求,最终实现卓越的性能和效率。

在以太网中探索 AI 部署

为 AI 基础架构部署以太网需要满足以太网协议的特定需求。随着时间的推移,以太网已融入广泛、全面且(有时)复杂的功能集,以满足各种网络场景的需求。

因此,开箱即用或传统以太网并非专为高性能而设计。使用传统以太网进行计算结构的 AI 云只能实现经过优化的网络所能实现的一小部分性能。

在多个 AI 作业同时运行的多租户环境中,性能隔离对于防止性能进一步降低至关重要。如果出现链路故障,传统以太网结构可能会导致集群的 AI 性能减半。这是因为传统以太网主要针对日常企业工作流程进行了优化,而不是为了满足高性能 AI 应用程序的需求而设计,这些应用程序依赖于 NVIDIA Collective Communications Library (NCCL)

这些性能问题是由传统以太网的固有因素造成的,包括:

  • 更高的交换机延迟,在商品 ASIC 中很常见
  • 分割缓冲交换机架构,这可能会导致带宽不公平
  • 负载均衡针对 AI 工作负载生成的大型流进行了二次优化
  • 性能隔离和相邻噪声问题

Spectrum-X 网络平台解决了这些问题以及更多其他问题。Spectrum -- X 基于标准以太网协议构建,具有 RDMA over Converged Ethernet (RoCE) 扩展程序,可提高 AI 的性能。这些扩展程序利用 InfiniBand 原生的最佳实践,并为以太网带来了自适应路由和拥塞控制等创新。

Spectrum-X 是唯一一款能够为多租户生成式 AI 云提供高效带宽和性能隔离的以太网平台,这得益于 Spectrum-4 和 NVIDIA BlueField-3 DPUs

总结

AI 时代已然来临,而网络是其成功的基石。为了充分发挥 AI 的潜力,数据中心架构师必须仔细考虑网络设计,并根据 AI 工作负载的独特需求定制这些设计。解决#网络问题是释放 AI 技术潜力和推动数据中心行业创新的关键。

NVIDIA Quantum InfiniBand 凭借超低延迟、可扩展性能和先进的功能集,成为 AI 工厂的理想选择。而 NVIDIA Spectrum-X 则凭借专为 AI 打造的技术创新,为构建基于以太网的 AI 云的组织提供了突破性解决方案。

如需详细了解 AI 性能需求和网络要求,请参阅 Networking for the Era of AI 白皮书。欢迎加入 NVIDIA 开发者基础设施和网络论坛 进行讨论。

阅读原文

相关推荐
扫地的小何尚2 天前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门2 天前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
centurysee4 天前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia
算家云10 天前
moffee模型部署教程
人工智能·python·github·markdown·nvidia·ppt·幻灯片制作
坐望云起22 天前
Ubuntu20.04 更新Nvidia驱动 + 安装CUDA12.1 + cudnn8.9.7
linux·ubuntu·nvidia·cuda·onnx·1024程序员节
RZer1 个月前
NVIDIA 发布适用于网络安全的 NIM Blueprint
安全·web安全·nvidia
LifeBackwards1 个月前
Ubuntu安装nvidia显卡驱动
ubuntu·显卡·nvidia
great-wind1 个月前
麒麟系统离线安装英伟达驱动
nvidia
utmhikari1 个月前
【DIY小记】新手小白超频i9-12900kf和3070ti经验分享
cpu·显卡·nvidia·超频·微星
学森杰登1 个月前
大模型生成PPT大纲优化方案:基于 nVidia NIM 平台的递归结构化生成
人工智能·python·自然语言处理·chatgpt·powerpoint·nvidia