适用于数据中心和 AI 时代的网络

这篇文章最初发表在 NVIDIA 技术博客上。

十多年来，传统的云数据中心一直是计算基础设施的基石，满足了各种用户和应用程序的需求。然而，近年来，为了跟上技术的进步和对 AI 驱动的计算需求的激增，数据中心进行了发展。本文探讨了网络在塑造数据中心的未来和推动 AI 时代方面发挥的关键作用。

专用数据中心：AI 工厂和 AI 云

目前正在涌现两类不同的数据中心：AI 工厂和 AI 云。这两类数据中心都是为满足 AI 工作负载的独特需求而定制的，其特点是依赖于加速计算。

AI 工厂旨在处理大规模的工作流程，并开发大语言模型 (LLM) 和其他基础 AI 模型。这些模型是构建更先进 AI 系统的基础模组。为了实现跨数千个 GPU 的无缝扩展和资源高效利用，强大的高性能网络势在必行。

AI 云扩展了传统云基础设施的功能，以支持大规模生成式人工智能应用程序。生成式 AI 超越了传统的 AI 系统，它基于其训练的数据创建新的内容，例如图像、文本和音频。管理拥有数千名用户的 AI 云需要高级管理工具和网络基础设施，以便高效处理各种工作负载。

AI 和分布式计算

AI 工作负载具有计算密集型，尤其是涉及 ChatGPT 和 BERT 等大型复杂模型的工作负载。为了加速模型训练和处理大量数据集，AI 从业者已转向分布式计算。这种方法涉及将工作负载分配到多个互联服务器或通过高速、低延迟网络连接的节点上。

分布式计算是 AI 取得成功的关键，而网络的可扩展性和处理越来越多节点的能力至关重要。高度可扩展的网络使 AI 研究人员能够利用更多的计算资源，从而更快、更出色地实现性能。

在为 AI 数据中心构建网络架构时，必须优先创建以分布式计算为核心的集成解决方案。数据中心架构师必须认真考虑网络设计，并根据他们计划部署的 AI 工作负载的独特需求定制解决方案。

NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是两个专为应对 AI 数据中心的网络挑战而设计和优化的网络平台，每个平台都有自己独特的功能和创新。

InfiniBand 提升 AI 性能

InfiniBand 技术一直是复杂分布式科学计算大规模超级计算部署的驱动力。它已成为 AI 工厂的事实网络。凭借超低延迟，InfiniBand 已成为加速当今主流高性能计算 (HPC) 和 AI 应用的关键。高效 AI 系统所需的许多关键网络功能均原生于 NVIDIA Quantum-2 InfiniBand 平台。

由 InfiniBand 驱动的网络计算将基于硬件的计算引擎集成到网络中。这可以大规模卸载复杂的操作，并利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) (一种网络内聚合机制)。SHARP 支持多个并发集合操作，可将数据带宽翻倍，以减少数据并增强性能。

InfiniBand 自适应路由能够以最佳方式分散流量，从而缓解拥塞并提高资源利用率。在子网管理器的指导下，InfiniBand 会根据网络条件选择无拥塞的路由，从而在不影响数据包到达顺序的情况下更大限度地提高效率。

InfiniBand 拥塞控制架构可确保确定性带宽和延迟。它使用三个阶段来管理拥塞，从而防止 AI 工作负载中的性能瓶颈。

这些固有的优化使 InfiniBand 能够满足 AI 应用的需求，最终实现卓越的性能和效率。

在以太网中探索 AI 部署

为 AI 基础架构部署以太网需要满足以太网协议的特定需求。随着时间的推移，以太网已融入广泛、全面且(有时)复杂的功能集，以满足各种网络场景的需求。

因此，开箱即用或传统以太网并非专为高性能而设计。使用传统以太网进行计算结构的 AI 云只能实现经过优化的网络所能实现的一小部分性能。

在多个 AI 作业同时运行的多租户环境中，性能隔离对于防止性能进一步降低至关重要。如果出现链路故障，传统以太网结构可能会导致集群的 AI 性能减半。这是因为传统以太网主要针对日常企业工作流程进行了优化，而不是为了满足高性能 AI 应用程序的需求而设计，这些应用程序依赖于 NVIDIA Collective Communications Library (NCCL)。

这些性能问题是由传统以太网的固有因素造成的，包括：

更高的交换机延迟，在商品 ASIC 中很常见
分割缓冲交换机架构，这可能会导致带宽不公平
负载均衡针对 AI 工作负载生成的大型流进行了二次优化
性能隔离和相邻噪声问题

Spectrum-X 网络平台解决了这些问题以及更多其他问题。Spectrum -- X 基于标准以太网协议构建，具有 RDMA over Converged Ethernet (RoCE) 扩展程序，可提高 AI 的性能。这些扩展程序利用 InfiniBand 原生的最佳实践，并为以太网带来了自适应路由和拥塞控制等创新。

Spectrum-X 是唯一一款能够为多租户生成式 AI 云提供高效带宽和性能隔离的以太网平台，这得益于 Spectrum-4 和 NVIDIA BlueField-3 DPUs。

总结

AI 时代已然来临，而网络是其成功的基石。为了充分发挥 AI 的潜力，数据中心架构师必须仔细考虑网络设计，并根据 AI 工作负载的独特需求定制这些设计。解决#网络问题是释放 AI 技术潜力和推动数据中心行业创新的关键。

NVIDIA Quantum InfiniBand 凭借超低延迟、可扩展性能和先进的功能集，成为 AI 工厂的理想选择。而 NVIDIA Spectrum-X 则凭借专为 AI 打造的技术创新，为构建基于以太网的 AI 云的组织提供了突破性解决方案。

如需详细了解 AI 性能需求和网络要求，请参阅 Networking for the Era of AI 白皮书。欢迎加入 NVIDIA 开发者基础设施和网络论坛进行讨论。

阅读原文