适用于数据中心和 AI 时代的网络

这篇文章最初发表在 NVIDIA 技术博客上。

十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。本文探讨了网络在塑造数据中心的未来和推动 AI 时代方面发挥的关键作用。

专用数据中心:AI 工厂和 AI 云

目前正在涌现两类不同的数据中心:AI 工厂和 AI 云。这两类数据中心都是为满足 AI 工作负载的独特需求而定制的,其特点是依赖于加速计算。

AI 工厂旨在处理大规模的工作流程,并开发大语言模型 (LLM) 和其他基础 AI 模型。这些模型是构建更先进 AI 系统的基础模组。为了实现跨数千个 GPU 的无缝扩展和资源高效利用,强大的高性能网络势在必行。

AI 云扩展了传统云基础设施的功能,以支持大规模生成式人工智能应用程序。生成式 AI 超越了传统的 AI 系统,它基于其训练的数据创建新的内容,例如图像、文本和音频。管理拥有数千名用户的 AI 云需要高级管理工具和网络基础设施,以便高效处理各种工作负载。

AI 和分布式计算

AI 工作负载具有计算密集型,尤其是涉及 ChatGPT 和 BERT 等大型复杂模型的工作负载。为了加速模型训练和处理大量数据集,AI 从业者已转向分布式计算。这种方法涉及将工作负载分配到多个互联服务器或通过高速、低延迟网络连接的节点上。

分布式计算是 AI 取得成功的关键,而网络的可扩展性和处理越来越多节点的能力至关重要。高度可扩展的网络使 AI 研究人员能够利用更多的计算资源,从而更快、更出色地实现性能。

在为 AI 数据中心构建网络架构时,必须优先创建以分布式计算为核心的集成解决方案。数据中心架构师必须认真考虑网络设计,并根据他们计划部署的 AI 工作负载的独特需求定制解决方案。

NVIDIA Quantum-2 InfiniBandNVIDIA Spectrum-X 是两个专为应对 AI 数据中心的网络挑战而设计和优化的网络平台,每个平台都有自己独特的功能和创新。

InfiniBand 提升 AI 性能

InfiniBand 技术一直是复杂分布式科学计算大规模超级计算部署的驱动力。它已成为 AI 工厂的事实网络。凭借超低延迟,InfiniBand 已成为加速当今主流高性能计算 (HPC) 和 AI 应用的关键。高效 AI 系统所需的许多关键网络功能均原生于 NVIDIA Quantum-2 InfiniBand 平台。

由 InfiniBand 驱动的网络计算将基于硬件的计算引擎集成到网络中。这可以大规模卸载复杂的操作,并利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) (一种网络内聚合机制)。SHARP 支持多个并发集合操作,可将数据带宽翻倍,以减少数据并增强性能。

InfiniBand 自适应路由能够以最佳方式分散流量,从而缓解拥塞并提高资源利用率。在子网管理器的指导下,InfiniBand 会根据网络条件选择无拥塞的路由,从而在不影响数据包到达顺序的情况下更大限度地提高效率。

InfiniBand 拥塞控制架构可确保确定性带宽和延迟。它使用三个阶段来管理拥塞,从而防止 AI 工作负载中的性能瓶颈。

这些固有的优化使 InfiniBand 能够满足 AI 应用的需求,最终实现卓越的性能和效率。

在以太网中探索 AI 部署

为 AI 基础架构部署以太网需要满足以太网协议的特定需求。随着时间的推移,以太网已融入广泛、全面且(有时)复杂的功能集,以满足各种网络场景的需求。

因此,开箱即用或传统以太网并非专为高性能而设计。使用传统以太网进行计算结构的 AI 云只能实现经过优化的网络所能实现的一小部分性能。

在多个 AI 作业同时运行的多租户环境中,性能隔离对于防止性能进一步降低至关重要。如果出现链路故障,传统以太网结构可能会导致集群的 AI 性能减半。这是因为传统以太网主要针对日常企业工作流程进行了优化,而不是为了满足高性能 AI 应用程序的需求而设计,这些应用程序依赖于 NVIDIA Collective Communications Library (NCCL)

这些性能问题是由传统以太网的固有因素造成的,包括:

  • 更高的交换机延迟,在商品 ASIC 中很常见
  • 分割缓冲交换机架构,这可能会导致带宽不公平
  • 负载均衡针对 AI 工作负载生成的大型流进行了二次优化
  • 性能隔离和相邻噪声问题

Spectrum-X 网络平台解决了这些问题以及更多其他问题。Spectrum -- X 基于标准以太网协议构建,具有 RDMA over Converged Ethernet (RoCE) 扩展程序,可提高 AI 的性能。这些扩展程序利用 InfiniBand 原生的最佳实践,并为以太网带来了自适应路由和拥塞控制等创新。

Spectrum-X 是唯一一款能够为多租户生成式 AI 云提供高效带宽和性能隔离的以太网平台,这得益于 Spectrum-4 和 NVIDIA BlueField-3 DPUs

总结

AI 时代已然来临,而网络是其成功的基石。为了充分发挥 AI 的潜力,数据中心架构师必须仔细考虑网络设计,并根据 AI 工作负载的独特需求定制这些设计。解决#网络问题是释放 AI 技术潜力和推动数据中心行业创新的关键。

NVIDIA Quantum InfiniBand 凭借超低延迟、可扩展性能和先进的功能集,成为 AI 工厂的理想选择。而 NVIDIA Spectrum-X 则凭借专为 AI 打造的技术创新,为构建基于以太网的 AI 云的组织提供了突破性解决方案。

如需详细了解 AI 性能需求和网络要求,请参阅 Networking for the Era of AI 白皮书。欢迎加入 NVIDIA 开发者基础设施和网络论坛 进行讨论。

阅读原文

相关推荐
mortimer5 小时前
5090 装机后无法使用 GPU 加速?别急,这里有解决办法!
github·gpu·nvidia
kcarly16 小时前
TensorRT 有什么特殊之处
ai·ai绘画·nvidia·tensorrt
天朝八阿哥8 天前
Debian安装Nvidia驱动
debian·nvidia
扫地的小何尚13 天前
NVIDIA TensorRT 深度学习推理加速引擎详解
c++·人工智能·深度学习·gpu·nvidia·cuda
放羊郎17 天前
英伟达消费级RTX显卡配置表
网络·nvidia·英伟达·游戏显卡·rtx
nuczzz1 个月前
NVIDIA k8s-device-plugin源码分析与安装部署
kubernetes·k8s·gpu·nvidia·cuda
Damon小智1 个月前
探索高性能AI识别和边缘计算 | NVIDIA Jetson Orin Nano 8GB 开发套件的全面测评
深度学习·ai·边缘计算·树莓派·nvidia·开发板·orin nano
东锋1.31 个月前
NVIDIA(英伟达) GPU 芯片架构发展史
gpu·nvidia
berryyan1 个月前
5090显卡安装与使用DiffSynth-Studio的经验分享(Windows 11环境)50系列通用
nvidia
CIAS1 个月前
Ubuntu 22.04 安装Nvidia驱动加速deepseek
ubuntu·nvidia