为网络管理员导航生成式人工智能

这篇文章最初发表在 NVIDIA 技术博客上。

我们都知道人工智能正在改变世界。对于网络管理员来说，人工智能可以以一些惊人的方式改善日常运营：

**重复任务的自动化：**这包括监控、故障排除和升级，节省时间，同时降低人为错误的风险。
**网络安全：**人工智能可以帮助实时检测和应对安全威胁。例如， NVIDIA Morpheus 使网络安全开发人员能够创建实时数据的优化 AI 管道。
**拓扑优化：**有了正确的遥测技术，人工智能可以分析流量模式并建议更改以优化网络性能。
**主动网络规划：**人工智能可以使用同样先进的网络遥测技术来评估趋势，以预测潜在问题，并在问题发生之前提出改变建议以避免问题的发生。

然而，人工智能无法取代经验丰富的网络管理员的专业知识。人工智能旨在增强你的能力，就像一个虚拟助理。因此，人工智能可能会成为你最好的朋友，但生成型人工智能也是一种新的数据中心工作负载，它带来了新的范式转变： NVIDIA 集体通信库（ NCCL ）。

数据中心的演变

网络管理员不得不处理许多其他最近的更改：

如何配置网络
如何监控和管理网络
如何设计网络
网络上的协议和工作负载

不久前，我们可能已经通过特定网络命令行界面（ CLI ）的专业水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现，从 CLI 到 API 的转变越来越大。 Ansible 、 SALT 和 Python 方面的技能现在比 Cisco 认证更有价值。

甚至您监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 在数据中心轮询设备的工具转向了新的基于交换机的遥测模型，在该模型中，交换机主动流式传输基于流量的诊断详细信息。

你们都熟练地将新的工作负载引入数据中心，其中许多都有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。

现在，当被要求构建人工智能集群时，人们很容易认为人工智能只是一个更大、更快的大数据应用程序。但人工智能不同*，*如果没有合适的工具，人工智能可能会很难。

生成人工智能和 NCCL 的影响

你是一家大型企业的网络管理员。您的 CTO 参加了 GTC 2023 ，并听说了生成人工智能。他们希望通过构建像 ChatGPT 这样的大型语言模型来响应并与最终用户交互，从而改变您的业务方式。模型必须经过训练。这需要一个大型人工智能训练集群，通过闪电般快速的高速网络连接许多 GPU 加速的服务器。

这个人工智能培训集群带来了许多新的挑战：

网络流量模式和流量特性发生了显著变化，而传统 ECMP 无法很好地发挥作用。
AI 集群参考设计需要用于计算/ GPU 、存储甚至带内管理的专用网络。
网络流量是异构的，由 CPU -- 到 CPU 和 GPU --- 到 GPU 通信生成。
人工智能集群必须准备好容纳在一台服务器上、多台服务器上运行的作业，甚至是在一台计算机上同时运行的多个作业。
网络配置发生变化，参数用于优化 RoCE 和 GPU 直接通信。
人工智能作业必须在多次迭代中具有一致且可预测的作业完成时间。
具有更高带宽交换机的新型扁平拓扑。
需要学习的新缩写词： CUDA 、 NVIDIA DOCA 、 BERT 、 LLM 、 DLRM 和 NCCL 。
新的监控工具：他们如何知道 AI 和 NCCL 是否表现良好？

那么，什么是 NCCL ？以下是教科书上的答案：

NVIDIA Collective Communication Library （ NCCL ）实现了针对 NVIDIA GPU 和 Networking 优化的多节点通信原语。 NCCL 提供了诸如全收集、全减少、广播、减少和减少分散以及点对点发送和接收之类的例程，这些例程经过优化，可通过节点内的 PCIe 和 NVLink 高速互连以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。

资料来源： NVIDIA Collective Communication Library (NCCL)

对于网络管理员， NCCL 控制您闪亮的新 AI 集群的流量模式。这意味着您需要针对 NCCL 进行优化的网络设计、针对 NCCL 优化的网络监控工具以及针对 ZDK 7 优化的以太网交换机。

NCCL 是实现 AI 集群上运行的工作负载的高性能、一致性和可预测性的关键。 NCCL 也是一个交叉点：网络管理员和数据科学家都必须说并理解它。当他们都能流利地说它时， ZDK 可以成为这些具有不同和所需技能的专业人士之间的罗塞塔石碑。

鉴于 NCCL 的重要性，正确的网络可以决定 AI 集群的性能。人工智能集群有一些独特的要求：

对噪音有弹性
对故障具有弹性
铁路优化拓扑
无损网络转发
性能隔离
无阻塞网络架构

那么，接下来是什么呢？

你的工作是防止网络减缓人工智能集群的速度，但人工智能网络需要什么？高带宽、低延迟和高弹性是必要的，但还不够。您将如何选择正确的基础设施？

基于数据表？不是。
根据供应商告诉你的？有点冒险，因为他们想卖给你一些东西。
基于科学家们所要求的数据？他们不是网络专家，所以大多数人都不知道。
根据经验丰富的网络管理员的建议？很有可能他们认为是 CPU ，而不是 GPU ，并且要求发生了变化。

人工智能的联网可能很难。"没有人因为买 X 而被解雇"这句格言与摩尔定律一样古老，因为人工智能的 X 因素与通用计算不同。即使是拥有专门的人工智能工程团队来预先测试集群性能的大型 IT 商店，当随着更多用户的添加和多个作业的同时运行，性能急剧下降时，也会经常感到惊讶。

保证人工智能集群性能的最佳方法是遵循 NVIDIA 发布的人工智能参考架构之一，并使用具有人工智能可见性功能的基础设施来验证您的人工智能集群的健康状况和馈电情况。

无论您的人工智能集群使用以太网还是 InfiniBand ， NVIDIA 都会为您提供成功并成为人工智能网络专家所需的工具、支持和培训。

阅读原文