Arista Networks正在扩展其遥测功能,以应对AI驱动的需求,为复杂环境提供更全面的网络管理和更高的可见性。
这家网络公司分享了正在开发的高级遥测技术的早期细节,旨在帮助其AI和云客户改善监控和诊断能力。
遥测技术已经是Arista EOS软件栈和面向企业客户的Cloud Vision网络管理分析平台的核心。据Arista介绍,实时网络状态遥测和指标存储在一个通用数据库SysDB中,可通过API和SDK(如gNMI/OpenConfig)轻松访问进行分析。
Arista首席执行官兼董事长Jayshree Ullal在公司第四季度财报电话会议上对金融分析师表示:"我们从一开始就拥有实时流式遥测技术。我们的云客户和AI客户也在寻求这种可见性,因此我们也为遥测开发了一些更深层的AI功能。"
Arista总裁、首席技术官兼创始人Ken Duda补充说,目前Arista将网络遥测数据捕获并流式传输到CloudVision和其他客户系统。
Duda说:"我们正在为AI扩展这一功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息,包括主机上RDMA堆栈的运行情况、集合操作、延迟、主机网卡中的任何流量控制问题或缓冲问题。然后我们将所有这些信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。"
"这极大地帮助我们的客户构建整体工作解决方案,因为当不同系统收集网络和主机之间的交互信息时,调试可能会变得复杂和困难,"Duda说。
Arista拒绝分享其即将推出的AI遥测扩展的更多细节,但专家表示,额外的控制功能对于运营AI网络的高端客户(如超大规模云服务商)将是一个好处。
Dell'Oro Group副总裁Sameh Boujelbene说:"现代交换机已经了解详细的内部条件(拥塞、丢包、缓冲区、RDMA计数器、延迟),但除非导出,否则这些信息是不可见的。将其流式传输到中央系统使网络实时可观察,不仅通过日志,还通过实时操作状态。这对AI集群尤为重要,因为微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。"
"因此,操作员需要同时了解网络和主机的可见性(拥塞、网卡缓冲、RDMA行为和集合性能)。关键思想是将主机和网络遥测统一到一个相关视图中。许多故障发生在层之间,孤立的监控隐藏了根本原因。结合两种视角的单一时间线让操作员能够看到完整的管道,更快地诊断复杂的性能问题,"Boujelbene说。
650 Group联合创始人兼分析师Alan Weckel表示,遥测是理解AI网络中实际发生情况的关键,Arista在交换机方面已经拥有很多这些功能。
Arista在2020年收购了Big Switch及其Big Cloud Fabric,该技术让客户能够将物理交换机作为单一网络管理,包括安全、自动化、编排和分析。重要的是,该软件可以在Dell EMC、HPE等认证交换机上运行。
"BigSwitch部分帮助他们提供额外的探针,我认为随着标准(如Ultra Ethernet联盟)的进展,我们将看到更多,"Weckel说。
Weckel补充说,Duda在Arista第四季度电话会议上的评论揭示了行业的发展方向。"操作员真正需要一个统一的视图,超越单一供应商的世界观(网卡、横向扩展、纵向扩展、跨域扩展),以充分利用这些GPU资产,因此工具需要与硬件基础设施一样快速发展。"
Needham & Company高级分析师Ryan Koontz指出,扩展AI可见性将显著增强Arista已经强大的EOS和CloudVision能力。
"我对超大规模云服务商以及最近AI后端的研究工作表明,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年,"Koontz说。
"AI训练对数据包丢失极其敏感,这正是遥测能力真正发挥作用的地方。这是Arista快速成为后端强者的一个重要原因,因为超大规模云服务商希望减少对Nvidia的依赖。我认为这种遥测技术完美地融入了EOS的容器化,这在很大程度上领先于同行,"Koontz说。
Q&A
Q1:Arista正在开发的AI遥测工具有什么特点?
A:Arista正在为AI扩展遥测功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息。该工具将所有信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。
Q2:为什么AI网络需要更强的遥测能力?
A:AI训练对网络问题极其敏感,微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。现代交换机虽然了解详细的内部条件,但这些信息除非导出否则不可见。流式遥测使网络实时可观察,对AI集群运营至关重要。
Q3:Arista的遥测技术与竞争对手相比有什么优势?
A:根据分析师研究,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年。这种能力在AI训练对数据包丢失极其敏感的场景中真正发挥作用,是Arista快速成为后端强者的重要原因。