Arista暗示正在开发AI网络管理遥测工具

Arista Networks正在扩展其遥测功能,以应对AI驱动的需求,为复杂环境提供更全面的网络管理和更高的可见性。

这家网络公司分享了正在开发的高级遥测技术的早期细节,旨在帮助其AI和云客户改善监控和诊断能力。

遥测技术已经是Arista EOS软件栈和面向企业客户的Cloud Vision网络管理分析平台的核心。据Arista介绍,实时网络状态遥测和指标存储在一个通用数据库SysDB中,可通过API和SDK(如gNMI/OpenConfig)轻松访问进行分析。

Arista首席执行官兼董事长Jayshree Ullal在公司第四季度财报电话会议上对金融分析师表示:"我们从一开始就拥有实时流式遥测技术。我们的云客户和AI客户也在寻求这种可见性,因此我们也为遥测开发了一些更深层的AI功能。"

Arista总裁、首席技术官兼创始人Ken Duda补充说,目前Arista将网络遥测数据捕获并流式传输到CloudVision和其他客户系统。

Duda说:"我们正在为AI扩展这一功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息,包括主机上RDMA堆栈的运行情况、集合操作、延迟、主机网卡中的任何流量控制问题或缓冲问题。然后我们将所有这些信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。"

"这极大地帮助我们的客户构建整体工作解决方案,因为当不同系统收集网络和主机之间的交互信息时,调试可能会变得复杂和困难,"Duda说。

Arista拒绝分享其即将推出的AI遥测扩展的更多细节,但专家表示,额外的控制功能对于运营AI网络的高端客户(如超大规模云服务商)将是一个好处。

Dell'Oro Group副总裁Sameh Boujelbene说:"现代交换机已经了解详细的内部条件(拥塞、丢包、缓冲区、RDMA计数器、延迟),但除非导出,否则这些信息是不可见的。将其流式传输到中央系统使网络实时可观察,不仅通过日志,还通过实时操作状态。这对AI集群尤为重要,因为微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。"

"因此,操作员需要同时了解网络和主机的可见性(拥塞、网卡缓冲、RDMA行为和集合性能)。关键思想是将主机和网络遥测统一到一个相关视图中。许多故障发生在层之间,孤立的监控隐藏了根本原因。结合两种视角的单一时间线让操作员能够看到完整的管道,更快地诊断复杂的性能问题,"Boujelbene说。

650 Group联合创始人兼分析师Alan Weckel表示,遥测是理解AI网络中实际发生情况的关键,Arista在交换机方面已经拥有很多这些功能。

Arista在2020年收购了Big Switch及其Big Cloud Fabric,该技术让客户能够将物理交换机作为单一网络管理,包括安全、自动化、编排和分析。重要的是,该软件可以在Dell EMC、HPE等认证交换机上运行。

"BigSwitch部分帮助他们提供额外的探针,我认为随着标准(如Ultra Ethernet联盟)的进展,我们将看到更多,"Weckel说。

Weckel补充说,Duda在Arista第四季度电话会议上的评论揭示了行业的发展方向。"操作员真正需要一个统一的视图,超越单一供应商的世界观(网卡、横向扩展、纵向扩展、跨域扩展),以充分利用这些GPU资产,因此工具需要与硬件基础设施一样快速发展。"

Needham & Company高级分析师Ryan Koontz指出,扩展AI可见性将显著增强Arista已经强大的EOS和CloudVision能力。

"我对超大规模云服务商以及最近AI后端的研究工作表明,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年,"Koontz说。

"AI训练对数据包丢失极其敏感,这正是遥测能力真正发挥作用的地方。这是Arista快速成为后端强者的一个重要原因,因为超大规模云服务商希望减少对Nvidia的依赖。我认为这种遥测技术完美地融入了EOS的容器化,这在很大程度上领先于同行,"Koontz说。

Q&A

Q1:Arista正在开发的AI遥测工具有什么特点?

A:Arista正在为AI扩展遥测功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息。该工具将所有信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。

Q2:为什么AI网络需要更强的遥测能力?

A:AI训练对网络问题极其敏感,微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。现代交换机虽然了解详细的内部条件,但这些信息除非导出否则不可见。流式遥测使网络实时可观察,对AI集群运营至关重要。

Q3:Arista的遥测技术与竞争对手相比有什么优势?

A:根据分析师研究,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年。这种能力在AI训练对数据包丢失极其敏感的场景中真正发挥作用,是Arista快速成为后端强者的重要原因。

相关推荐
张3蜂1 小时前
Python变量与命名规范:从入门到精通
开发语言·python
紧固视界1 小时前
2026 紧固件质检三大难题揭秘|上海紧固件专业展
大数据·人工智能·紧固件·上海紧固件展·紧固件展
电商API_180079052471 小时前
京东商品评论API接口封装的心路历程
服务器·开发语言·爬虫·数据分析·php
十铭忘2 小时前
动作识别12——yolo26s-pose+PoseC3D第1篇之标注工具升级2.0
人工智能·python·深度学习
扶尔魔ocy2 小时前
【转载】QT使用linuxdeployqt打包
开发语言·qt
好家伙VCC2 小时前
# 发散创新:基于Python的TTS语音合成实战与优化策略 在人工智能加速落地的今天,**文本转
java·开发语言·人工智能·python
沃达德软件2 小时前
模糊图像复原技术解析
图像处理·人工智能·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
来两个炸鸡腿2 小时前
【Datawhale组队学习202602】Easy-Vibe task05 完整项目实战
人工智能·学习·大模型·vibe coding