Arista暗示正在开发AI网络管理遥测工具

Arista Networks正在扩展其遥测功能,以应对AI驱动的需求,为复杂环境提供更全面的网络管理和更高的可见性。

这家网络公司分享了正在开发的高级遥测技术的早期细节,旨在帮助其AI和云客户改善监控和诊断能力。

遥测技术已经是Arista EOS软件栈和面向企业客户的Cloud Vision网络管理分析平台的核心。据Arista介绍,实时网络状态遥测和指标存储在一个通用数据库SysDB中,可通过API和SDK(如gNMI/OpenConfig)轻松访问进行分析。

Arista首席执行官兼董事长Jayshree Ullal在公司第四季度财报电话会议上对金融分析师表示:"我们从一开始就拥有实时流式遥测技术。我们的云客户和AI客户也在寻求这种可见性,因此我们也为遥测开发了一些更深层的AI功能。"

Arista总裁、首席技术官兼创始人Ken Duda补充说,目前Arista将网络遥测数据捕获并流式传输到CloudVision和其他客户系统。

Duda说:"我们正在为AI扩展这一功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息,包括主机上RDMA堆栈的运行情况、集合操作、延迟、主机网卡中的任何流量控制问题或缓冲问题。然后我们将所有这些信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。"

"这极大地帮助我们的客户构建整体工作解决方案,因为当不同系统收集网络和主机之间的交互信息时,调试可能会变得复杂和困难,"Duda说。

Arista拒绝分享其即将推出的AI遥测扩展的更多细节,但专家表示,额外的控制功能对于运营AI网络的高端客户(如超大规模云服务商)将是一个好处。

Dell'Oro Group副总裁Sameh Boujelbene说:"现代交换机已经了解详细的内部条件(拥塞、丢包、缓冲区、RDMA计数器、延迟),但除非导出,否则这些信息是不可见的。将其流式传输到中央系统使网络实时可观察,不仅通过日志,还通过实时操作状态。这对AI集群尤为重要,因为微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。"

"因此,操作员需要同时了解网络和主机的可见性(拥塞、网卡缓冲、RDMA行为和集合性能)。关键思想是将主机和网络遥测统一到一个相关视图中。许多故障发生在层之间,孤立的监控隐藏了根本原因。结合两种视角的单一时间线让操作员能够看到完整的管道,更快地诊断复杂的性能问题,"Boujelbene说。

650 Group联合创始人兼分析师Alan Weckel表示,遥测是理解AI网络中实际发生情况的关键,Arista在交换机方面已经拥有很多这些功能。

Arista在2020年收购了Big Switch及其Big Cloud Fabric,该技术让客户能够将物理交换机作为单一网络管理,包括安全、自动化、编排和分析。重要的是,该软件可以在Dell EMC、HPE等认证交换机上运行。

"BigSwitch部分帮助他们提供额外的探针,我认为随着标准(如Ultra Ethernet联盟)的进展,我们将看到更多,"Weckel说。

Weckel补充说,Duda在Arista第四季度电话会议上的评论揭示了行业的发展方向。"操作员真正需要一个统一的视图,超越单一供应商的世界观(网卡、横向扩展、纵向扩展、跨域扩展),以充分利用这些GPU资产,因此工具需要与硬件基础设施一样快速发展。"

Needham & Company高级分析师Ryan Koontz指出,扩展AI可见性将显著增强Arista已经强大的EOS和CloudVision能力。

"我对超大规模云服务商以及最近AI后端的研究工作表明,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年,"Koontz说。

"AI训练对数据包丢失极其敏感,这正是遥测能力真正发挥作用的地方。这是Arista快速成为后端强者的一个重要原因,因为超大规模云服务商希望减少对Nvidia的依赖。我认为这种遥测技术完美地融入了EOS的容器化,这在很大程度上领先于同行,"Koontz说。

Q&A

Q1:Arista正在开发的AI遥测工具有什么特点?

A:Arista正在为AI扩展遥测功能,结合网络内数据源,包括流量控制、RDMA计数器、缓冲和拥塞计数器,以及主机级信息。该工具将所有信息整合到CloudVision中,为操作员提供网络和主机情况的统一视图。

Q2:为什么AI网络需要更强的遥测能力?

A:AI训练对网络问题极其敏感,微小的网络问题可能会使同步GPU作业停滞,浪费大量计算资源。现代交换机虽然了解详细的内部条件,但这些信息除非导出否则不可见。流式遥测使网络实时可观察,对AI集群运营至关重要。

Q3:Arista的遥测技术与竞争对手相比有什么优势?

A:根据分析师研究,Arista目前的流式遥测能力是一个巨大的差异化优势,竞争对手落后数年。这种能力在AI训练对数据包丢失极其敏感的场景中真正发挥作用,是Arista快速成为后端强者的重要原因。

相关推荐
百胜软件@百胜软件几秒前
货品“精”营:ABC-XYZ分类如何驱动鞋服全渠道库存效率革命?
人工智能·分类·数据挖掘·零售数字化·数智中台·珠宝行业
我命由我12345几秒前
Android 开发问题:全局的主题颜色设置,导致 CheckBox 控件在勾选状态下不显示样式
android·java·开发语言·java-ee·intellij-idea·intellij idea·android jetpack
招标采购导航网3 分钟前
标讯类目体系的自动演化:招标采购导航网如何根据新出现的行业自动扩展分类
大数据·运维·人工智能
by————组态3 分钟前
Ricon组态实时监控 - 毫秒级数据可视化
大数据·人工智能·物联网·信息可视化·架构·组态
尽兴-5 分钟前
6.1 模型优化:量化 INT4/INT8、GPTQ、AWQ、GGUF
人工智能·gptq·awq·gguf·int4/int8
Cloud_Shy6185 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔(第七章 Item 51)
开发语言·人工智能·笔记·python·学习方法
数字供应链安全产品选型6 分钟前
软件供应链安全专项测评 —— 悬镜安全:代码安全、开源治理与 AI 赋能的全栈王者
人工智能·安全·开源
AI+程序员在路上6 分钟前
CSP、PP、PV、HM 在 CiA402 标准下的差异解析
linux·c语言·开发语言·嵌入式硬件
nix.gnehc6 分钟前
Python 并发深度解析
服务器·开发语言·python