400G智算网络助力知名自动驾驶企业算力训练提效

根据Gartner的最新趋势预测,自动驾驶技术正迅速发展,预计在未来几年内将带来显著的商业效益,特别是在决策智能和边缘人工智能领域。目前,一家领军企业正积极拥抱基于大模型的数字化转型之路,作为自动驾驶领域的佼佼者,该公司正积极响应这一趋势。公司专注于智能座舱、自动驾驶技术以及网联服务,不断研发高度集成的智能硬件和前沿的软件算法,为消费者打造智能高效的综合出行方案。

当前,企业迫切需要升级自己的智算中心,以满足日益增长的算力需求。这一中心将服务于公司内部的大型模型训练,并为汽车行业的客户提供全面的自动驾驶模型解决方案。

智算网络需要满足算力训练提效需求

为了确保自动驾驶智算中心的顺利搭建和高效运作,必须综合考量硬件的高可靠性、组网方案的成本效益以及网络带宽的可扩展性。该企业提出了三项核心需求:首先,鉴于新能源汽车市场的激烈竞争,方案必须能够尽可能缩短建设周期,以快速相应市场变化。其次智算中心建设是一个长期且成本高昂的投入,因此成本控制至关重要,方案必须确保成本效益最大化。最后,考虑到智算中心的快速迭代特性,必须关注到智算网络的扩展能力,以满足企业未来业务的持续增长和发展需求。

具体来说,在硬件配置上要选用高性能、高可靠性的服务器、存储设备、网络设备以及专业的GPU集群,以满足自动驾驶算法训练对计算能力的严苛要求。在商务成本上和训练效率的双重考量下,对现有的InfiniBand(IB)网络方案进行优化至关重要,这需要全面评估IB网络方案与其他网络方案,确保在满足性能需求的同时,最大限度地降低成本。同时,为了应对未来的技术升级和扩容需求,必须预留足够的空间和容量,以确保智算中心的技术不会迅速变得过时,从而保持其长期的竞争力和市场适应性。

如何构建高速高效的自动驾驶智算中心

经过充分的验证讨论与测试,新华三智算网络解决方案能够无缝对接客户的现有系统,并在性能、可靠性和可扩展性方面媲美IB网络的标准。因此,在众多厂商中脱颖而出。

整体智算网络方案采用存算分离的双平面网络架构,该方案核心组成包含------

  • 计算网络:由42台S9825-64D数据中心交换机组成400G无损计算网;
  • 存储网络:由12台S9820-64H数据中心交换机组成100G无损存储网,支撑17个节点UniStor CX5036G6 分布式高性能并行存储。

方案采用RoCE以太网络架构,并结合创新的二层盒盒架构设计,有效满足了首期网络建设中100台高性能GPU服务器的需求,同时也预留未来扩容的能力。更成熟、效率更好的RoCE技术架构,大幅了缩短部署周期、降低训练时间,并降低成本支出,给客户更高的投资回报率。

S9825-64D数据中心交换机吞吐量测试

在双平面网络架构的设计中,转发平面专责网络数据的传输工作,而控制平面则承担网络管理和控制信息的处理。这种架构通过两个平面的相互备份,极大提升了网络的可靠性与安全性。一旦其中一个平面发生故障,另一个平面能够立即接管其功能,确保网络的持续运行和稳定性。与此相对,单平面网络架构将所有网络功能集中在单一平面上,没有实现控制和数据转发的分离,因此在灵活性和安全性方面存在局限。显然,双平面网络架构在保障网络稳定性和安全性方面,具有显著的优势。

模型训练效率提升11.1%,加快企业大模型开发

新华三提供的RoCE智算网络方案保持了与IB网络相当的计算性能,能够让企业处理更庞大的数据量,其低延迟和高吞吐量特性,显著缩短了企业自动驾驶模型训练时间减少了10% ,同时将模型训练效率提升11.1%,并加速了业务处理速度。

400G RoCE网络,为企业未来的带宽升级提供了便利。RoCE基于以太网技术,拥有成熟且广泛的生态系统,这有利于未来技术的升级和方案的演进。预计在未来两年内,数据处理能力将提升50%,而无需进行大规模的网络架构更改。此外,预计在三年内,通过节省的运营成本和提升的业务效率,在 RoCE网络上的投资将得到回收,投资回报率有望提高10%。

从部署效率角度,尽管RoCE网络同样需要手工配置,但由于以太网技术的普及和成熟,部署时间平均缩短了15% ,减少了停机时间和人力成本,从而间接节约了综合成本。与IB网络相比,RoCE通常具有更低的设备和维护成本,这在控制整体商务成本方面非常有利。由于以太网组件的普遍性,替换和维护更为经济,从项目整体核算来看,RoCE网络的维护成本比IB网络低约20%

显然,400G智算网络的引入不仅提升了自动驾驶企业算力训练的效率,还为企业的未来发展提供了强大的技术支持和成本优势。随着技术的不断进步和市场需求的不断扩大,该企业有望在全球自动驾驶市场中占据更加重要的地位,为智能出行的未来贡献力量。这一变革不仅标志着自动驾驶技术的新纪元,也为整个汽车行业的发展指明了方向。通过400G智算网络的助力,企业将能够更快地开发和部署先进的自动驾驶模型,为实现更安全、更智能的出行体验奠定坚实的基础。

相关推荐
蜜獾云5 分钟前
docker 安装雷池WAF防火墙 守护Web服务器
linux·运维·服务器·网络·网络安全·docker·容器
IT古董42 分钟前
【漫话机器学习系列】017.大O算法(Big-O Notation)
人工智能·机器学习
凯哥是个大帅比43 分钟前
人工智能ACA(五)--深度学习基础
人工智能·深度学习
m0_748232921 小时前
DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充
人工智能·语言模型·自然语言处理
szxinmai主板定制专家1 小时前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡
大数据·人工智能·fpga开发
海棠AI实验室1 小时前
AI的进阶之路:从机器学习到深度学习的演变(三)
人工智能·深度学习·机器学习
小林熬夜学编程1 小时前
【Linux网络编程】第十四弹---构建功能丰富的HTTP服务器:从状态码处理到服务函数扩展
linux·运维·服务器·c语言·网络·c++·http
Hacker_Fuchen1 小时前
天融信网络架构安全实践
网络·安全·架构
上海运维Q先生1 小时前
面试题整理15----K8s常见的网络插件有哪些
运维·网络·kubernetes
机器懒得学习1 小时前
基于YOLOv5的智能水域监测系统:从目标检测到自动报告生成
人工智能·yolo·目标检测