昇腾千卡算力集群交付痛点及工具链思路

场地资源限制

算力设备普遍功耗较高，对数据中心L1的风火水电有较高要求，传统通用算力数据中心或运营商IDC机房普遍按照5kw~8kw单柜功率建设，而Atlas800T A2服务器单机功率高达5.2kw，汇聚交换机16808设备满配功率高达24kw，前期建设的数据中心很难满足算力集群底座的交付要求，普遍需要做数据中心基础设施的改造，而受前期建设的基础设施限制，改造幅度和空间常常是有限的，有多少房间，每个房间有多少机柜，机柜功率和空调散热负载，跨房间的光缆光芯数量等都需要根据算力集群的规模和未来的扩容计划详细设计定制化改造，而L2算存网设备的摆放位置由于需要深入考虑数据中心L1的供电，散热等现实条件，因此后期基本没有挪动余地，L1风火水电和L2算存网的解决方案是紧耦合的，不仅仅是设备数量的耦合，还需要深入考虑设备的落柜位置，设备跨机房关系等等，以9216卡的集群为例，涉及1700套算存网设备，需要使用6个机房的632个机柜，每个房间，机柜，列头柜的功率都需要详细设计负载，空调散热量，热仿真都需要仔细考虑，房间内设备走线不超过100米使用多模光纤和多模光模块，跨房间需要使用单模和单模光模块，机房改造方案和L2解决方案设备数量，设备摆放位置，走线方式等都是同时确定的，机房改造完成后，L2设备基本没有可大范围挪动的可能性，所以如果前期方案设计上出现偏差，必然导致后期L2设备无法落地或者L1产生二次改造返工的需求，必然导致项目工期延迟或客户成本增加。且项目前期一般有多个可选数据中心备选，客户需求还未最终定型，变更较多，如果无法快速准确测算，必将导致项目决策缓慢，项目后期风险大。X1项目是通过前期多名服务和产品线的专业人员一起反复验证评审，没有出现测算和改造上的失误返工，但投入了大量的工作量。因此这类项目特别是规模较大的集群，需要能够准确快速同时测算DC L1功率、散热、机柜、光芯、光模块、算存网设备数量、房间布放数量等的工具，实现算力集群场景L1和L2联动测算，保证方案一次性做对。

跨算力集群的验证测试工具的重要性

算力集群场景布线工作量较大（万卡集群光纤+网线布线约3.6万根，超100万米，跨6个房间，40个ODF架，3万多光模块），综合布线一定会存在部分鸳鸯线，错接等情况，施工过程中还可能因为灰尘等原因导致光纤端面脏污，如果无法保障所有线缆连接的准确性，线缆信号质量达标，后期必将导致模型训练不稳定和业务中断，造成后期客户投诉；且算力场景因设备多，华为及客户的维护操作人员多，不同人员配置部署和变更调整后，其他人很难获知情况，经常需要人工校验所有设备的设备状态，软硬件版本一致性，性能，配置参数等，这些需要极大的工作量，如果只依赖于人工的命令执行和观测，是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本，可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题，才能快速完成线缆连接准确性和质量的整改，随时发现和纠正集群里的设备异常和配置错误，让大型集群长期处于最佳状态，保障后续模型训练能够长稳运行。所以算力集群交付场景，需要跨多产品的集群验证和测试工具，能够基于LLD对集群所有组件进行校验。

针对计算集群（计算节点+网络），如何通过冗余备份或故障隔离来实现整个系统级的可靠性

1、计算集群的规模很大，HPC集群有数百万核、数万计算节点、数千网络节点，AI集群有千卡、万卡、10万卡，所以这种大规模复杂系统的可靠性首先是各域自身的高可靠，原有服务器、交换机、存储设备的RAS和可靠性措施都可以发挥重要作用。

2、其次，在业务层面，目前业界主要使用CheckPoint技术进行保护。通过周期性的保存计算状态和中间数据，当发生故障时，从上次保存的CheckPoint点恢复数据，继续运行作业。AI大模型训练中使用到的"断点续训"就是CheckPoint。

3、HW的CT领域已经积累了成熟的可靠性工程方法和经验，最近2年在探索把这些工程方法和经验应用到HPC集群和AI集群可靠性实践中。目前规划了计算CAT架构来开展这方面工作，CAT：Computing Availability Tools and Technologies，具体有CATModel（建模仿真）、CATHelper（节点容错）、DemonCAT（故障注入）、CATEye（故障诊断）、CATLake（故障数据湖）等