【金猿案例展】智谱AI——基于全闪分布式并行文件存储打造高速大模型训练平台...

‍

焱融科技案例

本项目案例由焱融科技投递并参与"数据猿年度金猿策划活动------2023大数据产业年度创新服务企业榜单/奖项"评选。

大数据产业创新服务媒体

------聚焦数据 · 改变商业

自 ChatGPT 爆火以来，中国的 AI 产业已经进入名副其实的"百模大战"。《中国人工智能大模型地图研究报告》显示，截至 2023 年 5 月底，国内 10 亿级参数规模以上基础大模型至少已经发布 79 个，大模型所需数据丰富，而海量数据需要强悍的储存性能。

目前焱融科技全闪分布式文件存储一体机已经与多家大模型厂商达成合作，其中，与北京智谱华章科技有限公司（简称"智谱AI"）的合作极具代表性。智谱AI成立于2019年，于2022年推出千亿参数大模型，并在2023年累计完成25亿融资，是国内大模型市场的第一梯队厂商。

大模型计算量庞大，计算复杂度高，参与计算的数据规模巨大，大模型越成熟所需数据越丰富，而海量数据需要更强悍的存储性能。因此在大模型的推动下，数据存储已成为AI大模型的关键基础设施，贯穿大模型全流程。焱融高性能分布式文件存储构建智谱数据底座，与 NVIDIA 一起组成大模型算力存储方案，提升智谱业务迭代速度和模型精度。

YRCloudFile 在大模型应用场景具有独到的产品能力，焱融的数据全生命周期管理理念将更加有助于海量规模化的大模型应用。双方此次合作在 AI 大模型数据全生命周期管理等技术方向上联合创新，焱融全闪存储方案具备海量数据支持、超高性能及可靠性等特性，满足智谱 AI 的业务性能需求，助推模型精度提升，为 AIGC 产业提供了可借鉴的成功经验。

实施时间：

项目开始时间：2023年11月29日

中间重要时间节点：2023年11月30日

项目完结时间：2023年12月21日

应用场景

此次构建高速大模型训练平台，采用了焱融全闪一体机F8000X搭建的分布式并行文件存储集群，满足千亿参数模型训练推理中高并发、高性能和低延时性能需求，结合NVIDIA计算和Infiniband网络，共同构建智谱AI高性能算力基础平台，帮助算法逻辑快速迭代，形成竞争优势。

焱融全闪一体机F8000X采用全NVMe SSD硬件架构，通过YRCloudFile软件系统将硬件性能极致发挥，并结合Infiniband 200Gb网络，将存储能力提供给NVIDIA GPU集群，形成存储、网络、计算的全链路高性能配比。与传统数据核心建设不同，该方案在硬件选型和软件系统选型上均采用了高性能架构，客户可以获得存储、网络和计算三种核心资源的最佳配置，消除了IT基础资源的限制，确保资源投资得到最大的回报，避免了浪费，可作为智算中心建设成功样板。

在 AI 全业务流程内，数据需要经历预处理、训练、推理等过程，焱融全闪一体机F8000X根据智谱AI大模型训练的不同业务阶段特点，调用不同的存储服务能力，满足各个阶段业务对数据服务能力的要求，摒弃了传统分立建设，避免数据孤岛问题。

在业务全过程中，数据始终处于 YRCloudFile 全生命周期管理中，相比传统存储的竖井架构，数据流转成本大大降低，同步提升了计算GPU 的利用率，将业务等待时间剔除，提升效率，业务连续性也得到保障。

多模态 AI 数据来源维度众多，YRCloudFile 采用分布式并行架构及元数据路径分离技术，让百亿级混合文件（大文件和小文件并存场景）数据读写和元数据查询性能稳定，并且可线性扩展，满足智谱AI 业务性能需求，快速提升迭代能力。

YRCloudFile具备强大升级能力，当前配置可随业务在线快速升级，无论IO能力或是网络适配能力，在客户数据规模持续增长的过程中可灵活调整性能配置，将建设成本优化，降低TCO。

面临挑战

在智谱AI 业务发展的需求中，当构建百亿级别的模型时，算力、网络、存储这三要素共同决定了模型最终的成熟度和产品先进性。现阶段，算力的发展已经从单纯依靠GPU数量的堆积转向了全面提升存储和网络性能，以满足不断增长的计算需求和人工智能等先进应用的需求。

存储的选择需要贴合业务要求，此次存储建设目标不但需要满足业务层百亿文件存储，还需要满足模型全流程生产要求。即从数据分类、模型训练、仿真等环节考虑，存储必须满足不同类别文件的高性能响应。智谱AI 在选型存储时最为关注以下几点：

需求一：百亿级别数据读写性能与元数据操作性能，在业务中，频繁操作数据，形成规模效应，存储性能需要保证稳定性；

需求二：业务数据包含大量的文本文件、视频文件、音频文件等多维度数据，存储作为数据的载体需要非常高的 IOPS 能力，例如，普通机械硬盘性能不超过 200 IOPS，如果要支持百亿级数据业务模型，那么需要大量的磁盘用于存储，容量和性能不匹配，显然这样的硬件选型是不合理的。目前业界主流高性能硬件已经普及全闪的 NVMe SSD，单盘 IOPS 即可达到数万。

需求三：在模型运算中，不仅仅存储需要高 IOPS，还要同时兼容高性能网络，将存储能力通过网络供给到计算层，完成数据的高速流转。

基于以上三点业务需求分析，智谱AI选择了全闪存储架构。

数据支持

在 AI 全业务流程内，数据需要经历的预处理、训练、仿真等过，焱融科技全闪文件存储 F8000X 根据不同业务阶段的特点，调用不同的存储服务能力，满足各个阶段业务对数据服务能力的要求。且业务全过程中，数据始终处于 YRCloudFile 的全生命周期管理中，相比传统存储的分离架构，数据流转成本大大降低，业务连续性得到保障。

在服务泛AI客户过程中，对大多数进行AI模型训练的客户而言，数据具有阶段性热点访问的特点，超过一定时间后，80% 以上的数据逐步趋冷。因此，如何实现统一的数据管理，根据数据访问热度，对冷、热数据进行全局调度，达到数据存储和管理的最佳效率，是降低数据存储成本的关键。焱融科技存储系统提供智能分层功能，客户可根据策略定义冷热数据层，冷数据自动流动至本地或公有云对象存储中，向上仍然为业务提供标准的文件访问接口，数据在冷热数据层之间流动对业务完全透明。在保证热层数据高性能的同时，降低了数据存储成本，提升了数据可靠性。

应用技术与实施过程

本次项目建设采用了焱融全闪一体机F8000X搭建的分布式并行文件存储集群，满足千亿参数模型训练推理中高并发、高性能和低延时性能需求，结合NVIDIA计算和Infiniband网络，共同构建智谱AI高性能算力基础平台，帮助算法逻辑快速迭代，形成竞争优势。焱融科技凭借丰富的产品实施经验及极简化的安装部署过程，使得项目在入场第二天即可完成部署实施工作。下面将详细描述本次项目实施过程中的关键步骤和特点。

1、项目准备阶段：

在项目启动前，首先进行了详细的项目准备工作。这包括对硬件设备、网络环境、NVIDIA GPU集群等进行全面的评估和规划。确保硬件和软件的兼容性，以及项目所需的资源得到充分准备。

2、硬件设备选型：

焱融全闪一体机F8000X采用全NVMe SSD硬件架构，通过YRCloudFile软件系统将硬件性能极致发挥，并结合Infiniband 200Gb网络，将存储能力提供给NVIDIA GPU集群，形成存储、网络、计算的全链路高性能配比。与传统数据核心建设不同，该方案在硬件选型和软件系统选型上均采用了高性能架构，因此得到了客户的高度认可，可作为智算中心建设成功样板。

YRCloudFile采用scale-out架构，所有存储节点同步提供存储服务，具备先天性能优势。通过数据切片形式存储数据，解决了IO高并发需求；结合副本和EC算法，解决了数据可靠性问题；在强一致算法的支持下，数据完整性得到了充分保障。基于业务多种阶段和状态的要求，YRCloudFile通过配额功能以及目录级QoS功能，将存储资源按需分配到不同业务区间，有效保障了各项业务的顺利开展。

在存储原子能力方面，YRCloudFile在数据IO操作上提供多种详细策略的支持：数据的增、删、改、查及元数据的增删改查；针对IOPS和带宽的控制能力；基于元数据操作的IOPS的管理能力。支持多种模式设定，充分满足当前业务及后续业务发展需要。

YRCloudFile存储小文件和大文件混合的能力强，结合智谱AI大模型业务：在小文件训练场景下，提供千万级IOPS存储能力；在大文件带宽性能要求高的场景下，可以充分利用200Gb Infiniband网络的能力，实现高效的数据传输。这些关键能力主要归功于YRCloudFile系统在内部进行了小文件和大文件的逻辑优化，使得YRCloudFile能够适应两种极端场景的性能需求。这也是本方案选择采用YRCloudFile的核心因素。

YRCloudFile提供基于CSI的容器持久化存储能力、NFS/SMB及大数据访问能力，满足智谱AI训练/推理外的业务存储需要，存储作为AI大模型的数据基石，承担起了AI生命"起源"的角色。

大模型场景下全闪存储F8000X解决方案

综上所述，本方案焱融全闪一体机F8000X具备如下特点如下：

● 基于scale-out架构的全闪并行分布式文件存储，具备横向扩展能力，自动负载均衡，满足日渐增长的容量及性能需求；

● 提供POSIX私有协议、CSI、大数据、NFS/SMB多种访问接口，满足多种业务存储需要；

● 与Infiniband网络协议充分适配，彻底解决传统网络"卡脖子"问题；

● 小文件和大文件混合的能力强，满足智谱AI的核心业务场景需求；

● 能够在单业务存储数据量超百亿规模场景下，平稳运行，性能不衰减；

● 适配NVIDIA GPUDirect Storage（GDS）技术，具备对NVIDIA GPU集群对接的技术优势。

YRCloudFile作为全闪分布式并行文件系统，在适配Infiniband高速网络协议方面具有业界领先的技术实力。本方案中，适配200Gb Infiniband作为当时最先进的业务实践，已成为了业界的榜样。并且，YRCloudFile具备聚合Infiniband多通道的能力，能够响应更大的存储网络需求。

YRCloudFile能够将硬件层NVMe SSD能力充分发挥，满足当前AI大模型业务发展种对数据IO的性能和原子操作能力要求，在多模态和大模型类型的业务中，推动核心算法加速迭代，助力智谱AI客户业务快速发展。YRCloudFile是国内首个支持NVIDIA GPUDirect Storage（GDS）技术的存储软件，具备与NVIDIA GPU集群对接的技术优势，这一特点使其在智算中心建设中展现出领先地位。

YRCloudFile支持千亿级模型的训练推理，同时向模型训练其他阶段数据提供可靠、稳定的数据存储服务，保障业务数据全生命周期管理与服务。结合其自身具备的数据加载和智能分层功能，可轻松实现异构云数据架构，无需借助其他技术或设备，将数据管理从平面转向立体式多维度的管理模式，提升整体业务效率。

结合项目经验，焱融科技在海量数据管理能力上具备成熟项目经验，产品适配能力。

3、网络规划：

YRCloudFile采用高并发的POSIX私有协议作为主体服务，相较于传统的NFS/SMB网关架构，其计算并发访问存储规模提高了数十倍，能够支持前端数百台GPU计算服务器并发访问。并且，由于POSIX私有客户端任具备预读和逻辑简单的特点，结合YRCloudFile与Infiniband协议充分的技术对接，能够有效满足大模型训练中对高IOPS和低延时的需求。在这一步骤中，进行了网络拓扑设计，确保Infiniband 200Gb网络能够提供足够的带宽和低延时，充分满足NVIDIA GPU集群与存储之间的高效数据传输需求。

4、YRCloudFile软件安装与配置：

YRCloudFile的安装过程被设计得相当简单，凭借其极简化的部署流程，实现了项目入场第二条即可完成部署。具体步骤如下：

● 安装操作系统：在每个存储节点上安装操作系统，确保系统与YRCloudFile的兼容性。

●安装YRCloudFile软件：通过提供的安装包，轻松部署YRCloudFile软件。安装过程中，用户只需按照提示进行简单的配置，包括节点角色、存储路径等。

● 网络配置：进行Infiniband网络的配置，确保存储节点之间的高速通信。

● 集群配置：将各个存储节点加入集群，形成一个分布式的文件存储集群。

● 高级配置和优化：

YRCloudFile提供了一系列高级配置选项，以满足不同业务需求。在这一步骤中，根据实际情况进行配置优化，包括配额管理、QoS功能的设置，以及数据加载和智能分层功能的调整，以确保存储资源按需分配，满足各项业务的性能和容量需求。

● 集成NVIDIA GPUDirect Storage技术：

YRCloudFile作为国内首个支持NVIDIA GPUDirect Storage（GDS）技术的存储软件，集成过程相对简单。通过与NVIDIA GPU集群的对接，充分发挥GPU与存储之间的直接数据传输技术优势，提高数据传输效率。

● 测试与验证：

在完成安装和配置后，进行系统的测试与验证是至关重要的一步。通过模拟高并发、大规模模型训练推理等场景，确保整个系统在生产环境中能够稳定运行。包括性能测试、容错测试、数据一致性测试等多个方面的验证。

● 培训与文档：

为了确保项目的可维护性和持续运营，进行相关团队的培训是不可或缺的。此外，提供详细的文档，包括安装手册、配置指南、故障排除等，以供用户在日常维护和操作中参考。

● 上线与运维：

完成测试验证后，项目正式上线。在正式上线后，建立定期的运维流程，监控系统的性能、容量，进行必要的维护和优化，确保系统在长时间内稳定运行。

● 项目总结与优化：

在项目实施完毕后，进行全面的总结和优化。收集用户反馈，识别可能的改进点，不断优化系统性能和稳定性，保证系统能够持续适应业务的发展。

通过上述步骤，YRCloudFile在项目实施中展现了其丰富的产品实施经验和高效的部署流程。简化的安装过程、高度集成的硬件和软件配置，使得项目能够在较短时间内完成部署，为智谱AI高性能算力基础平台的搭建提供了坚实的基础。

商业变化

在实施整体解决方案后，客户可以获得存储、网络和计算三种核心资源的最佳配置，消除了IT基础资源的限制，确保资源投资得到最大的回报，避免了浪费。焱融全闪一体机F8000X根据智谱AI大模型训练的不同业务阶段特点，调用不同的存储服务能力，满足各个阶段业务对数据服务能力的要求，摒弃了传统分立建设，避免数据孤岛问题。

在业务全过程中，数据始终处于 YRCloudFile 全生命周期管理中，相比传统存储的分离架构，数据流转成本大大降低，同步提升了计算GPU 的利用率，将业务等待时间剔除，提升效率，业务连续性也得到保障。YRCloudFile具备强大升级能力，当前配置可随业务在线快速升级，无论IO能力或是网络适配能力，在客户数据规模持续增长的过程中可灵活调整性能配置，将建设成本优化，降低TCO。