从 DGX Spark + GP Spark 融合架构说起!!!

在大模型和AI基础设施快速演进的今天，"统一内存"正在成为一个高频关键词。很多人开始提出一个问题：既然统一内存了，GPU可以按需访问数据，那还需要GDS和NVMe-oF吗？这也是最近跟客户交流过程，客户经常提出到的问题。

很多人对统一内存的理解是：GPU可以"直接访问共享内存的数据"不再需要内存和显存之间的数据拷贝；GDS存在的意义就不大了，甚至是不在需要了。但真实情况是：统一内存只是让GPU数据访问变简单，但没有让GPU直读数据。

NVIDIA DGX spark：CPU/GPU共享128GB LPDDR5X；统一地址空间；看起来"GPU可以直接访问内存，但是CPU仍然是数据的搬运者，占用较高的CPU时间。

一、GDS：依然是性能提升关键引擎

1.存储提取：数据从 NVMe SSD 进入 PCIe 控制器。

2.内核拷贝：CPU 介入，将数据从硬件拷贝到操作系统内核缓冲区（Page Cache）。

3.用户拷贝：CPU 再次将数据从内核空间拷贝到用户空间地址（LPDDR5x 内存）。

4.计算就绪：经过两次内存拷贝后，GPU 开始从统一内存中读取数据进行计算。

痛点：由于 CPU 频繁参与内存复制和上下文切换，导致 IO 延迟高，且占用了原本用于数据预处理的 CPU 算力。

2.开启GDS的数据路径

1.控制下发：CPU 仅通过 cuFile API 发送指令，随后退出数据传输路径。

2.硬件直传：存储设备的 DMA 引擎直接与 GB10 内存控制器握手。

3.直接落地：数据绕过 CPU 缓冲区，直接写入 GPU 寻址的 LPDDR5x 物理地址。

4.零拷贝交付：数据落地即就绪，GPU 通过 NVLink-C2C 以极高带宽直接访问。

优势：零拷贝（Zero-copy）。彻底释放了 CPU ，消除了内存拷贝开销，使整体 IO 吞吐量和并发能力实现翻倍增长。

GDS将数据I/O路径的主导者由CPU直接变成GPU，在尤其在高并发、小文件随机读场景下,GDS能够带来2倍以上的性能提升。

GDS 支持本地 NVMe、网络存储（NVMe-oF），已深度集成到 CUDA 生态中。

二、NVMe-oF：外部数据最快到达GPU关键技术

绿算技术GP Spark 支持通过 NVMe-oF/RDMA 协议实现硬件级存储卸载，并完整兼容 GPUDirect Storage（GDS），可将存储的数据就近直供给 DGX Spark 的 GPU 使用，实现高性能远端存储架构。

该存储方案具备两大核心价值：

1.数据共享与集中管理

统一存储可同时为多台 DGX Spark 提供高速数据共享服务，并支持海量数据的安全集中存储。

2.缓解本地存储损耗与扩展瓶颈

DGX Spark 本地 NVMe 盘在 AI 应用高频读写场景下，寿命消耗极快；而 GP Spark 作为外置共享存储，可灵活扩展容量，并支持便捷更换存储介质，大幅降低运维与硬件替换成本。

在性能层面：

通过 NVMe-oF 远程访问存储中的 NVMe SSD，性能可接近本地直连盘水平；基于 RDMA/ROCE 网络传输，进一步实现低时延、高带宽的数据访问，满足模型训练推理对 IO 的严苛要求。

三、DGX Spark + GP Spark（NVMe-oF全闪）融合架构

1.架构核心：通过GP Spark构建 面向DGX Spark GPU直通的数据通道。

2.应用场景

模型训练推理/RAG知识库/多模态AI(图像/视频）/小龙虾本地部署/家庭AI算力中心

四：总结：

AI基础设施演进过程中,统一内存不会取代GDS；NVMe-oF更不会因为GPU变强而消失；三者正在形成新的"黄金三角"；而 DGX Spark + GP Spark 的组合，正是这一架构的一个现实落地形态。