在大模型和AI基础设施快速演进的今天,"统一内存"正在成为一个高频关键词。很多人开始提出一个问题:既然统一内存了,GPU可以按需访问数据,那还需要GDS和NVMe-oF吗?这也是最近跟客户交流过程,客户经常提出到的问题。

很多人对统一内存的理解是:GPU可以"直接访问共享内存的数据"不再需要内存和显存之间的数据拷贝;GDS存在的意义就不大了,甚至是不在需要了。但真实情况是: 统一内存只是让GPU数据访问变简单,但没有让GPU直读数据。
NVIDIA DGX spark:CPU/GPU共享128GB LPDDR5X;统一地址空间 ;看起来"GPU可以直接访问内存,但是CPU仍然是数据的搬运者,占用较高的CPU时间。
一、GDS:依然是性能提升关键引擎
1.不开启 GDS 的数据路径(传统 IO 路径)
在这种模式下,数据移动遵循标准的 Linux 异步/同步 IO 规范,CPU 是整个过程的"搬运工"和"协调员"。
1.存储提取:数据从 NVMe SSD 进入 PCIe 控制器。
2.内核拷贝:CPU 介入,将数据从硬件拷贝到操作系统内核缓冲区(Page Cache)。
3.用户拷贝:CPU 再次将数据从内核空间拷贝到用户空间地址(LPDDR5x 内存)。
4.计算就绪:经过两次内存拷贝后,GPU 开始从统一内存中读取数据进行计算。
痛点:由于 CPU 频繁参与内存复制和上下文切换,导致 IO 延迟高,且占用了原本用于数据预处理的 CPU 算力。
2.开启GDS的数据路径
1.控制下发:CPU 仅通过 cuFile API 发送指令,随后退出数据传输路径。
2.硬件直传:存储设备的 DMA 引擎直接与 GB10 内存控制器握手。
3.直接落地:数据绕过 CPU 缓冲区,直接写入 GPU 寻址的 LPDDR5x 物理地址。
4.零拷贝交付:数据落地即就绪,GPU 通过 NVLink-C2C 以极高带宽直接访问。
优势:零拷贝(Zero-copy)。彻底释放了 CPU ,消除了内存拷贝开销,使整体 IO 吞吐量和并发能力实现翻倍增长。
GDS将数据I/O路径的主导者由CPU直接变成GPU,在尤其在高并发、小文件随机读场景下,GDS能够带来2倍以上的性能提升。
GDS 支持本地 NVMe、网络存储(NVMe-oF),已深度集成到 CUDA 生态中。
二、NVMe-oF:外部数据最快到达GPU关键技术
绿算技术GP Spark 支持通过 NVMe-oF/RDMA 协议实现硬件级存储卸载,并完整兼容 GPUDirect Storage(GDS),可将存储的数据就近直供给 DGX Spark 的 GPU 使用,实现高性能远端存储架构。
该存储方案具备两大核心价值:
1.数据共享与集中管理
统一存储可同时为多台 DGX Spark 提供高速数据共享服务,并支持海量数据的安全集中存储。
2.缓解本地存储损耗与扩展瓶颈
DGX Spark 本地 NVMe 盘在 AI 应用高频读写场景下,寿命消耗极快;而 GP Spark 作为外置共享存储,可灵活扩展容量,并支持便捷更换存储介质,大幅降低运维与硬件替换成本。
在性能层面:
通过 NVMe-oF 远程访问存储中的 NVMe SSD,性能可接近本地直连盘水平;基于 RDMA/ROCE 网络传输,进一步实现低时延、高带宽的数据访问,满足模型训练推理对 IO 的严苛要求。

三、DGX Spark + GP Spark(NVMe-oF全闪)融合架构
1.架构核心:通过GP Spark构建 面向DGX Spark GPU直通的数据通道。

2.应用场景
模型训练推理/RAG知识库/多模态AI(图像/视频)/小龙虾本地部署/家庭AI算力中心
四:总结:
AI基础设施演进过程中,统一内存不会取代GDS;NVMe-oF更不会因为GPU变强而消失;三者正在形成新的"黄金三角";而 DGX Spark + GP Spark 的组合,正是这一架构的一个现实落地形态。