从 DGX Spark + GP Spark 融合架构说起!!!

在大模型和AI基础设施快速演进的今天,"统一内存"正在成为一个高频关键词。很多人开始提出一个问题:既然统一内存了,GPU可以按需访问数据,那还需要GDS和NVMe-oF吗?这也是最近跟客户交流过程,客户经常提出到的问题。

很多人对统一内存的理解是:GPU可以"直接访问共享内存的数据"不再需要内存和显存之间的数据拷贝;GDS存在的意义就不大了,甚至是不在需要了。但真实情况是: 统一内存只是让GPU数据访问变简单,但没有让GPU直读数据。

NVIDIA DGX spark:CPU/GPU共享128GB LPDDR5X;统一地址空间 ;看起来"GPU可以直接访问内存,但是CPU仍然是数据的搬运者,占用较高的CPU时间。

一、GDS:依然是性能提升关键引擎

1.不开启 GDS 的数据路径(传统 IO 路径)

在这种模式下,数据移动遵循标准的 Linux 异步/同步 IO 规范,CPU 是整个过程的"搬运工"和"协调员"。

1.存储提取:数据从 NVMe SSD 进入 PCIe 控制器。

2.内核拷贝:CPU 介入,将数据从硬件拷贝到操作系统内核缓冲区(Page Cache)。

3.用户拷贝:CPU 再次将数据从内核空间拷贝到用户空间地址(LPDDR5x 内存)。

4.计算就绪:经过两次内存拷贝后,GPU 开始从统一内存中读取数据进行计算。

痛点:由于 CPU 频繁参与内存复制和上下文切换,导致 IO 延迟高,且占用了原本用于数据预处理的 CPU 算力。

2.开启GDS的数据路径

1.控制下发:CPU 仅通过 cuFile API 发送指令,随后退出数据传输路径。

2.硬件直传:存储设备的 DMA 引擎直接与 GB10 内存控制器握手。

3.直接落地:数据绕过 CPU 缓冲区,直接写入 GPU 寻址的 LPDDR5x 物理地址。

4.零拷贝交付:数据落地即就绪,GPU 通过 NVLink-C2C 以极高带宽直接访问。

优势:零拷贝(Zero-copy)。彻底释放了 CPU ,消除了内存拷贝开销,使整体 IO 吞吐量和并发能力实现翻倍增长。

GDS将数据I/O路径的主导者由CPU直接变成GPU,在尤其在高并发、小文件随机读场景下,GDS能够带来2倍以上的性能提升。

GDS 支持本地 NVMe、网络存储(NVMe-oF),已深度集成到 CUDA 生态中。

二、NVMe-oF:外部数据最快到达GPU关键技术

绿算技术GP Spark 支持通过 NVMe-oF/RDMA 协议实现硬件级存储卸载,并完整兼容 GPUDirect Storage(GDS),可将存储的数据就近直供给 DGX Spark 的 GPU 使用,实现高性能远端存储架构。

该存储方案具备两大核心价值:

1.数据共享与集中管理

统一存储可同时为多台 DGX Spark 提供高速数据共享服务,并支持海量数据的安全集中存储。

2.缓解本地存储损耗与扩展瓶颈

DGX Spark 本地 NVMe 盘在 AI 应用高频读写场景下,寿命消耗极快;而 GP Spark 作为外置共享存储,可灵活扩展容量,并支持便捷更换存储介质,大幅降低运维与硬件替换成本。

在性能层面:

通过 NVMe-oF 远程访问存储中的 NVMe SSD,性能可接近本地直连盘水平;基于 RDMA/ROCE 网络传输,进一步实现低时延、高带宽的数据访问,满足模型训练推理对 IO 的严苛要求。

三、DGX Spark + GP Spark(NVMe-oF全闪)融合架构

1.架构核心:通过GP Spark构建 面向DGX Spark GPU直通的数据通道。

2.应用场景

模型训练推理/RAG知识库/多模态AI(图像/视频)/小龙虾本地部署/家庭AI算力中心

四:总结:

AI基础设施演进过程中,统一内存不会取代GDS;NVMe-oF更不会因为GPU变强而消失;三者正在形成新的"黄金三角";而 DGX Spark + GP Spark 的组合,正是这一架构的一个现实落地形态。

相关推荐
爱浦路 IPLOOK2 小时前
分布式UPF架构:让5G网络更灵活、更低时延
分布式·5g·架构
easy_coder2 小时前
Claude Code 的 Agent Loop 与 ReAct:在云产品智能诊断中如何分层落地
架构·云计算
誰能久伴不乏2 小时前
Qt 混合编程核心原理:C++ 与 QML 通信机制详解
linux·c++·qt·架构·状态模式
星辰_mya2 小时前
RPC 原理:Dubbo为了偷懒而存在的中间商
后端·网络协议·rpc·架构·dubbo
踩着两条虫2 小时前
VTJ:ProjectModel 核心设计
低代码·架构·ai编程
threelab2 小时前
从工厂模式到简化封装:三维引擎架构演进之路 threejs设计
javascript·3d·架构·webgl
小谢小哥2 小时前
51-限流算法详解
java·后端·架构
jinanwuhuaguo3 小时前
OpenClaw范式深度剖析:从技术突破到安全治理的系统性研究(第二篇)
开发语言·人工智能·安全·架构·kotlin·openclaw
谢尔登3 小时前
【Next】客户端组件和服务端组件
前端·javascript·react.js·架构