从 DGX Spark + GP Spark 融合架构说起!!!

在大模型和AI基础设施快速演进的今天,"统一内存"正在成为一个高频关键词。很多人开始提出一个问题:既然统一内存了,GPU可以按需访问数据,那还需要GDS和NVMe-oF吗?这也是最近跟客户交流过程,客户经常提出到的问题。

很多人对统一内存的理解是:GPU可以"直接访问共享内存的数据"不再需要内存和显存之间的数据拷贝;GDS存在的意义就不大了,甚至是不在需要了。但真实情况是: 统一内存只是让GPU数据访问变简单,但没有让GPU直读数据。

NVIDIA DGX spark:CPU/GPU共享128GB LPDDR5X;统一地址空间 ;看起来"GPU可以直接访问内存,但是CPU仍然是数据的搬运者,占用较高的CPU时间。

一、GDS:依然是性能提升关键引擎

1.不开启 GDS 的数据路径(传统 IO 路径)

在这种模式下,数据移动遵循标准的 Linux 异步/同步 IO 规范,CPU 是整个过程的"搬运工"和"协调员"。

1.存储提取:数据从 NVMe SSD 进入 PCIe 控制器。

2.内核拷贝:CPU 介入,将数据从硬件拷贝到操作系统内核缓冲区(Page Cache)。

3.用户拷贝:CPU 再次将数据从内核空间拷贝到用户空间地址(LPDDR5x 内存)。

4.计算就绪:经过两次内存拷贝后,GPU 开始从统一内存中读取数据进行计算。

痛点:由于 CPU 频繁参与内存复制和上下文切换,导致 IO 延迟高,且占用了原本用于数据预处理的 CPU 算力。

2.开启GDS的数据路径

1.控制下发:CPU 仅通过 cuFile API 发送指令,随后退出数据传输路径。

2.硬件直传:存储设备的 DMA 引擎直接与 GB10 内存控制器握手。

3.直接落地:数据绕过 CPU 缓冲区,直接写入 GPU 寻址的 LPDDR5x 物理地址。

4.零拷贝交付:数据落地即就绪,GPU 通过 NVLink-C2C 以极高带宽直接访问。

优势:零拷贝(Zero-copy)。彻底释放了 CPU ,消除了内存拷贝开销,使整体 IO 吞吐量和并发能力实现翻倍增长。

GDS将数据I/O路径的主导者由CPU直接变成GPU,在尤其在高并发、小文件随机读场景下,GDS能够带来2倍以上的性能提升。

GDS 支持本地 NVMe、网络存储(NVMe-oF),已深度集成到 CUDA 生态中。

二、NVMe-oF:外部数据最快到达GPU关键技术

绿算技术GP Spark 支持通过 NVMe-oF/RDMA 协议实现硬件级存储卸载,并完整兼容 GPUDirect Storage(GDS),可将存储的数据就近直供给 DGX Spark 的 GPU 使用,实现高性能远端存储架构。

该存储方案具备两大核心价值:

1.数据共享与集中管理

统一存储可同时为多台 DGX Spark 提供高速数据共享服务,并支持海量数据的安全集中存储。

2.缓解本地存储损耗与扩展瓶颈

DGX Spark 本地 NVMe 盘在 AI 应用高频读写场景下,寿命消耗极快;而 GP Spark 作为外置共享存储,可灵活扩展容量,并支持便捷更换存储介质,大幅降低运维与硬件替换成本。

在性能层面:

通过 NVMe-oF 远程访问存储中的 NVMe SSD,性能可接近本地直连盘水平;基于 RDMA/ROCE 网络传输,进一步实现低时延、高带宽的数据访问,满足模型训练推理对 IO 的严苛要求。

三、DGX Spark + GP Spark(NVMe-oF全闪)融合架构

1.架构核心:通过GP Spark构建 面向DGX Spark GPU直通的数据通道。

2.应用场景

模型训练推理/RAG知识库/多模态AI(图像/视频)/小龙虾本地部署/家庭AI算力中心

四:总结:

AI基础设施演进过程中,统一内存不会取代GDS;NVMe-oF更不会因为GPU变强而消失;三者正在形成新的"黄金三角";而 DGX Spark + GP Spark 的组合,正是这一架构的一个现实落地形态。

相关推荐
leon_teacher1 分钟前
HarmonyOS 6 Navigation 实战:NavPathStack 路由架构与 onShown 跨页状态同步方案
华为·架构·harmonyos
qcx233 分钟前
【AI Agent实战】多 Agent 编排架构:五层模型与 RL 优化
网络·人工智能·ai·架构·prompt·agent
fengxin_rou7 分钟前
Feed 三级缓存架构详解:分层设计、缓存一致性与高性能实战
spring·缓存·架构
code_pgf11 分钟前
模态预融合(Modality-Pre-Fusion)在 sVLM 中的具体应用、优势及主要区别
人工智能·架构
GIOTTO情17 分钟前
Infoseek字节探索传播溯源技术,解析危机公关舆情拓扑管控方案
架构
我是小邵34 分钟前
从 Supabase 迁移到 AWS 的云架构演进实践
架构·云计算·aws
闵孚龙1 小时前
Claude Code 缓存架构与断点设计全解析:Prompt Cache、上下文工程、Token 成本优化、AI Agent 长会话性能治理
人工智能·缓存·架构·prompt·claude
SZLSDH1 小时前
数字孪生IOC的“双引擎”架构:当业务编排遇上渲染管线,如何实现场景适配?
数据库·ai·架构·数字孪生·数据可视化·智能体
2601_957786771 小时前
全域矩阵系统运维基石:全链路可观测性技术架构与实践
矩阵·架构·全链路可观测性·分布式追踪
学习,学习,在学习1 小时前
Q工控仪器程序框架设计详解(工控)
c++·qt·架构·qt5