ZStack-亚格DPU-软硬一体新纪元-PR底稿-v8.0-技术爱好者风格

DPU 加速弹性裸金属:让性能少走一层路

原文链接:https://mp.weixin.qq.com/s/bxXKkqlcETr375ktNhGqVQ

在 ZStack Cloud 5.5.16 版本发布里,我们提到过一个新能力:DPU 加速弹性裸金属。当时它只是版本特性清单里的一个小节,讲的是"硬件卸载、存储引擎、性能释放"。这篇文章,我们把它展开讲清楚:DPU 接进 ZStack 之后,弹性裸金属的网络、存储和设备管理路径发生了什么变化。

DPU 加速弹性裸金属,不只是版本清单里的一个新功能

在 ZStack Cloud 5.5.16 发布文章里,DPU 加速弹性裸金属被放在"弹性裸金属增强"下面:通过 DPU 设备直接管理裸金属节点,引入硬件卸载能力,结合高性能存储引擎,降低主机 CPU 负载,提升存储 IOPS 与网络吞吐能力。

这段话不长,但背后其实是一次弹性裸金属架构的调整。

ZStack Cloud 原本已经具备弹性裸金属的云化交付能力。DPU 接入之后,重点不是重新证明"裸金属能被云平台管理",而是进一步把网络、存储和隔离这些数据面能力下沉到更靠近硬件的位置:少一层网关中转,减少主机侧协议栈消耗,也减少物理机硬件差异带来的适配成本。

为什么裸金属还需要 DPU

10G 网络时代,OVS 转发、存储协议栈、虚拟化中断处理这些开销还能接受。到了 25G,问题会被放大。

在 25G 网络和高性能云盘场景下,宿主机 CPU 往往不只承担业务计算,还要处理网络转发、I/O 请求和协议栈开销。流量和 I/O 压力越高,这部分数据面开销越容易被放大。它消耗的不是业务逻辑本身,而是数据包、I/O 请求和协议处理过程中的"搬运成本"。

在虚拟机里,这部分开销大家多少还能接受;但到了裸金属,就不一样了。客户买裸金属,买的就是尽可能接近物理机的性能。如果网络和存储开销还要继续占用主机 CPU,"裸金属"的价值就会被打折。

ZStack 和亚格之芯适配,目标很直接:把传统裸金属链路里那些"不该由物理机承担"的资源消耗都拿掉,让 DPU 去接网络、存储和设备侧的数据面工作。接下来,从三个典型客户场景看看我们具体解决了什么问题。

三个场景

下面三个场景,一个是当前已经落地的资源池化能力,一个是 ZStack 与亚格之芯正在共同推进的 AI 推理缓存方向,一个是高性能云盘承载方向。

场景一:GPU 物理机资源池流转

AI 智算客户要的是裸金属性能,但运营方真正头疼的,往往不是"这台机器能不能跑",而是"这批机器能不能快速交付、快速回收、快速恢复"。

GPU 服务器贵,资源周转也快。传统物理机模式下,系统安装、镜像适配、故障替换、远程排障都会拉长交付周期。一台机器出问题,往往不是简单换一台就结束:系统盘、数据盘、业务环境、网络配置、故障现场都要跟着处理。

DPU 加速弹性裸金属想解决的,是让 GPU / 高性能物理机更像一个可流转的资源池,而不是一批需要逐台照看的服务器。

维度 网关代理模式 DPU 加速模式
部署链路 需要网关节点参与 取消网关节点部署要求
系统盘交付 更依赖本地装机和镜像适配 系统盘拉远,通过云盘方式交付,减少部署时间
存储接入 依赖网关侧接入和转发 DPU 承接存储数据面
网络路径 经过额外转发链路 网络能力向端侧卸载
镜像适配 更容易受物理机硬件差异影响 减少硬件差异带来的镜像封装负担
故障恢复 故障替换时更容易涉及系统、数据和业务环境迁移 系统盘、数据盘和生命周期统一管理,降低客户数据迁移成本,提升 SLA
可视化排障 已支持弹性裸金属控制台能力,依赖镜像内 agent / VNC 组件等条件 后续在 DPU 场景补齐物理机显示透传后,可进一步提升 GPU 机器启动异常、系统卡死、黑屏 / 白屏等问题的可视化定位能力
高可用 依赖传统链路设计 支持存储、业务高可用能力演进
安全隔离 依赖网络侧配置 为端侧隔离和租户级网络能力打基础

这里的 AI 智算,不是说当前 25G DPU 已经承载训练网络或推理网络;更准确地说,是 GPU / 高性能物理机正在成为弹性裸金属资源池的典型使用对象。

这一步的价值很直接:不是让裸金属"第一次变成云资源",而是让已经云化的弹性裸金属,更容易被交付、被回收、被恢复、被排障。对 AI 智算资源池来说,性能很重要,资源流转效率同样重要。

场景二:大模型推理缓存加速(KV Cache 的下一条高速路)

长文本、智能体、多轮对话正在把大模型推理从"算得快"推向"记得住、取得快"。

推理过程中产生的 KV Cache 会随着上下文长度和并发请求快速膨胀。一旦超出 GPU 显存,就需要在主机内存、SSD 或远端存储之间换入换出。传统路径要经过文件系统、主机内核、CPU 内存和多次数据拷贝,首字延迟(TTFT)和长上下文响应速度都会被拖慢。

这个方向需要双方一起推进:亚格之芯在 DPU 侧推进推理缓存加速能力,把 KV Cache 的文件访问、存储 Client 和数据搬运从主机侧下沉到 DPU;ZStack 侧则需要把这条数据路径纳入弹性裸金属 / 智算资源池的交付、调度和运维体系里。

推理框架看到的是标准文件或存储接口,复杂的协议解析、元数据交互和缓存块传输由 DPU 承担;进一步结合 RDMA / GPUDirect,KV Cache 可以以更短路径进入 GPU 显存,减少主机 CPU 和操作系统软件栈参与。

DPU 不替代 GPU 做推理计算。它更像 GPU 旁边的"缓存数据通道",让上下文取回更快,让高并发推理少受数据搬运影响。

图中左侧是传统 KV Cache 换入换出路径,右侧是 DPU 侧承接存储 Client、协议解析和缓存块传输后的加速路径。核心变化不是让 DPU 替代 GPU 计算,而是让缓存数据搬运尽量少经过主机 CPU 和操作系统软件栈。

场景三:高性能云盘承载(数据库 / 实时分析)

数据库和实时分析系统对 IOPS、延迟和抖动都很敏感。

传统架构下,NVMe-oF、块存储协议栈和转发路径会消耗宿主机 CPU。业务越重,数据面开销越明显,CPU 越容易被"非业务计算"吃掉。

在 ZStack + 亚格 DPU 的路径里,DPU SoC 内置存储引擎承接协议解析,Guest 以 Virtio-blk 访问后端块存储。目标是让存储路径更短,让主机 CPU 尽量回到业务计算本身。

对比方向(ZStack 实验环境 / 数据库 OLTP 混合读写工况,完整数据随基准报告发布):

指标 普通 Ceph gateway 路径 DPU 加速路径 变化
4K 随机读 IOPS 更容易受 gateway CPU、LIO、rbd-nbd、网络转发限制 路径更短、队列更直接,通常更高 提升更明显
4K 随机写 IOPS 受 Ceph 副本 / 落盘和 gateway 中转双重影响 通常更高,但仍受 Ceph 副本 / 落盘链路影响 有提升
平均延迟 BM → gateway → Ceph,多一跳数据面 DPU / 主机侧更直接访问 Ceph 延迟更低
主机 / gateway CPU iSCSI initiator、TCP 栈、gateway 数据面开销更明显 主机侧 virtio-blk 开销更低,gateway 基本不在数据面 CPU 占用下降

架构上,我们做了什么

前面三个场景看起来不太一样:一个讲 GPU 物理机流转,一个讲 KV Cache,一个讲高性能云盘。但落到底层,其实都指向同一件事:DPU 不能只是插在服务器里的一张卡,它必须被 ZStack Cloud 纳入管控面,同时接住网络和存储的数据面。

所以这次适配的重点,不是单独跑通某条链路,而是把 DPU 放进弹性裸金属的完整生命周期里:实例创建、启动、停止、删除时,DPU 侧资源要同步;取消网关节点之后,原来承担转发和存储接入的链路要重构;网络、存储和设备状态也要继续被云平台看见。

ZStack Cloud 与亚格之芯 DPU(YD-025G2-A-A)的适配,分成管控面和数据面两条线。

维度 做了什么 解决什么问题
管控面 DPU 与物理机统一生命周期,DPU Agent 通过 Ansible 自动部署 云平台能看到、能纳管
存储数据面 Guest 以 Virtio-blk 直连后端块存储,DPU SoC 承接协议解析 降低主机侧存储协议开销
网络数据面 DPU 承接 OVS 卸载,业务网络逐步向端侧执行演进 减少主机 CPU 数据面负担
架构简化 DPU 加速集群取消传统网关节点部署要求 减少中转链路和额外节点依赖
运维体验 集群、实例、云盘、网卡等操作继续进入统一控制面 保留云平台原有交付体验

【架构图建议位置】

插入「ZStack Cloud + 亚格 DPU 融合架构图」。重点标出:ZStack 管控面、DPU Agent、DPU SoC、Guest 实例,以及存储卸载路径和网络卸载路径。

这套设计的重点,不是让云平台少管一点,而是在原有弹性裸金属能力之上,把原来更容易消耗主机和依赖网关的部分,逐步放到 DPU 侧处理。

当前验证范围

以下能力来自 ZStack 实验环境(3 节点集群)的当前验证范围,更大规模验证正在进行中:

能力分类 具体项 状态
集群与节点 DPU 裸金属集群创建(基于 ZStack 分布式存储) 已验证
弹性裸金属节点添加 / 硬件信息同步 已验证
实例管理 创建 / 停止 / 启动 / 重启 / 关闭电源 已验证
存储 数据盘热加载 / 卸载(在线,不停机) 已验证
磁盘在线扩容(根盘 + 数据盘) 已验证
网络 业务网卡热插拔 已验证

测试环境

text 复制代码
CPU:        Intel Xeon Gold 6430
DPU:        亚格之芯 YD-025G2-A-A(固件 v2.1.0,集成 25G 网络接口)
云平台:     ZStack Cloud v5.5.16(DPU 支持起始版本)
集群规模:   3 节点(更大规模验证进行中)
存储:       ZStack 分布式存储(ZStone)

【视频建议位置】

插入「DPU 裸金属实际操作演示视频」,展示 4 个场景:

  1. 集群创建(向导式)
  2. 实例启停(控制台统一操作体验)
  3. 磁盘热加载(在线不重启)
  4. 业务网卡热插拔

视频不用追求复杂,重点是让读者看到:这些原本容易落到线下工单里的操作,已经进入了云平台控制台。

后面还要补什么

DPU 接进云平台之后,第一步是把原有弹性裸金属能力和 DPU 数据面打通。后面要补的是更完整的云平台能力:

方向 想做什么 状态
智算业务网络隔离 补齐 VPC、子网、安全组、QoS 等租户级业务网络能力,减少核心交换机人工配置依赖 规划中
DPU 带外监控 DPU 侧 CPU / 内存 / 网卡 / 磁盘指标采集,接入 ZStack 统一监控视图 进行中
网卡 / 磁盘 QoS 管控下发网卡限速、磁盘 IOPS / 带宽限制 进行中
推理缓存加速 硬件 Virtio-FS 卸载、存储 Client 下沉、RDMA / GPUDirect 数据直达 进行中
存储路径故障切换验证 覆盖单存储节点宕机、客户端 IO 抖动、路径切换、恢复时间区间 进行中
更大规模集群验证 验证数十节点以上集群下的管控面性能和数据面稳定性 规划中

写在最后

DPU 的价值,不只是把某个 benchmark 数字跑高。

对 ZStack Cloud 来说,弹性裸金属的云化交付原本已经成立。DPU 要补上的,是性能路径、网关依赖、硬件兼容、安全隔离和高可用这些更底层的问题。

这也是 ZStack × 亚格之芯这次适配的方向:让 DPU 不只是服务器里的一张卡,而是弹性裸金属回归性能本身的一条数据面路径。云平台继续负责交付和运营,DPU 负责把网络、存储和隔离能力尽量放到更合适的位置。

欢迎关注 ZStack 技术爱好者,获取更多云平台 + 硬件加速的技术实践和前沿探索。

。*

相关推荐
Ether IC Verifier5 天前
TCP拥塞控制详解
网络·网络协议·tcp/ip·计算机网络·dpu
Ether IC Verifier10 天前
TCP/IP四层协议详解与以太网包发送过程
网络·网络协议·tcp/ip·计算机网络·dpu
Ether IC Verifier10 天前
CPU/GPU/NPU/DPU功能详解与AI应用分析
网络·人工智能·网络协议·tcp/ip·计算机网络·dpu
Ether IC Verifier1 个月前
OSI网络七层协议详细介绍
服务器·网络·网络协议·计算机网络·php·dpu
Ether IC Verifier1 个月前
RDMA常用缩写及应用详解
网络·网络协议·tcp/ip·计算机网络·dpu
Ether IC Verifier1 个月前
PCIe数据链路层详细介绍
网络·网络协议·tcp/ip·计算机网络·dpu
Ether IC Verifier1 个月前
RDMA协议详细介绍:从原理到未来发展
网络·网络协议·计算机网络·dpu
yusur4 个月前
中科驭数CEO鄢贵海:AI尚处“Day 1”,算力基建的价值外溢如同高铁
人工智能·科技·dpu·中科驭数
yusur4 个月前
边缘智算新引擎 DPU 驱动的算力革新
人工智能·科技·rdma·dpu