王清珺,openFuyao 社区 AI Inference SIG Maintainer,深耕云原生分布式推理、软硬协同优化与昇腾/+鲲鹏算力生态,主导 InferNex 推理加速平台的设计与开源。
摘要
大模型推理正从"单卡部署"迈向"百卡集群服务",但超长上下文 TTFT 延迟高达十秒级、异构算力利用率不足 50%、集群单点故障恢复分钟级三大痛点制约规模化落地。InferNex 是 openFuyao 社区首个面向昇腾 NPU + 灵衢总线(华为自研高速互联总线,支持统一编址和零拷贝内存语义访问)的云原生分布式 LLM 推理加速平台,以智能路由、计算-显存解耦、分布式多级缓存、近实时可观测四大引擎直击痛点------在前缀一致率 70% 场景下实现 TTFT 降低 43%、吞吐提升 50%、故障零损耗切流 <10s,在昇腾硬件感知调度和灵衢总线零拷贝直访上构建了 llm-d、NVIDIA Dynamo 均未覆盖的技术优势。

一、痛点驱动的核心特性

InferNex全景架构
痛点一:路由盲目,重复计算浪费算力
场景:RAG/Agent 应用中,大量请求共享 system prompt 或长文档前缀。传统 Round Robin 轮询无视 KVCache 分布,每次请求都重新计算已缓存的前缀。在 90% 前缀命中场景下,理论上可造成超过 30% 的无效算力浪费。
解决------Hermes-Router 多因素智能路由:
基于 Kubernetes Gateway API Inference Extension (GIE) 框架构建四级流水线路由架构(Filter → Scorer → Picker → PreRequest Hook),实现三个维度的协同感知:
- KVCache 感知:查询全局 Cache-indexer 前缀命中信息,将请求路由到缓存命中率最高的 Prefill 实例,避免重复预填充
- 算力拓扑感知:感知昇腾 910B/910C HCCS 互联拓扑与 NPU 实时负载,实现异构算力等效调度
- 容灾切流:协同 Eagle-Eye 亚健康检测,预防性自动切流,故障切换零性能损耗
实测数据(v25.09,昇腾 910B4 集群,前缀一致率 70%):
| 前缀命中率 | TPS 提升 | TTFT 改善 |
|---|---|---|
| 30% | +1% | 基线持平 |
| 90% | +45% | -30% |
v26.03 集成测试进一步验证:智能路由 + 容灾场景下,P99 TTFT 降低 2.9%,P99 E2EL 降低 3.5%,且容灾切流过程零性能中断。
痛点二:长上下文膨胀 + Prefill/Decode 资源错配
场景:企业级 RAG 应用常需 32K-128K 上下文,KVCache 显存随上下文线性增长(以 Llama2-7B 为例,4K 上下文即占用约 2GB 显存)。同时 Prefill(计算密集)和 Decode(显存带宽密集)资源需求截然不同,固定配比导致算力浪费。
解决------KVCacheX 分布式多级缓存 + PD-Orchestrator 计算显存解耦:
KVCacheX 基于 Mooncake 构建四级缓存层次,将 KVCache 从单卡 HBM 释放到集群级共享资源池:
核心能力 :
- 热点缓存加速:跨节点 KVCache 热点本地缓存,接口延迟降低 64-76%
- 灵衢总线直访:OFIXL-Connector 利用灵衢统一编址能力,绕过 TCP/RDMA 协议栈,零拷贝 KVCache 直访
- 全局索引:Cache-indexer 维护集群级 KVCache 位置元数据,支持跨节点可见与调度
PD-Orchestrator 实现计算-显存解耦与弹性伸缩:
- P/D 分离部署:P 节点专注高吞吐预填充,D 节点专注低延迟解码,独立扩缩容
- SLO 驱动弹性:基于 Eagle-Eye 秒级指标,pdAutoScaler 自动调整 P/D 配比
- 潮汐混部:白天推理、夜间训练,提升集群综合利用率
- 动态 PD 组扩缩容:ResourceScalingGroup(RSG)抽象资源管理,按比例动态 PD 扩缩
痛点三:百卡集群故障频发,恢复慢且不可见
场景:百卡级推理集群中硬件故障率显著上升,大 EP 场景下单节点故障可导致整个 EP 组不可用。传统方案依赖被动故障检测,恢复时间分钟级,严重影响 SLO。
解决------Eagle-Eye 近实时可观测与智能诊断:
基于 NATS 分布式消息队列实现秒级指标推送,构建"采集-诊断-决策-执行"闭环:
- 业务运行态:吞吐率、TTFT/TPOT 延迟分位数、KVCache 命中率
- 系统运行态:Pod 资源利用率、调度事件、弹性伸缩决策链路
- 硬件健康:NPU 温度/功耗/错误码、灵衢总线互联内存管理状态
- 智能诊断引擎:阈值规则 + 异常模式识别 → 故障定界结论与处置建议
关键指标:亚健康检测 → 预防性切流 <10s,零性能损耗。
二、竞争优势:对标 llm-d 与 NVIDIA Dynamo
2.1 差异化能力矩阵
| 能力维度 | InferNex (openFuyao) | llm-d (CNCF) | Dynamo (NVIDIA) |
|---|---|---|---|
| KVCache 感知路由 | ✅ 多因素协同(缓存+算力+负载) | ✅ 基础缓存路由 | ✅ 智能路由 |
| 硬件拓扑感知 | ✅ 昇腾 HCCS/灵衢互联拓扑 | ❌ 主要面向 GPU | ❌ 主要面向 GPU |
| 分布式 KVCache | ✅ Mooncake + 灵衢零拷贝直访 | ✅ KV Cache Manager | ✅ NIXL 传输 |
| 高速互联适配 | ✅ 灵衢统一编址内存语义共享 | ❌ | NVLink/NVSwitch |
| PD 分离调度 | ✅ SLO 驱动动态配比 | ✅ 基础分离 | ✅ Disaggregated |
| 弹性伸缩 | ✅ <90s 含权重加载 + RSG 整组扩缩 | ✅ K8s HPA | ✅ 基础 scaling |
| 亚健康检测与预防性切流 | ✅ Eagle-Eye 零损耗 | ❌ | ❌ |
| 多引擎兼容 | ✅ vLLM/SGLang/TensorRT-LLM | ✅ vLLM | ✅ TRT-LLM |
| 开源生态 | ✅ 完全开源(组件可选装、可解耦) | ✅ CNCF 沙箱 | ⚠️ 核心调度闭源 |
2.2 三个维度的技术领先性
维度一:软硬协同深度------昇腾差异化的技术锚点
llm-d 和 Dynamo 均围绕 NVIDIA GPU 生态构建,调度策略与硬件拓扑解耦。InferNex 独有昇腾 NPU HCCS 互联感知 + 灵衢总线统一编址能力,在分布式 KVCache 传输场景实现零拷贝直访,绕过 TCP/RDMA 协议栈开销。这不是简单的硬件适配,而是将硬件互连特性深度融入调度决策------业界尚无多样化算力亲和的同类方案。
维度二:从被动容错到预防性容灾
百卡级推理集群中,硬件亚健康(过热、ECC 错误率上升)往往先于完全故障出现。InferNex 通过 Eagle-Eye 亚健康检测(过载降频、NPU 错误码)驱动预防性切流,在故障发生前完成流量迁移,实现 <10s 切流、零性能损耗。
维度三:全栈开源与组件解耦
NVIDIA Dynamo 核心调度组件未完全开源,部分关键能力仍绑定 NVIDIA 硬件生态。InferNex 组件全部开源(Hermes-Router、KVCacheX、Eagle-Eye、PD-Orchestrator、Elastic-Scaler),采用 K8s 原生 CRD + Helm Chart 架构,用户可自由组合和替换任何组件------这正是开源项目应有的形态:组件可选装、可解耦,避免供应商锁定。
2.3 未来技术竞争力空间
InferNex 正在布局的技术方向将进一步拉开差距:
- DSA/HA 稀疏注意力 KVCache 管理:面向 MoE、长上下文场景的稀疏 KV 数据布局与选择性驻留,业界尚无成熟方案
- 灵衢 P2P 多播权重分发:利用灵衢总线 P2P 能力实现模型权重并行分发,弹性伸缩提速 3x+
- 跨集群联邦推理调度:基于 Karmada 的跨集群分布式推理作业分发与资源编排
- 智能缓存预热:基于请求访问模式画像的预测性 KVCache 预搬移,请求到达前热点数据已就位
三、快速上手:5 分钟部署 InferNex 推理集群
InferNex 通过 Helm Chart 提供一键式集成部署,下面以昇腾 910B 集群上的 Qwen3-8B PD 分离推理场景为例,展示从零开始的完整流程。
3.1 环境准备
硬件要求:
- 每个推理节点至少一张昇腾 910B4 NPU
- 每节点至少 32GB 内存、4 CPU 核
- 节点间 RoCE 网络互通(200GE+)
软件要求:
- Kubernetes v1.33.0+
- 已安装 npu-operator(昇腾设备插件)
- Helm 3.x
- 在线安装需能访问 oci://cr.openfuyao.cn 镜像仓库
3.2 一键部署
InferNex 提供三种部署方式,按需选择:
# 方式一:OCI 镜像仓库(推荐在线环境)
bash
helm pull oci://cr.openfuyao.cn/charts/infernex --version 0.21.1
tar -xzvf infernex-0.21.1.tgz
helm install -n ai-inference infernex ./infernex
# 方式二:GitCode 源码构建
bash
git clone https://gitcode.com/openFuyao/InferNex.git
cd InferNex/charts/infernex
helm dependency build
helm install -n ai-inference infernex .
# 方式三:离线部署(适用于隔离网络环境)
bash
wget https://openfuyao.obs.cn-north-4.myhuaweicloud.com/openFuyao/ext-components/InferNex/openFuyao-infernex-offline-v26.03.tar.gz
tar -xzvf openFuyao-infernex-offline-v26.03.tar.gz
cd openFuyao-infernex-offline-v26.03 && bash install.sh
helm install -n ai-inference infernex ./infernex
参考文献
1 openFuyao AI Inference SIG. InferNex 技术专家技术规划报告. sig-ai-inference/docs/plans/2026-03-31-infernex-technical-roadmap-design.md
2 AI Inference SIG. AI推理优化性能测试报告 v25.09 --- Hermes-Router KVCache-aware 路由策略基准测试. sig-ai-inference/reports/performance/
3 AI Inference SIG. Mooncake Store 热点缓存性能测试报告 v25.12 --- 端到端 LLM 服务 TTFT/吞吐提升验证. sig-ai-inference/reports/performance/
4 AI Inference SIG. v26.03 AI推理集成部署特性性能基线对比测试报告 --- 智能路由容灾与弹性伸缩验证. sig-ai-inference/reports/performance/v26.03/
5 openFuyao AI Inference SIG. InferNex 系统全景架构图 (OFEP-0020). sig-ai-inference/images/2026-05-12-ofep0020-architecture/
6 openFuyao. AI推理集成部署用户指南. InferNex docs
7 llm-d Project. llm-d: High-performance distributed inference on Kubernetes. github.com/llm-d/llm-d
8 NVIDIA. NVIDIA Dynamo: High-throughput inference serving. github.com/ai-dynamo/dynamo
9 Mooncake. kvcache-ai/Mooncake: A KVCache-centric disaggregated architecture for LLM serving. github.com/kvcache-ai/Mooncake
10 vLLM Project. vLLM: High-throughput and memory-efficient LLM serving. github.com/vllm-project/vllm
11 Kubernetes Gateway API Inference Extension. kubernetes-sigs/gateway-api-inference-extension