超节点

openFuyao使能灵衢超节点：：让容器业务丝滑释放节点能力在AI算力规模持续扩展的背景下，灵衢超节点（UB）通过共享内存、内存借用、URMA高速通信等机制，重构了计算节点内外的数据交互范式。然而，K8s原生资源模型仍以单节点为边界，缺乏对超节点总线架构及新型编程模型的原生支持，无法直接释放UB在性能与效率上的优势。

超节点技术深度篇五：长上下文推理与 KV Cache 池化：从显存压力到 PD 分离调度本文基于以下三份报告进行汇总、解释和二次整理：前几篇更多讨论训练：Scale-Up、统一内存、并行通信和 MoE。这一篇转到推理，但不要把推理理解成“模型部署简单版”。

超节点技术深度篇三：大模型并行通信拆解：DP、TP、PP、EP、CP 到底在网络里发生了什么本文基于以下三份报告进行汇总、解释和二次整理：这篇文章从训练系统视角拆通信路径。大模型并行通信的意思是：当一个模型、一个 batch 或一段上下文被拆到多张 GPU/NPU 上执行时，这些设备之间为了保持计算结果一致、传递中间状态、同步参数或交换 token 而产生的数据流。

百度智能云技术站

国产 AI Infra 规模化落地实践：软硬协同与极致加速本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - AI Infra 专题论坛，百度智能云混合云部总经理杜海的同名主题演讲。

技术深度篇二：超节点里的统一内存编址：从 RDMA、DMA 到 Load/Store 语义本文基于以下三份报告进行汇总、解释和二次整理：上一篇讨论了 Scale-Up 和 HBD，重点是把高频通信留在更高带宽、更低时延的域内。这一篇继续往下拆：当设备已经连得足够近，下一步要解决的是“数据如何被访问”。

超节点文章 4：MoE、长上下文与智能体：哪些 AI 负载最需要超节点？本文基于以下三份报告进行汇总、解释和二次整理：前三篇文章里，我们已经把超节点的基本概念、Scale-Up 架构和核心技术讲了一遍。

从一个小例子学习方程组求解超节点（supernodal）算法以 Cholesky 分解超节点方法举例说明，LULULU 和 LDLTLDL^TLDLT 类似。考虑对称正定（SPD）线性方程组求解问题 x=b,A=AT,A≻0 x=b, \quad A=A^T, A \succ 0 x=b,A=AT,A≻0 Cholesky 分解法求解方程步骤分两段：

我是有底线的