技术栈
超节点
Tassel_YUE
13 天前
人工智能
·
数据中心
·
超节点
超节点技术深度篇五:长上下文推理与 KV Cache 池化:从显存压力到 PD 分离调度
本文基于以下三份报告进行汇总、解释和二次整理:前几篇更多讨论训练:Scale-Up、统一内存、并行通信和 MoE。这一篇转到推理,但不要把推理理解成“模型部署简单版”。
Tassel_YUE
17 天前
网络
·
人工智能
·
数据中心
·
超节点
超节点技术深度篇三:大模型并行通信拆解:DP、TP、PP、EP、CP 到底在网络里发生了什么
本文基于以下三份报告进行汇总、解释和二次整理:这篇文章从训练系统视角拆通信路径。大模型并行通信 的意思是:当一个模型、一个 batch 或一段上下文被拆到多张 GPU/NPU 上执行时,这些设备之间为了保持计算结果一致、传递中间状态、同步参数或交换 token 而产生的数据流。
百度智能云技术站
19 天前
百度百舸
·
国产算力
·
超节点
·
vllm-kunlun
·
智算运维
国产 AI Infra 规模化落地实践:软硬协同与极致加速
本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - AI Infra 专题论坛,百度智能云混合云部总经理杜海的同名主题演讲。
Tassel_YUE
20 天前
人工智能
·
数据中心
·
超节点
技术深度篇二:超节点里的统一内存编址:从 RDMA、DMA 到 Load/Store 语义
本文基于以下三份报告进行汇总、解释和二次整理:上一篇讨论了 Scale-Up 和 HBD,重点是把高频通信留在更高带宽、更低时延的域内。这一篇继续往下拆:当设备已经连得足够近,下一步要解决的是“数据如何被访问”。
Tassel_YUE
21 天前
人工智能
·
数据中心
·
超节点
超节点文章 4:MoE、长上下文与智能体:哪些 AI 负载最需要超节点?
本文基于以下三份报告进行汇总、解释和二次整理:前三篇文章里,我们已经把超节点的基本概念、Scale-Up 架构和核心技术讲了一遍。
陆嵩
4 个月前
学习
·
算法
·
amd
·
重排
·
超节点
·
supernadal
·
消去树
从一个小例子学习方程组求解超节点(supernodal)算法
以 Cholesky 分解超节点方法举例说明,LULULU 和 LDLTLDL^TLDLT 类似。考虑对称正定(SPD)线性方程组求解问题 x=b,A=AT,A≻0 x=b, \quad A=A^T, A \succ 0 x=b,A=AT,A≻0 Cholesky 分解法求解方程步骤分两段:
我是有底线的