CANN hixl 单边通信库——PD 分离架构下的跨设备通信优化实践在大模型推理场景中,PD 分离(Prologue-Data 分离)架构已成为提升 Prefill 与 Decode 阶段资源利用率的关键设计。Prefill 阶段负责处理用户输入 prompt 的 token 预填充,计算密集;Decode 阶段负责自回归生成下一个 token,访存密集。将二者拆分到不同 NPU 设备上执行,可以显著提高硬件利用率、降低单卡峰值内存。然而,跨设备通信成为制约 PD 分离性能的瓶颈——Prefill 设备需要频繁地将 KV Cache、attention 中间结果等数据传输