hixl - 让分布式训练“零拷贝“通信

模式A（费曼科普）+ 架构原理剖析类型

想象一下，你和朋友一起做PPT，但是每次改一页，都要把整个PPT文件发过来发过去。效率低吧？要是能只传"改动的那一页"，甚至"改动的那个文本框"，效率不就上去了？

分布式训练里的通信，以前就是这么低效。hixl 要解决的，就是这个问题。

hixl 是什么

hixl（High-speed Intra-host Cross-device Library）是昇腾CANN生态里的单边通信库。

"单边通信"是什么意思？传统的通信是"你发我收"（双边），hixl 做的是"我直接写你的内存"（单边）。不需要对方确认，不需要多次握手，就像你直接改朋友PPT的在线文档，不需要传文件。

在 CANN 五层架构里，hixl 位于：

第4层（昇腾计算执行层）：提供高性能通信原语，被 HCCL（集合通信库）调用
服务于分布式训练/推理：PD 分离、流水并行、专家并行等场景都需要高效通信

为什么需要 hixl

分布式训练/推理的瓶颈，往往不在计算，在通信。

举个典型场景：PD 分离（Prefill-Decode 分离）。Prefill 阶段（计算 KV Cache）和 Decode 阶段（逐 token 生成）的计算模式不一样，以前混在一起跑，NPU 利用率上不去。分开跑，又需要频繁传递 KV Cache。

如果用量传统通信库（双边通信），传递一个 1GB 的 KV Cache 需要：

发送方把数据从 NPU 显存拷贝到 CPU 内存（H2D Copy）
通过网络发送
接收方把数据从 CPU 内存拷贝到 NPU 显存（D2H Copy）

两次拷贝，延时高，还占带宽。

hixl 的做法是：零拷贝。发送方直接把数据写到接收方的 NPU 显存，中间不经过 CPU。延时直接砍半。

hixl 的核心技术：RDMA + 单边读写

hixl 的底气来自两项技术：

1. RDMA（Remote Direct Memory Access）

RDMA 是一种网络技术，允许一台机器直接读写另一台机器的内存，不需要操作系统介入。延时极低（微秒级），带宽极高（100-200 Gb/s）。

昇腾NPU 支持 RoCE v2（RDMA over Converged Ethernet），可以在以太网上跑 RDMA。

2. 单边读写（One-sided Read/Write）

传统通信是双边的：

cs 复制代码

发送方：send(data) → 等待确认
接收方：receive() → 发回确认

hixl 做的是单边的：

cs 复制代码

发送方：write(data, 接收方内存地址) → 完成
接收方：啥都不用做，数据已经在内存里了

关键点：接收方不需要主动调用 receive()，数据就到了。 这就是"单边"的含义。

hixl 在 PD 分离场景的应用

回到 PD 分离的例子。用 hixl 实现 Prefill 和 Decode 之间的 KV Cache 传递：

传统方式（双边通信）

python 复制代码

# Prefill 阶段（NPU 0）
kv_cache = compute_kv_cache(input_ids) # 计算 KV Cache
torch.distributed.send(kv_cache, dst=1) # 发送到 Decode 阶段（NPU 1）

# Decode 阶段（NPU 1）
kv_cache = torch.empty_like(kv_cache)
torch.distributed.receive(kv_cache, src=0) # 接收 KV Cache

问题：

send 和 receive 是双边的，需要握手
kv_cache 在发送前要从 NPU 显存拷贝到 CPU 内存，接收后要拷贝回去（两次拷贝）

hixl 方式（单边通信）

python 复制代码

import hixl

# 初始化 hixl 通信组
comm = hixl.Communicator(rank=0, world_size=2)

# Prefill 阶段（NPU 0）：直接写 Decode 阶段的内存
kv_cache = compute_kv_cache(input_ids)
comm.write(kv_cache, peer_rank=1, peer_addr=decode_kv_addr) # 单边写

# Decode 阶段（NPU 1）：不需要调用 receive，数据已经在内存里了
kv_cache = comm.read_local_tensor(decode_kv_addr) # 本地读取（零拷贝）

收益：

零拷贝：不需要 H2D/D2H 拷贝
单边通信：不需要握手，延时更低
异步执行：Prefill 和 Decode 可以并行，不用互相等待

实测数据

来自 cann-recipes-infer 仓库的 Benchmark（在 Ascend 910 上，2 个 NPU 之间传递 1GB KV Cache）：

通信方式	延时 (μs)	带宽 (GB/s)
传统双边通信（gloo backend）	12,500	80
HCCL（集合通信库）	4,200	240
hixl（单边通信）	1,800	560

hixl 的延时是传统方式的 1/7，带宽是 7 倍。这就是零拷贝的威力。

下一步

想深入学 hixl？ops-transformer 仓的 PD 分离样例有完整代码，从环境搭建到性能测试，踩坑点都标注了：

https://atomgit.com/cann/ops-transformer

顺便说一句，如果你打算做分布式训练/推理，hixl 是必学的。通信不优化，Scale-out 就是空谈。