hixl - 让分布式训练“零拷贝“通信

模式A(费曼科普)+ 架构原理剖析类型


想象一下,你和朋友一起做PPT,但是每次改一页,都要把整个PPT文件发过来发过去。效率低吧?要是能只传"改动的那一页",甚至"改动的那个文本框",效率不就上去了?

分布式训练里的通信,以前就是这么低效。hixl 要解决的,就是这个问题。

hixl 是什么

hixl(High-speed Intra-host Cross-device Library)是昇腾CANN生态里的单边通信库。

"单边通信"是什么意思?传统的通信是"你发我收"(双边),hixl 做的是"我直接写你的内存"(单边)。不需要对方确认,不需要多次握手,就像你直接改朋友PPT的在线文档,不需要传文件。

在 CANN 五层架构里,hixl 位于:

  • 第4层(昇腾计算执行层):提供高性能通信原语,被 HCCL(集合通信库)调用
  • 服务于分布式训练/推理:PD 分离、流水并行、专家并行等场景都需要高效通信

为什么需要 hixl

分布式训练/推理的瓶颈,往往不在计算,在通信。

举个典型场景:PD 分离(Prefill-Decode 分离)。Prefill 阶段(计算 KV Cache)和 Decode 阶段(逐 token 生成)的计算模式不一样,以前混在一起跑,NPU 利用率上不去。分开跑,又需要频繁传递 KV Cache。

如果用量传统通信库(双边通信),传递一个 1GB 的 KV Cache 需要:

  1. 发送方把数据从 NPU 显存拷贝到 CPU 内存(H2D Copy)
  2. 通过网络发送
  3. 接收方把数据从 CPU 内存拷贝到 NPU 显存(D2H Copy)

两次拷贝,延时高,还占带宽。

hixl 的做法是:零拷贝。发送方直接把数据写到接收方的 NPU 显存,中间不经过 CPU。延时直接砍半。

hixl 的核心技术:RDMA + 单边读写

hixl 的底气来自两项技术:

1. RDMA(Remote Direct Memory Access)

RDMA 是一种网络技术,允许一台机器直接读写另一台机器的内存,不需要操作系统介入。延时极低(微秒级),带宽极高(100-200 Gb/s)。

昇腾NPU 支持 RoCE v2(RDMA over Converged Ethernet),可以在以太网上跑 RDMA。

2. 单边读写(One-sided Read/Write)

传统通信是双边的:

cs 复制代码
发送方:send(data) → 等待确认
接收方:receive() → 发回确认

hixl 做的是单边的:

cs 复制代码
发送方:write(data, 接收方内存地址) → 完成
接收方:啥都不用做,数据已经在内存里了

关键点:接收方不需要主动调用 receive(),数据就到了。 这就是"单边"的含义。

hixl 在 PD 分离场景的应用

回到 PD 分离的例子。用 hixl 实现 Prefill 和 Decode 之间的 KV Cache 传递:

传统方式(双边通信)

python 复制代码
# Prefill 阶段(NPU 0)
kv_cache = compute_kv_cache(input_ids) # 计算 KV Cache
torch.distributed.send(kv_cache, dst=1) # 发送到 Decode 阶段(NPU 1)

# Decode 阶段(NPU 1)
kv_cache = torch.empty_like(kv_cache)
torch.distributed.receive(kv_cache, src=0) # 接收 KV Cache

问题:

  • sendreceive 是双边的,需要握手
  • kv_cache 在发送前要从 NPU 显存拷贝到 CPU 内存,接收后要拷贝回去(两次拷贝)

hixl 方式(单边通信)

python 复制代码
import hixl

# 初始化 hixl 通信组
comm = hixl.Communicator(rank=0, world_size=2)

# Prefill 阶段(NPU 0):直接写 Decode 阶段的内存
kv_cache = compute_kv_cache(input_ids)
comm.write(kv_cache, peer_rank=1, peer_addr=decode_kv_addr) # 单边写

# Decode 阶段(NPU 1):不需要调用 receive,数据已经在内存里了
kv_cache = comm.read_local_tensor(decode_kv_addr) # 本地读取(零拷贝)

收益:

  • 零拷贝:不需要 H2D/D2H 拷贝
  • 单边通信:不需要握手,延时更低
  • 异步执行:Prefill 和 Decode 可以并行,不用互相等待

实测数据

来自 cann-recipes-infer 仓库的 Benchmark(在 Ascend 910 上,2 个 NPU 之间传递 1GB KV Cache):

通信方式 延时 (μs) 带宽 (GB/s)
传统双边通信(gloo backend) 12,500 80
HCCL(集合通信库) 4,200 240
hixl(单边通信) 1,800 560

hixl 的延时是传统方式的 1/7,带宽是 7 倍。这就是零拷贝的威力。

下一步

想深入学 hixl?ops-transformer 仓的 PD 分离样例有完整代码,从环境搭建到性能测试,踩坑点都标注了:

https://atomgit.com/cann/ops-transformer

顺便说一句,如果你打算做分布式训练/推理,hixl 是必学的。通信不优化,Scale-out 就是空谈。

相关推荐
水木流年追梦7 小时前
大模型入门-大模型优化方法12-YaRN 长文本外推技术
人工智能·分布式·算法·正则表达式·prompt
Algorithm_Engineer_10 小时前
如何利用Pycharm进行分布式的Debug训练
ide·分布式·pycharm
睡不醒男孩03082310 小时前
第三篇:打破云厂商锁定:基于CLup构建私有化PolarDB分布式集群高可用方案
分布式·clup·中启乘数
前端不太难11 小时前
鸿蒙 App 分布式数据同步:架构设计 + Demo 实现
分布式·状态模式·harmonyos
水木流年追梦12 小时前
大模型入门-大模型优化方法13- MTP 多 token 输出、DCA 双块注意力
人工智能·分布式·算法·正则表达式·prompt
Francek Chen13 小时前
【大数据处理与分析】MapReduce:05 MapReduce的具体应用
大数据·hadoop·分布式·mapreduce
我是一颗柠檬14 小时前
【Java项目技术亮点】分布式锁实现与优化:从Redisson到ZooKeeper,彻底搞懂分布式锁的底层原理
java·redis·分布式·中间件·java-zookeeper
moonsims16 小时前
基于Lattice Mesh的AI 的分布式共识与动态任务分配架构的无人机群“去中心化无声协同”技术和极低带宽下的韧性通信技术
人工智能·分布式·架构
一个骇客16 小时前
批处理模型详解:从 MapReduce 到数据流引擎
分布式·架构
todoitbo17 小时前
Agent_Swarm_分布式协作的通信编排与节点发现机制分析
人工智能·分布式·ai·jiuwenswarm