hixl - 让分布式训练“零拷贝“通信

模式A(费曼科普)+ 架构原理剖析类型


想象一下,你和朋友一起做PPT,但是每次改一页,都要把整个PPT文件发过来发过去。效率低吧?要是能只传"改动的那一页",甚至"改动的那个文本框",效率不就上去了?

分布式训练里的通信,以前就是这么低效。hixl 要解决的,就是这个问题。

hixl 是什么

hixl(High-speed Intra-host Cross-device Library)是昇腾CANN生态里的单边通信库。

"单边通信"是什么意思?传统的通信是"你发我收"(双边),hixl 做的是"我直接写你的内存"(单边)。不需要对方确认,不需要多次握手,就像你直接改朋友PPT的在线文档,不需要传文件。

在 CANN 五层架构里,hixl 位于:

  • 第4层(昇腾计算执行层):提供高性能通信原语,被 HCCL(集合通信库)调用
  • 服务于分布式训练/推理:PD 分离、流水并行、专家并行等场景都需要高效通信

为什么需要 hixl

分布式训练/推理的瓶颈,往往不在计算,在通信。

举个典型场景:PD 分离(Prefill-Decode 分离)。Prefill 阶段(计算 KV Cache)和 Decode 阶段(逐 token 生成)的计算模式不一样,以前混在一起跑,NPU 利用率上不去。分开跑,又需要频繁传递 KV Cache。

如果用量传统通信库(双边通信),传递一个 1GB 的 KV Cache 需要:

  1. 发送方把数据从 NPU 显存拷贝到 CPU 内存(H2D Copy)
  2. 通过网络发送
  3. 接收方把数据从 CPU 内存拷贝到 NPU 显存(D2H Copy)

两次拷贝,延时高,还占带宽。

hixl 的做法是:零拷贝。发送方直接把数据写到接收方的 NPU 显存,中间不经过 CPU。延时直接砍半。

hixl 的核心技术:RDMA + 单边读写

hixl 的底气来自两项技术:

1. RDMA(Remote Direct Memory Access)

RDMA 是一种网络技术,允许一台机器直接读写另一台机器的内存,不需要操作系统介入。延时极低(微秒级),带宽极高(100-200 Gb/s)。

昇腾NPU 支持 RoCE v2(RDMA over Converged Ethernet),可以在以太网上跑 RDMA。

2. 单边读写(One-sided Read/Write)

传统通信是双边的:

cs 复制代码
发送方:send(data) → 等待确认
接收方:receive() → 发回确认

hixl 做的是单边的:

cs 复制代码
发送方:write(data, 接收方内存地址) → 完成
接收方:啥都不用做,数据已经在内存里了

关键点:接收方不需要主动调用 receive(),数据就到了。 这就是"单边"的含义。

hixl 在 PD 分离场景的应用

回到 PD 分离的例子。用 hixl 实现 Prefill 和 Decode 之间的 KV Cache 传递:

传统方式(双边通信)

python 复制代码
# Prefill 阶段(NPU 0)
kv_cache = compute_kv_cache(input_ids) # 计算 KV Cache
torch.distributed.send(kv_cache, dst=1) # 发送到 Decode 阶段(NPU 1)

# Decode 阶段(NPU 1)
kv_cache = torch.empty_like(kv_cache)
torch.distributed.receive(kv_cache, src=0) # 接收 KV Cache

问题:

  • sendreceive 是双边的,需要握手
  • kv_cache 在发送前要从 NPU 显存拷贝到 CPU 内存,接收后要拷贝回去(两次拷贝)

hixl 方式(单边通信)

python 复制代码
import hixl

# 初始化 hixl 通信组
comm = hixl.Communicator(rank=0, world_size=2)

# Prefill 阶段(NPU 0):直接写 Decode 阶段的内存
kv_cache = compute_kv_cache(input_ids)
comm.write(kv_cache, peer_rank=1, peer_addr=decode_kv_addr) # 单边写

# Decode 阶段(NPU 1):不需要调用 receive,数据已经在内存里了
kv_cache = comm.read_local_tensor(decode_kv_addr) # 本地读取(零拷贝)

收益:

  • 零拷贝:不需要 H2D/D2H 拷贝
  • 单边通信:不需要握手,延时更低
  • 异步执行:Prefill 和 Decode 可以并行,不用互相等待

实测数据

来自 cann-recipes-infer 仓库的 Benchmark(在 Ascend 910 上,2 个 NPU 之间传递 1GB KV Cache):

通信方式 延时 (μs) 带宽 (GB/s)
传统双边通信(gloo backend) 12,500 80
HCCL(集合通信库) 4,200 240
hixl(单边通信) 1,800 560

hixl 的延时是传统方式的 1/7,带宽是 7 倍。这就是零拷贝的威力。

下一步

想深入学 hixl?ops-transformer 仓的 PD 分离样例有完整代码,从环境搭建到性能测试,踩坑点都标注了:

https://atomgit.com/cann/ops-transformer

顺便说一句,如果你打算做分布式训练/推理,hixl 是必学的。通信不优化,Scale-out 就是空谈。

相关推荐
风吹夏回13 天前
RabbitMQ 核心术语 + Python pika 方法完整讲解
分布式·python·rabbitmq
风吹夏回13 天前
RabbitMQ 三种模式入门:HelloWorld、WorkQueue、PubSub
分布式·rabbitmq·ruby
霸道流氓气质13 天前
分布式追踪与 RequestId 传播完全指南
分布式
cheems952713 天前
[RabbitMQ高级特性] 消息确认机制:从 Ready / Unacked 到 basicAck、basicReject、basicNack 的底层拆解
分布式·rabbitmq·ruby
枫华落尽13 天前
【Hadoop01-完全分布式运行模式】
分布式
隔壁阿布都13 天前
ShedLock 分布式定时任务锁框架介绍
spring boot·分布式
文艺倾年13 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
ACP广源盛1392462567313 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
guslegend13 天前
第1章:初始Kafka
分布式·kafka
ACP广源盛1392462567314 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark