CANN HIXL 通信库深度解析：单边点对点数据传输、异步模型与异构设备间显存直接访问

CANN 组织链接： https://atomgit.com/cann
HIXL 仓库链接： https://gitcode.com/cann/hixl

在多机多卡（Multi-Node/Multi-Device）的分布式训练和推理场景中，高效、低延迟的数据传输是保证模型扩展性的核心要素。HIXL（Huawei Xfer Library）是 CANN 平台提供的一款专门用于点对点（Point-to-Point）数据传输的高性能单边通信库。

HIXL 的设计目标是提供一种比传统 MPI 消息传递更低延迟、更灵活的显存间数据传输机制。它直接建立在底层驱动和硬件通信能力之上，为上层如 HCOMM 或 HCCL 提供了基础的、高效的显存传输原语。

HIXL 的核心优势在于其单边通信模型，这使得数据传输过程与接收端计算过程可以解耦。

HIXL 提供了远程写（Put）和远程读（Get）操作。

远程写入（Put）： 源 PE（Processing Element）发起数据传输指令，直接将本地显存（HBM）的数据写入目标 PE 的显存。目标 PE 上的计算核心无需执行显式的接收操作，其工作流程不受通信操作的即时干扰。
远程读取（Get）： 源 PE 主动从目标 PE 的显存中抓取数据到本地。

HIXL 的所有核心传输接口默认为异步非阻塞模式。

指令下发即返回： 开发者调用传输函数后，库立即返回控制权。底层硬件（DMA 引擎或 RDMA 引擎）在后台异步执行数据搬运。
同步屏障： 只有当数据传输的完整性需要被验证时（例如，在后续计算需要该数据时），开发者才需要调用同步原语（如 Barrier 或 Quiet 操作）等待传输完成。这种异步性是实现通信与计算重叠（Overlapping）的基础。

HIXL 的高性能主要源于其对昇腾架构中高速互联硬件的直接利用。

HIXL 库直接利用了硬件支持的远程直接内存存取（RDMA）能力。

内核旁路： 通信指令绕过了操作系统的内核协议栈。数据从源端 NPU 的 HBM 直接通过网络适配器（NIC）或片间互联（HCCS）传输到目的端 NPU 的 HBM。
Host CPU 卸载： 整个数据传输过程由 DMA/RDMA 引擎驱动，Host CPU 仅负责指令的初始下发和最终完成的硬件中断接收，从而避免了 CPU 在数据搬运过程中的参与开销。

HIXL 能够感知集群的物理拓扑结构。

在单边通信模型中，如何保证远程写入的数据对接收方是可见的（Visibility）是关键。

HIXL 提供了细粒度的内存同步控制。

shmem_fence 语义： 对应于 OpenSHMEM 标准，fence 操作确保了当前 PE 侧发出的所有数据写入操作，在远端 PE 能够被观察到之前，本地的后续操作不会提前执行。
Quiet 操作： 用于确认所有针对特定目标 PE 的传输都已完成，是实现严格顺序一致性保证的关键步骤。

HIXL 提供了基于硬件的原子内存操作接口。

存储侧计算： 当需要同步计数器或更新共享参数时，HIXL 支持将原子加、原子比较并交换等操作直接下发到目标 PE 的内存控制器或 RDMA 引擎上执行。这避免了传统双边通信中数据往返导致的同步延迟。

使用 HIXL 库需要确保 CANN 运行时环境（Runtime）和底层驱动正确配置了通信资源。

HIXL 依赖于驱动层已正确初始化 HCCS 或 RoCE 驱动。在应用启动时，必须调用初始化函数，确保通信域（Domain）建立，并且所有 PE 都成功分配了对称内存堆（Symmetric Heap）。

开发者应使用 Profiling 工具分析 HIXL 传输任务的时间占比。

延迟分析： 关注单次 shmem_put 操作的端到端延迟。如果延迟较高，需要检查 Host 侧的 CPU 负载以及网络链路的拥塞情况。
带宽利用率： 监测 MTE 或 NIC 的数据吞吐量。如果带宽利用率低于物理链路的理论值，可能需要调整通信分块大小（Packet Size），以更好地适配 RDMA 的传输粒度。

CANN HIXL 库通过引入基于 OpenSHMEM 标准的 PGAS 模型，为昇腾平台提供了高性能、低延迟的单边点对点通信能力。它通过硬件抽象和异步指令调度，实现了计算与通信的深度解耦和重叠，是构建大规模分布式训练和推理系统的关键底层通信支撑。

CANN 组织链接： https://atomgit.com/cann
HIXL 仓库链接： https://gitcode.com/cann/hixl