在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。
关键组成部分
-
CCUM和CCUA单元
-
CCUM:控制单元,解析任务描述符并执行通信任务。
-
CCUA:数据处理单元,处理数据传输和规约。
-
-
基本构成单元
-
Memory Slice (MS):4KB片上缓存。
-
Gather Scatter Address (GSA):存储内存地址的寄存器。
-
General Purpose Register (Xn):存储数据长度和循环控制信息。
-
Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。
-
功能特性亮点
CCU支持完整的指令集 ,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作 通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持

B站直播预约链接:点击预约