3月24日直播丨HCCL集合通信专用引擎CCU技术介绍

在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。

关键组成部分

  1. CCUM和CCUA单元

    • CCUM:控制单元,解析任务描述符并执行通信任务。

    • CCUA:数据处理单元,处理数据传输和规约。

  2. 基本构成单元

    • Memory Slice (MS):4KB片上缓存。

    • Gather Scatter Address (GSA):存储内存地址的寄存器。

    • General Purpose Register (Xn):存储数据长度和循环控制信息。

    • Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。

功能特性亮点

CCU支持完整的指令集 ,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作 通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持

B站直播预约链接:点击预约

相关推荐
昇腾CANN3 天前
3月23日直播丨HiF8高效数据格式及其应用
昇腾·cann
昇腾CANN6 天前
3月18日直播丨场景驱动,精准选型:Ascend 950算子编程语言如何抉择
昇腾·cann
是Yu欸11 天前
【CANN】Pi0机器人大模型 × 昇腾A2 测评
机器人·大模型·华为snap·gitcode·昇腾·vla
newBorn_19911 个月前
ops-transformer RoPE位置编码 复数旋转硬件加速实战
人工智能·深度学习·transformer·cann
七夜zippoe1 个月前
与vLLM对比 Ascend Transformer Boost吞吐延迟显存实测数据解读
neo4j·cann
艾莉丝努力练剑1 个月前
CANN hcomm 通用通信抽象层的后端插件化架构
架构·cann
昇腾CANN1 个月前
2月12日直播 | CANN算子一站式开发平台全面公测
昇腾·cann
艾莉丝努力练剑1 个月前
CANN hcomm 对 RDMA 与 Socket 传输协议的统一封装
人工智能·cann
种时光的人1 个月前
破译 GE 库:CANN 图编译引擎的“大脑”与“交通枢纽”
cann