3月24日直播丨HCCL集合通信专用引擎CCU技术介绍

在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。

关键组成部分

  1. CCUM和CCUA单元

    • CCUM:控制单元,解析任务描述符并执行通信任务。

    • CCUA:数据处理单元,处理数据传输和规约。

  2. 基本构成单元

    • Memory Slice (MS):4KB片上缓存。

    • Gather Scatter Address (GSA):存储内存地址的寄存器。

    • General Purpose Register (Xn):存储数据长度和循环控制信息。

    • Checklist Entry (CKE):16bit同步寄存器,用于NPU间同步。

功能特性亮点

CCU支持完整的指令集 ,包括加载、运算、控制、同步、传输和规约等操作类型,能够高效完成集合通信任务。在典型应用场景中,Reduce操作 通过降低读写次数,解决规约确定性和精度损失问题;Broadcast操作支持

B站直播预约链接:点击预约

相关推荐
蛐蛐蛐1 天前
昇腾910B4上安装新版本CANN的正确流程
人工智能·python·昇腾
昇腾CANN2 天前
5月12日直播丨Ascend 950 HiF8模型量化技术的训推实践
人工智能·昇腾·cann
昇腾CANN3 天前
5月11日直播丨CANN算子挑战赛(江山赛区)赛题和评分规则解读
人工智能·昇腾·cann·deepseek
昇腾CANN4 天前
CANNBot + DeepSeek-V4 实操:30 分钟生成可达理论性能极限的 MXFP8 Matmul + Add 融合算子
人工智能·昇腾·cann
嵌入式小企鹅5 天前
国产算力突破、RISC-V车规生态成型、AI编程工具免费化浪潮
学习·开源·ai编程·risc-v·昇腾·deepseek v4
大数据在线13 天前
AI计算新生态:旧地图找不到新大陆
cuda·昇腾·cann·英伟达·deepseek
昇腾CANN14 天前
TileLang-Ascend 算子性能优化方法与实操
开发语言·javascript·性能优化·昇腾·cann
嵌入式小企鹅14 天前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
是Yu欸16 天前
SGLang 推理服务基础性能评测
android·数据库·大模型·github·昇腾·sglang·qwen3
昇腾CANN16 天前
4月28日直播丨基于TorchTitan的DeepSeek-V4昇腾续训练优化实践
人工智能·昇腾·cann·deepseek