cann

CANN ops-nn：新增一个自定义激活函数算子的完整流程昇腾 CANN（Compute Architecture for Neural Networks）是华为面向昇腾 AI 处理器提供的一套开放高性能计算底座，向上支持主流深度学习框架（PyTorch、TensorFlow 等），向下抽象出统一的算子开发接口，使开发者能够高效地将算法模型部署到昇腾 NPU 上执行。ops-nn 作为 CANN 生态中最贴近用户层的基础算子库，承担了所有神经网络经典算子的标准实现。掌握在 ops-nn 中新增自定义算子的完整流程，是深度学习工程师在昇腾平台上做算法落地的必备技能

【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践cann-samples是CANN社区提供的高性能实践样例库，致力于为开发者提供可复用的优化方法论和优秀实践代码。本系列文章将陆续介绍仓库中的典型样例，分享我们在算子优化过程中的思考与经验。

CANN AMCT模型压缩工具链全貌解析：从训练后量化到稀疏剪枝的昇腾NPU部署管线——INT8/INT4混合精度量化策略与精度损耗诊断实录详解报告在昇腾NPU上进行大模型部署时，模型体积与推理吞吐始终是工程落地的核心矛盾。CANN生态中的AMCT（Ascend Model Compression Toolkit）提供了一套完整的模型压缩工具链，覆盖训练后量化（PTQ）、量化感知训练（QAT）、稀疏剪枝（Sparsity）与知识蒸馏（KD）四大能力。本文基于AMCT开源仓库的实际代码与文档，梳理从Calibration数据采集到量化模型导出的全流程，分析INT8/INT4混合精度量化的工程策略，并结合逐层敏感度分析与精度诊断手段，给出可复现的调优记录

CANN ops-nn神经网络算子库概念拆解：从矩阵运算到昇腾NPU指令映射的算子注册与内核调度机制类比解读你以为神经网络推理的瓶颈在模型架构设计上？恰恰不是。当一个训练好的模型被部署到硬件上执行推理时，真正的性能差距往往出现在算子层——那一行行把高维张量映射为底层硬件指令的代码里。CANN（Compute Architecture for Neural Networks）作为昇腾NPU的软件栈核心，其ops-nn算子库承担的就是这个角色：将框架下发的计算请求，翻译成昇腾NPU上可执行的具体指令序列。打个比方，如果把昇腾NPU比作一家大型餐厅的后厨，那么CANN框架层就是前台点餐系统，而ops-nn算子库就是后

CANN AMCT量化压缩工具包深度技术解析：PTQ量化算法与昇腾NPU低比特运算的精度-性能权衡全景解读大语言模型推理部署面临的核心矛盾在于模型参数量与硬件算力之间的鸿沟。以DeepSeek-V4为代表的千亿参数模型，仅权重存储就需要数百GB显存，远超单张昇腾NPU的硬件上限。CANN（Compute Architecture for Neural Networks）作为华为昇腾AI处理器的计算架构，其原生模型压缩工具AMCT（Ascend Model Compression Toolkit）正是为弥合这一鸿沟而设计。AMCT提供训练后量化（PTQ）与量化感知训练（QAT）双路径，将FP16精度的模型权重压

CANN Ascend C算子调试工具链深度实战：cpu_run CPU模式仿真与npu_sim NPU仿真调试全流程解析及npuchk内存检查最佳实践在基于CANN（Compute Architecture for Neural Networks）进行Ascend C算子开发的过程中，开发者面临的核心痛点之一是如何在缺乏昇腾NPU硬件环境的情况下完成算子逻辑的正确性与性能验证。传统的算子调试流程强依赖真实NPU设备，这给算子的早期开发、持续集成以及分布式团队协作带来了显著的资源瓶颈。asc-tools仓库作为CANN生态中专门针对Ascend C编程语言推出的配套调试工具链，提供了cpu_debug（CPU模式仿真）与npu_sim（NPU周期精确仿真

CANN集合通信库hccl分布式训练从入门到实战：昇腾NPU多卡集群Ring-AllReduce算法原理与性能优化全指南多卡分布式训练已经成了训练大模型的标配，而通信往往决定了整个系统的扩展效率。当你在Ascend 910集群上跑数据并行训练时，每个step结束后都要让所有NPU上的梯度保持同步——这件事听起来简单，做起来却充满细节。Ring-AllReduce是当前分布式训练里最核心的梯度同步算法，理解它的工作原理和性能特征，是做出高质量多卡训练方案的前提。昇腾NPU上负责这件事的，就是CANN生态里的HCCL（Huawei Collective Communication Library）。本文拆解HCCL的核心设计，

CANN数学算子库ops-math深度实践：昇腾NPU上张量转换、基础数学运算与随机数生成的原理分析与工程实现在昇腾AI处理器的开发过程中，算子库是连接上层框架与底层硬件的关键桥梁。CANN作为昇腾异构计算架构的核心组件，其提供的ops-math数学算子库承担着张量形态变换、基础数学运算和随机数生成这三类最基础、调用频率最高的计算任务。昇腾NPU上的达芬奇架构通过Cube单元、Vector单元和Scalar单元的分工协作，为这些算子提供了远超通用CPU的并行计算能力。

CANN Python算子开发工具pyasc快速入门与实战：昇腾NPU自定义激活函数开发、调试与性能分析全流程指南在昇腾NPU上实现一个自定义的SwiGLU激活函数。他翻遍了CANN官方文档，发现要用Ascend C写算子，得先理解达芬奇架构的Cube和Vector单元，再搞懂算子注册、编译、部署那一整套流程。一个激活函数，从上手到跑通，硬是花了两周。后来pyasc出现了，同样的事，用Python写几十行代码就能搞定。这个差距不是一点点。

CANN神经网络算子库ops-nn从入门到实战：昇腾NPU推理场景下MatMul算子融合优化与性能提升全链路深度解读深度学习推理场景的核心计算负载集中在神经网络算子的执行上，尤其是矩阵乘、卷积、归一化等核心算子，其性能直接决定了整体推理吞吐。昇腾CANN软件栈中的ops-nn仓库专门承载神经网络类基础算子的实现与优化，涵盖matmul类、activation类、conv类、norm类、loss类五大核心算子类别。这篇文章不讲泛泛的概念介绍，而是聚焦到一个具体的实战场景：如何在昇腾NPU上通过ops-nn算子库实现高性能的MatMul计算，并深入分析算子融合策略如何将多个串行算子合并为单个高性能kernel，从而显著降低

6月15号新课开讲｜HCCL入门系列课，正式上线！📚 HCCL入门系列课程一览第一课：HCCL通信库软件架构介绍 - 6月15号16:00第二课：HCCL通信库算子开发介绍 - 6月16号16:00

CANN算子融合库ops-transformer FlashAttention通算融合架构深度剖析：昇腾NPU上大模型长序列推理的性能优化实战在大模型推理领域，长序列处理能力已成为衡量技术实力的核心指标之一。当输入序列长度从2048扩展到32768甚至更长时，传统注意力机制的计算复杂度呈平方级增长，显存占用随之膨胀，成为制约大模型落地的关键瓶颈。CANN（Compute Architecture for Neural Networks）作为昇腾NPU的异构计算框架，提供了从算子开发到融合调度的全栈能力，而ops-transformer作为其核心的算子融合库，通过FlashAttention的硬件映射与MC2通算融合技术，在昇腾NPU上实现了长序

CANN矩阵乘模板库catlass在LLM推理中的实战应用：昇腾NPU上GEMM算子白盒化组装与硬件特化性能优化深度指南大模型推理场景下，矩阵乘法几乎决定了整个系统的性能天花板。无论是Transformer中的自注意力计算，还是FFN层的全连接变换，GEMM（通用矩阵乘法）的身影无处不在。在昇腾NPU上跑推理的人，多半都遇到过这样的困境：自带的算子库性能不够极致，自定义算子开发门槛又高得离谱，两头不到岸。

基于CANN昇腾NPU的AscendSiPBoost信号处理加速库：FFT/BLAS/CFAR融合算子全链路解析与实践在现代雷达信号处理、通信基带计算以及电子对抗领域，海量数据的实时处理能力直接决定了系统性能的上限。传统方案依赖CPU或通用GPU完成FFT变换、矩阵乘法、FIR滤波等密集计算任务，在面对大规模天线阵列和高采样率场景时，往往陷入算力瓶颈与内存带宽的双重困境。华为昇腾NPU凭借其达芬奇架构的Cube计算单元和高吞吐统一向量计算能力，为这类数据密集型工作负载提供了差异化的硬件加速路径。然而，将信号处理算法高效映射到昇腾NPU并非简单移植——算子对齐、内存分块策略、Device侧kernel调度等环节均需深度适配

CANN昇腾元定义框架metadef的IR定义体系与算子注册机制深度解析——从TensorDesc到OpRegistrationData的跨组件协作设计昇腾NPU生态的快速发展离不开底层基础设施的稳固支撑，而CANN架构中承担这一角色的正是metadef——昇腾元数据定义框架。作为一个面向全栈AI计算平台的基础组件仓，metadef为Graph Engine、算子仓库以及各类上层组件提供了共享的数据结构与接口契约。在昇腾NPU的实际部署场景中，无论是图编译阶段的算子类型推导，还是运行时环境中的张量描述管理，都深度依赖metadef所定义的IR结构与注册机制。本文将聚焦metadef中最核心的两项能力——IR定义体系与算子注册机制，深入剖析其在CANN架构

深度解析CANN架构下昇腾NPU Vector算子开发新范式：ATVOSS模板库设计理念与工程实践在人工智能算力需求高速增长的背景下，昇腾AI处理器作为华为面向推理和训练场景推出的高性能AI芯片，已经在国内外众多数据中心和边缘场景中得到了广泛部署。支撑昇腾硬件上层生态的核心软件栈是CANN（Compute Architecture for Neural Networks），它提供了从算子开发、图编译到运行时调度的完整底层能力。长期以来，基于CANN进行昇腾NPU上的Vector类融合算子开发，要求开发者深入掌握Ascend C编程模型、复杂的Tiling切分策略以及多核并行调度的细节，这带来了相当高的

昇腾CANN计算机视觉专用算子库ops-cv快速上手实战教程：从环境配置到image/objdetect类接口调用的全步骤可复现操作指南昇腾CANN是面向昇腾系列AI处理器的异构计算架构，为上层AI应用提供统一的底层能力支撑，适配昇腾NPU的硬件特性来实现高效计算。在计算机视觉相关的开发场景中，开发者经常需要处理图像预处理、目标检测等类型的算子调用工作，直接对接昇腾NPU的原生接口不仅需要手动适配大量底层参数，还容易出现版本兼容或者算子实现不规范的问题。ops-cv是CANN开源生态下的计算机视觉类算子库，核心覆盖image和objdetect两大类别，封装了经过昇腾NPU优化的成熟算子，能够帮助开发者跳过底层适配环节，快速完成视觉类任务

CANN进阶指南｜hccl集合通信库算法实现与大规模集群优化：从Ring到Tree的通信路径选择与拓扑感知调优实践在昇腾CANN软件栈的完整版图中，集合通信库hccl占据着一个既基础又关键的位置。当开发者基于MindSpore或PyTorch训练大模型时，跨卡、跨节点、跨交换机的梯度同步与张量聚合，全部依赖hccl在底层完成数据的搬运与归约。它的性能上限直接决定了分布式训练的扩展效率——一个通信实现不够高效的集合通信库，会让千卡集群的实际算力利用率大打折扣。hccl的完整源码与开发文档已在开源社区公开，理解hccl的算法选择与工程细节，是从"能跑分布式训练"走向"跑好分布式训练"的必经之路。

CANN架构解析｜graph-autofusion算子自动融合框架的设计原理与工程实现全链路深度解读在深度学习推理优化领域，算子融合技术一直是提升模型执行效率的核心手段之一。华为CANN（Compute Architecture for Neural Networks）作为昇腾AI处理器的软件栈基础，提供了完整的算子开发与优化框架。其中，graph-autofusion仓库承载了算子自动融合的核心能力，通过模式识别、融合决策与代码生成的完整链路，将原本需要手工优化的融合逻辑转变为可配置、可扩展的自动化流程。这一框架的出现，使得开发者能够从繁琐的逐算子优化中解放出来，将精力聚焦在模型结构的创新而非底层实现

CANN技术解读｜hcomm通信库主机侧网络优化与零拷贝技术：深入剖析分布式训练通信瓶颈的高效解决方案在昇腾NPU的分布式训练场景中，主机侧通信往往成为性能瓶颈。很多开发者把注意力集中在NPU内部的算子优化上，却忽略了CPU与NPU之间的数据搬运开销。hcomm通信库正是为解决这个问题而设计的，它作为CANN生态中主机侧通信的核心组件，通过零拷贝技术、内存对齐和批处理机制，显著降低了主机侧的数据传输延迟。这篇文章将从概念拆解的角度，深入分析hcomm的设计哲学和技术实现，帮助开发者理解它在昇腾CANN架构中的定位和价值。