技术栈
cann
LZL_SQ
6 小时前
人工智能
·
昇腾
·
cann
·
ascend c
昇腾NPU架构设计 从抽象硬件模型到物理实现
在硅基芯片上为神经网络计算重构冯·诺依曼体系,探寻专用加速器的设计哲学与工程实现昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完美重叠。文章包含一个完整的As
七夜zippoe
14 小时前
人工智能
·
昇腾
·
cann
·
ascend c
·
l1 buffer
NPU存储体系 数据在芯片内的旅程与分层优化策略
打破冯·诺依曼瓶颈的七层存储迷宫解密:从HBM到寄存器的数据生命周期管理艺术目录🎯 摘要🏗️ 第一章 存储墙挑战 从冯·诺依曼瓶颈到分层存储革命
爱吃烤鸡翅的酸菜鱼
7 天前
人工智能
·
cann
Catlass 模板库编程范式:昇腾高性能算子开发新高地
在昇腾AI 处理器的算子开发领域,Catlass 的出现标志着一个重要的转折点。它不再要求开发者从零开始通过 Ascend C 构建复杂的矩阵运算逻辑,而是提供了一套基于模板元编程的高性能算子开发范式。
爱吃烤鸡翅的酸菜鱼
8 天前
人工智能
·
ai
·
cann
AscendNPU IR 语法指南:核心概念速查
随着大模型和高性能计算的快速发展,针对专用加速器的编译与优化变得越来越重要。AscendNPU IR作为华为昇腾(Ascend)处理器的软件栈核心组成,用于桥接高层算子定义与底层硬件执行。它不仅承载算子逻辑的表达,也提供优化和调度的接口,是实现高效 NPU 推理的关键。
GitCode官方
9 天前
人工智能
·
开源
·
cann
·
atomgit
CANN Meetup 深圳站成功举办,开源开放赋能 AI 产业落地
2025 年 12 月 6 日,由 CANN 开源社区主办、AtomGit 协办的 CANN Meetup 在深圳成功举行。本次活动融合技术布道与开发者实践分享,聚焦 CANN 在智能硬件、机器人等深圳优势产业的应用实践,探讨硬件加速、大模型推理等算力创新方向,携手生态伙伴共创共赢。
是Dream呀
14 天前
人工智能
·
华为
·
cann
昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法
在人工智能和高性能计算领域,硬件算力的充分发挥,既离不开芯片本身的性能,更依赖于软件层对硬件架构的深度适配。昇腾AI平台作为国产异构计算的重要力量,其NPU(神经网络处理器)的高效利用,要求开发者既要掌握异构编程的基本范式,也要深入理解核心算子的调优技巧。其中GEMM(通用矩阵乘法)作为深度学习和科学计算的基础,其性能直接影响模型训练和推理的效率。本文结合实际开发经验,从昇腾异构编程的基础讲起,逐步深入GEMM算子的调优方法,通过具体案例解析性能提升的关键路径。
静Yu
15 天前
人工智能
·
制造
·
cann
CANN在半导体制造中的创新应用:多模态缺陷检测与动态批处理优化
CANN作为华为昇腾AI处理器的核心基础软件平台,正逐步构建起强大的AI生态体系 。随着2025年8月华为宣布全面开源CANN ,这一异构计算架构正迎来前所未有的发展机遇。本文将聚焦半导体制造领域,探索CANN在晶圆缺陷检测这一关键场景中的创新应用方式,包括多模态数据融合处理、自定义算子开发以及动态批处理优化等技术方案,并通过实际代码示例展示如何充分发挥昇腾NPU的计算优势,为半导体制造提供高性能、低延迟的AI解决方案。
七夜zippoe
17 天前
架构
·
昇腾
·
cann
·
ascend c
·
pow
昇腾AI计算架构的基石 - 深度剖析CANN与Ascend C
目录📖 摘要🏗️ 一. CANN架构设计理念:软硬件协同的工程哲学1.1 为什么需要专用AI软件栈?
行走正道
17 天前
triton
·
昇腾
·
cann
·
ascend c
·
计算单元
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破
目录摘要1. 引言:硬件生态锁定的技术困局1.1 CUDA生态的"软锁定"效应1.2 昇腾平台的差异化架构挑战
颜颜yan_
17 天前
人工智能
·
架构
·
昇腾
·
cann
CANN异构计算架构深度解析:打造高效AI开发利器
随着人工智能技术的飞速发展,AI算力需求呈现指数级增长。在这样的背景下,如何高效释放硬件算力、简化AI应用开发流程、提升模型训练推理性能,成为了AI开发者面临的核心挑战。华为昇腾推出的CANN(Compute Architecture for Neural Networks)异构计算架构,正是为解决这些痛点而生的关键技术平台。
JarryStudy
18 天前
人工智能
·
算法
·
昇腾
·
cann
·
ascend c
自动调优在Triton-on-Ascend中的应用:从参数优化到性能极致挖掘
目录摘要1. 自动调优技术概述1.1 自动调优的核心价值1.2 Triton自动调优架构设计2. 自动调优核心技术原理
颜颜yan_
19 天前
运维
·
架构
·
stream
·
昇腾
·
cann
基于CANN多Stream异步执行的智能推理管道:突破传统串行瓶颈
在AI应用日益复杂的今天,单一模型推理已无法满足实际业务需求。以智能监控系统为例,需要同时完成目标检测、人脸识别、行为分析等多个任务,传统的串行推理方式会导致严重的性能瓶颈。昇腾异构计算架构CANN(Compute Architecture for Neural Networks)提供了强大的多Stream异步执行能力,为构建高效的并行推理管道提供了技术基础。
向哆哆
19 天前
算子
·
昇腾
·
cann
深入解析华为 CANN Matmul 高阶算子:数据流、NZ 格式与完整 Tiling 策略全解
在昇腾 AI 处理器生态中,矩阵乘法(Matmul)是最关键、最基础的核心算子之一。无论是 Transformer、CNN 还是复杂的科学计算模型,最终都可以分解为一系列 Matmul 操作。因此,一个高性能 Matmul 的实现,往往决定了整个模型推理与训练性能的上限。
向哆哆
19 天前
算子
·
昇腾
·
cann
深入解析华为CANN算子开发:从异构并行到核函数编程
随着人工智能计算需求的日益增长,算子(Operator,简称OP)在深度学习模型执行中的作用越来越重要。华为Ascend AI处理器通过CANN(Compute Architecture for Neural Networks)框架,为开发者提供了高效的算子编程能力。本文将围绕异构并行编程模型、SPMD并行计算以及核函数开发与调用等核心内容,详细解析Ascend C算子开发的技术要点和实现方法。
操练起来
19 天前
人工智能
·
pytorch
·
acl
·
昇腾
·
cann
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
训练营简介 2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
向哆哆
19 天前
华为
·
算子
·
昇腾
·
cann
深入理解华为 CANN 中的 Broadcast 算子实现:从底层机制到工程化落地
在深度学习算子开发的世界里,Broadcast 是一个看似简单,却在底层实现上极富挑战性的概念。对用户而言,Broadcast 只是让两个 shape 不一致的张量也能 “自然相加”;但对于算子开发者而言,它涉及 数据扩维策略、对齐约束、核内 Tiling 切分、UB 缓冲区布局以及对硬件特性的深度理解。
向哆哆
20 天前
算子
·
昇腾
·
cann
深入解析华为CANN Matmul算子:从数据流到高性能实现
在深度学习计算中,矩阵乘法(Matmul)是核心算子之一,也是AI计算加速性能的关键瓶颈。华为CANN(Compute Architecture for Neural Networks)提供了高效的Matmul算子实现,通过合理的数据布局、分块(Tiling)和多核并行策略,实现了在Ascend AI处理器上的高性能矩阵乘计算。本文将全面解析CANN Matmul算子的设计理念、数据流、分块策略以及高阶API使用方法。
向哆哆
20 天前
华为
·
算子
·
昇腾
·
cann
深入理解华为CANN静态Tensor编程范式:极致性能的算子开发之道
在深度学习硬件加速领域,算子性能优化一直是关键环节。华为Ascend系列处理器提供了丰富的算子开发接口,其中CANN(Compute Architecture for Neural Networks)框架下的静态Tensor编程范式为开发者在追求极致性能时提供了灵活而高效的途径。本篇文章将系统解析静态Tensor编程的设计理念、内存与同步管理机制、流水优化方法,以及开发约束与实用技巧,帮助开发者理解如何在AI Core上实现高性能算子。
七夜zippoe
20 天前
triton
·
昇腾
·
cann
·
ascend c
·
gather
Triton算子开发范式:从向量加法和Gather算子看高效编程实践
目录摘要1. Triton算子开发范式的核心价值1.1 昇腾平台算子开发的挑战与机遇1.2 Triton编程模型的核心优势
落798.
20 天前
人工智能
·
cann
基于CANN与MindSpore的AI算力体验:从异构计算到应用落地的实战探索
在人工智能高速演进的今天,算力正逐步演变为技术创新与应用部署的核心动能。从云端大模型训练到边缘端的智能推理,传统同构架构已难以满足多样化的计算需求,异构计算体系由此成为新一代 AI 基础设施的重要发展方向。