cann

昇腾CANN7 天前
性能优化·cann
基于Atlas 900 A3 SuperPoD推理部署Deepseek-R1性能优化实践本次实践以DeepSeek-R1模型在Atlas 900 A3 SuperPoD的高吞吐推理为目标,以"TTFT<2s、TPOT<50ms"为核心SLA约束,通过Omni-Infer框架优化特性为牵引,协同CANN全栈优化完成多层级迭代,在3000条数据集(最大输入16k,平均输入3.5k;最大输出32k,平均输出1.2k)、11节点(7P8-1D32)集群环境中,达成608QPM高吞吐,充分验证了上层套件Omni-Infer与底层软件CANN协同优化的突出效果。
小虚竹8 天前
昇腾·cann
基于昇腾310的CANN推理开发--图片深度识别应用CANN简介:CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台体验链接为: https://gitcode.com/cann
昇腾CANN11 天前
cann
自定义算子开发系列:Ascend C RTC即时编译本文内容基于Ascend C算子开发衍生而来,对于算子开发还不了解的读者可以通过以下资源进行学习:《Ascend C算子开发文档手册》:
小馒头学python12 天前
开源·昇腾·cann
昇腾CANN开源仓生态体验与开源商业版差异深度解析本文基于昇腾AI实战经验,深度解读CANN开源仓生态,剖析其架构设计与核心能力,对比开源版与商业版差异,并结合真实项目分享参与体验。通过性能分析图表、实战代码示例与企业级案例,揭示CANN在模型训练/推理中的软硬协同优势,为开发者提供全链路指南。关键技术点:CANN分层架构、开源仓项目矩阵、版本差异量化对比、性能调优方法论。
摘星编程14 天前
人工智能·硬件架构·cann
AI Core硬件架构剖析:Cube、Vector、Scalar三核协同机制目录AI Core硬件架构剖析:Cube、Vector、Scalar三核协同机制昇腾CANN训练营简介
是Yu欸14 天前
c语言·开发语言·云原生·昇腾·ascend·cann·开放社区
从Ascend C算子开发视角看CANN的“软硬协同”版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。在AI算力飙升的今天,我们手里的NPU(神经网络处理器)越来越像一座精密的巨型工厂。以往,我们习惯用“黑盒”的方式去使用它——喂入数据,等待结果。但在大模型训练和极致推理优化的深水区,这种模式行不通了。
LZL_SQ21 天前
人工智能·昇腾·cann·ascend c
昇腾NPU架构设计 从抽象硬件模型到物理实现在硅基芯片上为神经网络计算重构冯·诺依曼体系,探寻专用加速器的设计哲学与工程实现昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完美重叠。文章包含一个完整的As
七夜zippoe21 天前
人工智能·昇腾·cann·ascend c·l1 buffer
NPU存储体系 数据在芯片内的旅程与分层优化策略打破冯·诺依曼瓶颈的七层存储迷宫解密:从HBM到寄存器的数据生命周期管理艺术目录🎯 摘要🏗️ 第一章 存储墙挑战 从冯·诺依曼瓶颈到分层存储革命
爱吃烤鸡翅的酸菜鱼1 个月前
人工智能·cann
Catlass 模板库编程范式:昇腾高性能算子开发新高地在昇腾AI 处理器的算子开发领域,Catlass 的出现标志着一个重要的转折点。它不再要求开发者从零开始通过 Ascend C 构建复杂的矩阵运算逻辑,而是提供了一套基于模板元编程的高性能算子开发范式。
爱吃烤鸡翅的酸菜鱼1 个月前
人工智能·ai·cann
AscendNPU IR 语法指南:核心概念速查随着大模型和高性能计算的快速发展,针对专用加速器的编译与优化变得越来越重要。AscendNPU IR作为华为昇腾(Ascend)处理器的软件栈核心组成,用于桥接高层算子定义与底层硬件执行。它不仅承载算子逻辑的表达,也提供优化和调度的接口,是实现高效 NPU 推理的关键。
GitCode官方1 个月前
人工智能·开源·cann·atomgit
CANN Meetup 深圳站成功举办,开源开放赋能 AI 产业落地2025 年 12 月 6 日,由 CANN 开源社区主办、AtomGit 协办的 CANN Meetup 在深圳成功举行。本次活动融合技术布道与开发者实践分享,聚焦 CANN 在智能硬件、机器人等深圳优势产业的应用实践,探讨硬件加速、大模型推理等算力创新方向,携手生态伙伴共创共赢。
是Dream呀1 个月前
人工智能·华为·cann
昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法在人工智能和高性能计算领域,硬件算力的充分发挥,既离不开芯片本身的性能,更依赖于软件层对硬件架构的深度适配。昇腾AI平台作为国产异构计算的重要力量,其NPU(神经网络处理器)的高效利用,要求开发者既要掌握异构编程的基本范式,也要深入理解核心算子的调优技巧。其中GEMM(通用矩阵乘法)作为深度学习和科学计算的基础,其性能直接影响模型训练和推理的效率。本文结合实际开发经验,从昇腾异构编程的基础讲起,逐步深入GEMM算子的调优方法,通过具体案例解析性能提升的关键路径。
静Yu1 个月前
人工智能·制造·cann
CANN在半导体制造中的创新应用:多模态缺陷检测与动态批处理优化CANN作为华为昇腾AI处理器的核心基础软件平台,正逐步构建起强大的AI生态体系 。随着2025年8月华为宣布全面开源CANN ,这一异构计算架构正迎来前所未有的发展机遇。本文将聚焦半导体制造领域,探索CANN在晶圆缺陷检测这一关键场景中的创新应用方式,包括多模态数据融合处理、自定义算子开发以及动态批处理优化等技术方案,并通过实际代码示例展示如何充分发挥昇腾NPU的计算优势,为半导体制造提供高性能、低延迟的AI解决方案。
七夜zippoe1 个月前
架构·昇腾·cann·ascend c·pow
昇腾AI计算架构的基石 - 深度剖析CANN与Ascend C目录📖 摘要🏗️ 一. CANN架构设计理念:软硬件协同的工程哲学1.1 为什么需要专用AI软件栈?
行走正道1 个月前
triton·昇腾·cann·ascend c·计算单元
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破目录摘要1. 引言:硬件生态锁定的技术困局1.1 CUDA生态的"软锁定"效应1.2 昇腾平台的差异化架构挑战
颜颜yan_1 个月前
人工智能·架构·昇腾·cann
CANN异构计算架构深度解析:打造高效AI开发利器随着人工智能技术的飞速发展,AI算力需求呈现指数级增长。在这样的背景下,如何高效释放硬件算力、简化AI应用开发流程、提升模型训练推理性能,成为了AI开发者面临的核心挑战。华为昇腾推出的CANN(Compute Architecture for Neural Networks)异构计算架构,正是为解决这些痛点而生的关键技术平台。
JarryStudy1 个月前
人工智能·算法·昇腾·cann·ascend c
自动调优在Triton-on-Ascend中的应用:从参数优化到性能极致挖掘目录摘要1. 自动调优技术概述1.1 自动调优的核心价值1.2 Triton自动调优架构设计2. 自动调优核心技术原理
颜颜yan_1 个月前
运维·架构·stream·昇腾·cann
基于CANN多Stream异步执行的智能推理管道:突破传统串行瓶颈在AI应用日益复杂的今天,单一模型推理已无法满足实际业务需求。以智能监控系统为例,需要同时完成目标检测、人脸识别、行为分析等多个任务,传统的串行推理方式会导致严重的性能瓶颈。昇腾异构计算架构CANN(Compute Architecture for Neural Networks)提供了强大的多Stream异步执行能力,为构建高效的并行推理管道提供了技术基础。
向哆哆1 个月前
算子·昇腾·cann
深入解析华为 CANN Matmul 高阶算子:数据流、NZ 格式与完整 Tiling 策略全解在昇腾 AI 处理器生态中,矩阵乘法(Matmul)是最关键、最基础的核心算子之一。无论是 Transformer、CNN 还是复杂的科学计算模型,最终都可以分解为一系列 Matmul 操作。因此,一个高性能 Matmul 的实现,往往决定了整个模型推理与训练性能的上限。
向哆哆1 个月前
算子·昇腾·cann
深入解析华为CANN算子开发:从异构并行到核函数编程随着人工智能计算需求的日益增长,算子(Operator,简称OP)在深度学习模型执行中的作用越来越重要。华为Ascend AI处理器通过CANN(Compute Architecture for Neural Networks)框架,为开发者提供了高效的算子编程能力。本文将围绕异构并行编程模型、SPMD并行计算以及核函数开发与调用等核心内容,详细解析Ascend C算子开发的技术要点和实现方法。