cann

七夜zippoe2 小时前
kernel·triton·昇腾·cann·ascend c
Triton - Ascend算子开发基础解析:解锁高效NPU编程的新范式目录摘要1 引言:为什么选择Triton进行Ascend算子开发?2 Triton与Ascend C架构对比分析
七夜zippoe2 天前
昇腾·cann·ascend c·tiling·addcustom
通关秘籍第一式:十分钟彻底读懂Ascend C算子开发中级认证目录摘要1. 认证价值:为什么中级认证是能力分水岭?1.1 从功能正确到性能达标1.2 从单核到多核协同
熊文豪6 天前
性能优化·昇腾·cann
深度解析毕昇编译器:昇腾CANN生态的异构计算与性能优化引擎BiSheng Compiler毕昇编译器作为CANN(Compute Architecture for Neural Networks)生态的核心组件,BiSheng Compiler毕昇编译器以其卓越的性能优化能力,为昇腾AI处理器提供了强大的软件支撑。本文将深入探讨BiSheng Compiler的核心价值、关键特性及其在简化AI开发、提升计算效率方面的显著优势。
微学AI7 天前
华为·音视频·智慧城市·cann
华为CANN在智慧城市视频监控中的实践:端云协同的实时目标检测解决方案某智慧城市项目需部署一套实时视频分析系统,日均处理2000路高清视频流(1080P@25fps),实现行人、车辆等10类目标的毫秒级检测。初期采用GPU方案面临三大挑战:
是Dream呀10 天前
运维·服务器·cann
华为CANN 8.0深度评测:挑战CUDA生态的AI计算架构在人工智能快速发展的今天,计算架构的性能与易用性成为制约AI应用落地的关键因素。华为CANN作为面向AI场景打造的异构计算架构,正在为AI开发者提供一个端云一致、高性能的开发平台。本文将深入分析CANN的核心价值与技术特性,帮助开发者更好地理解这一创新架构的实际应用价值。
Francek Chen14 天前
人工智能·深度学习·cann·ai开发
【CANN】开启AI开发新纪元,释放极致计算效率【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。
不叫猫先生17 天前
华为·语言模型·大模型·cann
基于华为昇腾CANN的自定义算子开发昇腾CANN,作为异构计算架构的核心组件,具有以下特性:在大模型推理中,Attention机制通常由多个基础算子组成(MatMul、Softmax、Dropout等),导致频繁的内存读写。我们将开发一个融合Attention算子,减少内存访问,提升性能。
wei_shuo17 天前
cann·自定义算子
深度测评解析 CANN:从 ACL 到自定义算子,解锁昇腾计算的全部潜能✅端到端栈级支持:CANN 覆盖驱动、运行时、算子加速库、编译器及上层框架适配的全套工具链,大幅降低模型向昇腾硬件移植的工程成本
七夜zippoe18 天前
昇腾·cann·算子开发·ascend c·kernel 算子
Ascend C 算子开发模式全解析:从 Kernel 到工程化目录摘要一、背景介绍:为什么需要特定的算子开发模式?二、昇腾AI Core基础架构浅析三、原理详解:两种开发模式的深度对比
七夜zippoe19 天前
昇腾·cann·核函数·ascend c·向量加法
Ascend C 编程模型揭秘:深入理解核函数、任务并行与流水线优化目录摘要一、背景介绍:从串行思维到并行范式的范式转移二、核函数(Kernel Function):并行计算的执行单元
昇腾CANN5 个月前
cann
深度学习的分布式训练与集合通信(三)本专题介绍常见的深度学习分布式训练的并行策略和背后使用到的集合通信操作,希望能帮助读者理解分布式训练的原理,以及集合通信之于分布式训练的重要性和必要性。鉴于篇幅限制,将拆分成三个部分展开讲述。
昇腾CANN8 个月前
gitee·cann
昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入在人工智能技术呈指数级发展的今天,AI创新已走向更底层的算法创新,以DeepSeek为例,通过MoE模型架构和底层算法创新,不仅获取极佳的模型性能,又更大程度释放硬件性能,降低硬件使用成本。
哦豁灬1 年前
学习·昇腾·cann
CANN 学习——基于香橙派 KunpengPro(1)异构计算架构CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,向上支持多种AI框架,包括MindSpore、PyTorch、TensorFlow等,向下服务AI处理器与编程。
zjun30211 年前
c++·人工智能·华为·昇腾·cann·ascendc
什么是CANN和Ascend C异构计算架构CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,向上支持多种AI框架,包括MindSpore、PyTorch、TensorFlow等,向下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供多层次编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。
你的陈某某1 年前
图像分类·npu·cann·atlas800·a300i pro
Atlas800昇腾服务器(型号:3000)—SwinTransformer等NPU推理【图像分类】(九)CPU/NPU:鲲鹏 CPU(ARM64)+A300I pro推理卡 系统:Kylin V10 SP1【下载链接】【安装链接】 驱动与固件版本版本: Ascend-hdk-310p-npu-driver_23.0.1_linux-aarch64.run【下载链接】 Ascend-hdk-310p-npu-firmware_7.1.0.4.220.run【下载链接】 MCU版本:Ascend-hdk-310p-mcu_23.2.3【下载链接】 CANN开发套件:版本7.0.1【Toolkit下载链接】【Ke
你的陈某某1 年前
npu·cann·atlas800
Atlas800昇腾服务器(型号:3000)—CANN安装(二)CPU/NPU:鲲鹏 CPU(ARM64)+A300I pro推理卡 系统:Kylin V10 SP1【下载链接】【安装链接】 驱动与固件版本版本: Ascend-hdk-310p-npu-driver_23.0.1_linux-aarch64.run【下载链接】 Ascend-hdk-310p-npu-firmware_7.1.0.4.220.run【下载链接】 MCU版本:Ascend-hdk-310p-mcu_23.2.3【下载链接】 CANN开发套件:版本7.0.1【Toolkit下载链接】【Ke
华为云开发者联盟1 年前
人工智能·昇腾·cann·算子优化·graph engine
深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销本文分享自华为云社区《深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销》,作者:昇腾CANN。
华为云开发者联盟1 年前
大模型·昇腾·cann·华为云开发者联盟
深度解读昇腾CANN模型下沉技术,提升模型调度性能本文分享自华为云社区《深度解读昇腾CANN模型下沉技术,提升模型调度性能》,作者:昇腾CANN。AI模型的运行通常情况下需要CPU和NPU(昇腾AI处理器)等AI专用处理器协同工作,CPU所在位置称为主机端(Host),而NPU所在位置称为设备端(Device)。对于采用Host调度的AI模型来说,Host下发Task的时序和Device执行Task的时序是异步的,如果Device执行Task的速度比Host下发Task的速度快,则Device会处于空闲状态。比如,大模型场景的增量推理或训练的FineTu
华为云开发者联盟1 年前
cann·华为云开发者联盟·华为云图引擎ges·多流并行
深度解读昇腾CANN多流并行技术,提高硬件资源利用率本文分享自华为云社区《深度解读昇腾CANN多流并行技术,提高硬件资源利用率》,作者:昇腾CANN。随着人工智能应用日益成熟,文本、图片、音频、视频等非结构化数据的处理需求呈指数级增长,数据处理过程从通用计算逐步向异构计算过渡。面对多样化的计算需求,昇腾AI处理器内置丰富的硬件计算资源用于处理不同的计算任务。其中,AI Core、Vector Core与AI CPU分别负责AI计算场景下的矩阵、向量与标量计算,DVPP支持图像、视频等数据的加速处理,而HCCL作为华为集合通信库,则提供单机多卡及多机多卡间的
qianbo_insist1 年前
华为·cann
香橙派华为昇腾CANN架构编译opencv4.9为啥要编译opencv4.9.0, 因为在4.9.0 中增加了华为昇腾CANN的外接开发库,下图为盒子外观,此次一接到这个盒子,立刻开始开箱操作,首先就是要编译opencv4.9,以前在香橙派3588 的盒子中,也是同样的操作,不过当时编译的是4.6