昇腾

Felven4 小时前
linux·python·模型训练·昇腾·310p
华为昇腾310P模型转换失败问题解决加固服务器使用华为昇腾310P进行推理,在进行模型转换时,提示转换失败,如下:出现上面问题是系统下装了多个Python版本,同时缺少依赖包。
一见已难忘2 天前
人工智能·开源·llama·gitcode·昇腾
昇腾加持下的Llama 3.2:开源大模型推理性能1B英文原版与3B中文微调模型实测对比本篇文章全面测评了 Llama 3.2 系列大模型 在 昇腾(Ascend) 上的推理性能,并展示了在 GitCode 云端平台 上的快速部署与应用实践。文章首先介绍了 Llama 3.2 的英文原版与中文微调版本的加载与运行方法,随后对推理速度、稳定性和算力利用率进行了详细对比,重点展示了 1B 与 3B 模型在不同任务场景下的性能差异。通过实测结果可以看出,昇腾 能够充分发挥硬件加速优势,实现快速、稳定的模型推理,而 GitCode 平台提供的即开即用环境则大幅降低了部署难度,提升了开发效率。文章最后
WenGyyyL15 天前
人工智能·python·语言模型·nlp·昇腾
基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)本文目标:演示如何在基于GitCode平台的昇腾NPU服务器上,把一个轻量或中等规模的 vLLM(我们这里采用Qwen大模型)迁移、转换为昇腾可执行格式、部署推理服务,并给出一套可复现的测试、profiling 与初步调优流程。
是Dream呀15 天前
人工智能·pytorch·python·昇腾
昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤随着人工智能技术的快速发展和应用场景的不断扩展,算力平台正在成为AI基础设施建设的重要支撑。昇腾 AI 处理器已经跑通了智慧城市的摄像头分析、智能制造的质检系统,连金融科技的风控模型也开始用它做推理。但对习惯了 PyTorch 框架的开发者来说,这中间总卡着几个实际问题:现成的模型怎么平滑迁过去?迁完精度会不会掉?怎么才能真正榨干硬件性能?这些不是理论问题,而是项目里必须落地解决的关键环节,也是这篇内容想讲透的核心。
七夜zippoe15 天前
架构·昇腾·cann·ascend c·pow
昇腾AI计算架构的基石 - 深度剖析CANN与Ascend C目录📖 摘要🏗️ 一. CANN架构设计理念:软硬件协同的工程哲学1.1 为什么需要专用AI软件栈?
行走正道16 天前
triton·昇腾·cann·ascend c·计算单元
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破目录摘要1. 引言:硬件生态锁定的技术困局1.1 CUDA生态的"软锁定"效应1.2 昇腾平台的差异化架构挑战
颜颜yan_16 天前
人工智能·架构·昇腾·cann
CANN异构计算架构深度解析:打造高效AI开发利器随着人工智能技术的飞速发展,AI算力需求呈现指数级增长。在这样的背景下,如何高效释放硬件算力、简化AI应用开发流程、提升模型训练推理性能,成为了AI开发者面临的核心挑战。华为昇腾推出的CANN(Compute Architecture for Neural Networks)异构计算架构,正是为解决这些痛点而生的关键技术平台。
JarryStudy16 天前
人工智能·算法·昇腾·cann·ascend c
自动调优在Triton-on-Ascend中的应用:从参数优化到性能极致挖掘目录摘要1. 自动调优技术概述1.1 自动调优的核心价值1.2 Triton自动调优架构设计2. 自动调优核心技术原理
颜颜yan_17 天前
运维·架构·stream·昇腾·cann
基于CANN多Stream异步执行的智能推理管道:突破传统串行瓶颈在AI应用日益复杂的今天,单一模型推理已无法满足实际业务需求。以智能监控系统为例,需要同时完成目标检测、人脸识别、行为分析等多个任务,传统的串行推理方式会导致严重的性能瓶颈。昇腾异构计算架构CANN(Compute Architecture for Neural Networks)提供了强大的多Stream异步执行能力,为构建高效的并行推理管道提供了技术基础。
颜颜yan_17 天前
架构·音视频·昇腾
基于昇腾CANN的智能视频分析系统落地实践随着智能安防、智慧园区等场景的深入应用,实时视频分析能力已成为重要需求。本项目是对园区内 16 路 1080P 实时视频流同时进行目标检测与行为识别,包括人员检测、车辆识别及异常行为告警,并保证 端到端延迟不超过 100ms。系统不仅接入 RTSP 流,还需在 Web 端实时展示推理结果。
向哆哆18 天前
算子·昇腾·cann
深入解析华为 CANN Matmul 高阶算子:数据流、NZ 格式与完整 Tiling 策略全解在昇腾 AI 处理器生态中,矩阵乘法(Matmul)是最关键、最基础的核心算子之一。无论是 Transformer、CNN 还是复杂的科学计算模型,最终都可以分解为一系列 Matmul 操作。因此,一个高性能 Matmul 的实现,往往决定了整个模型推理与训练性能的上限。
向哆哆18 天前
算子·昇腾·cann
深入解析华为CANN算子开发:从异构并行到核函数编程随着人工智能计算需求的日益增长,算子(Operator,简称OP)在深度学习模型执行中的作用越来越重要。华为Ascend AI处理器通过CANN(Compute Architecture for Neural Networks)框架,为开发者提供了高效的算子编程能力。本文将围绕异构并行编程模型、SPMD并行计算以及核函数开发与调用等核心内容,详细解析Ascend C算子开发的技术要点和实现方法。
操练起来18 天前
人工智能·pytorch·acl·昇腾·cann
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现训练营简介 2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
向哆哆18 天前
华为·算子·昇腾·cann
深入理解华为 CANN 中的 Broadcast 算子实现:从底层机制到工程化落地在深度学习算子开发的世界里,Broadcast 是一个看似简单,却在底层实现上极富挑战性的概念。对用户而言,Broadcast 只是让两个 shape 不一致的张量也能 “自然相加”;但对于算子开发者而言,它涉及 数据扩维策略、对齐约束、核内 Tiling 切分、UB 缓冲区布局以及对硬件特性的深度理解。
向哆哆18 天前
算子·昇腾·cann
深入解析华为CANN Matmul算子:从数据流到高性能实现在深度学习计算中,矩阵乘法(Matmul)是核心算子之一,也是AI计算加速性能的关键瓶颈。华为CANN(Compute Architecture for Neural Networks)提供了高效的Matmul算子实现,通过合理的数据布局、分块(Tiling)和多核并行策略,实现了在Ascend AI处理器上的高性能矩阵乘计算。本文将全面解析CANN Matmul算子的设计理念、数据流、分块策略以及高阶API使用方法。
向哆哆18 天前
华为·算子·昇腾·cann
深入理解华为CANN静态Tensor编程范式:极致性能的算子开发之道在深度学习硬件加速领域,算子性能优化一直是关键环节。华为Ascend系列处理器提供了丰富的算子开发接口,其中CANN(Compute Architecture for Neural Networks)框架下的静态Tensor编程范式为开发者在追求极致性能时提供了灵活而高效的途径。本篇文章将系统解析静态Tensor编程的设计理念、内存与同步管理机制、流水优化方法,以及开发约束与实用技巧,帮助开发者理解如何在AI Core上实现高性能算子。
七夜zippoe19 天前
triton·昇腾·cann·ascend c·gather
Triton算子开发范式:从向量加法和Gather算子看高效编程实践目录摘要1. Triton算子开发范式的核心价值1.1 昇腾平台算子开发的挑战与机遇1.2 Triton编程模型的核心优势
七夜zippoe19 天前
kernel·triton·昇腾·cann·ascend c
Triton - Ascend算子开发基础解析:解锁高效NPU编程的新范式目录摘要1 引言:为什么选择Triton进行Ascend算子开发?2 Triton与Ascend C架构对比分析
wuli_滔滔21 天前
算子·昇腾·atlas·ascend c·cann]
昇腾Atlas加速卡与Ascend C:从硬件基石到编程哲学的深度解析与实战目录摘要1. 引子:我们为何需要“另一种”AI芯片和编程模型?2. 昇腾Atlas加速卡硬件架构:达芬奇核心的匠心独运