cann

newBorn_199113 天前
人工智能·深度学习·transformer·cann
ops-transformer RoPE位置编码 复数旋转硬件加速实战本文将深度解析cann项目中ops-transformer的RoPE位置编码实现,聚焦/operator/ops_transformer/rope/rotary_position_embedding.cpp的关键优化技术。核心内容包括sin/cos表预计算机制、向量指令融合策略,以及如何在NPU上实现复数旋转操作的高效硬件加速。通过实测数据,在LLaMA模型推理中实现18%的吞吐提升,为AIGC推理性能优化提供实战参考。本文将结合代码级实现细节和性能分析,分享一线开发中的优化经验。
七夜zippoe13 天前
neo4j·cann
与vLLM对比 Ascend Transformer Boost吞吐延迟显存实测数据解读作为一名拥有多年AI基础设施实战经验的老兵,我今天想从工程角度深度解析CANN社区的Ascend Transformer Boost(ATB)与vLLM在Transformer推理性能上的真实较量。通过实测数据发现,ATB在长文本生成场景下显存优化尤为突出,相比vLLM可节省高达40%的显存占用,同时保持更稳定的吞吐表现。文章将结合源码级原理分析、可运行的代码demo以及企业级调优经验,带你搞懂如何在实际项目中发挥硬件最大潜力。关键亮点包括ATB的动态显存复用机制、自定义算子融合策略以及针对长序列的优化技
艾莉丝努力练剑16 天前
架构·cann
CANN hcomm 通用通信抽象层的后端插件化架构cann组织链接:https://atomgit.com/cann hcomm仓库链接:https://atomgit.com/cann/hcomm
昇腾CANN16 天前
昇腾·cann
2月12日直播 | CANN算子一站式开发平台全面公测直播时间2026年2月12日19:00 - 20:00 B站/微信视频号搜索【昇腾CANN】观看直播,参与直播互动可获CANN周边小礼品。
艾莉丝努力练剑16 天前
人工智能·cann
CANN hcomm 对 RDMA 与 Socket 传输协议的统一封装相关链接:在 CANN(Compute Architecture for Neural Networks)高性能计算生态中,HCOMM(Huawei Communication)作为 HCCL(Heterogeneous Collective Communication Library)的底层通信基础库,承担着为上层集合通信操作提供高效、可靠点对点(Point-to-Point)数据传输服务的重任。现代 AI 集群的硬件环境高度异构,既包含支持 RDMA(Remote Direct Memory Acce
种时光的人16 天前
cann
破译 GE 库:CANN 图编译引擎的“大脑”与“交通枢纽”在深度学习模型的落地过程中,“从算法到硬件的高效执行”始终是最大的挑战之一。即使有了优化的算子和跨语言交互能力,若无法将分散的模型组件(算子、数据、控制流)组织成硬件“能懂且跑得快”的形式,性能依然会大打折扣。华为 CANN 生态中的 GE 库(Graph Engine,图编译引擎)正是解决这一问题的核心枢纽——它像一位“模型翻译官”兼“交通指挥官”,将前端框架的模型转化为硬件友好的执行计划,并调度数据与计算在 CANN 硬件上高效流动。今天,我们就深入 GE 库的内部,揭开它的神秘面纱。
种时光的人16 天前
microsoft·交互·cann
探秘 CANN 的 hixl 库:让跨语言高性能交互如丝般顺滑在人工智能与高性能计算的世界里,“跨语言协作”往往是一道绕不开的难题——模型推理可能用 C++ 实现以获得极致性能,而业务逻辑却习惯用 Python 快速迭代;又或者底层算子用汇编/专用指令优化,上层调度却需要脚本语言的灵活性。如何让不同语言编写的模块高效、稳定地“对话”,既不失性能,又不牺牲开发效率?
种时光的人17 天前
cann
玩转 catlass 库:CANN 上的“模板级”高性能数学运算利器在深度学习与高性能计算领域,数学运算库一直是底层性能的核心支柱。CANN 生态中除了我们前面介绍的 ops-math(基础数学运算)、hixl(跨语言交互)与 GE(图编译引擎),还有一个面向 极致性能优化 的底层库—— catlass(源于 “CANN Template-based Linear Algebra Subroutine Library” 的概念),它是面向 CANN 硬件量身打造的 模板化高性能线性代数与张量运算库。如果说 ops-math 是“瑞士军刀”,那么 catlass 就是为特定
七夜zippoe17 天前
人工智能·机器学习·cann
CANN Runtime安全沙箱机制深度解析 从源码看硬件防护设计今天咱们不聊虚的,直接扒开CANN Runtime的源码,看看它是如何像铜墙铁壁一样保护你的AI加速卡不被恶意代码搞崩的。
向哆哆17 天前
分布式·wpf·cann
CANN HCCL集合通信库在分布式训练中的高性能通信方案cann 组织链接:https://atomgit.com/cann hccl仓库解读链接:https://atomgit.com/cann/hccl
种时光的人17 天前
人工智能·cann
直击硬件心脏:CANN pto-isa 库带你掌控指令集的奥秘在深度学习与高性能计算的赛道上,算子的性能不仅取决于算法与内存优化,更深层的瓶颈往往藏在 硬件指令的执行效率 里。对于 CANN(Compute Architecture for Neural Networks)平台而言,要想让模型推理或训练达到硬件的理论峰值,就必须让计算“说”硬件听得懂、执行快的 原生语言 —— 也就是 ISA(Instruction Set Architecture,指令集架构)。
向哆哆17 天前
人工智能·cann
CANN Mat-Chem-Sim-Pred工业领域计算仿真与预测技术解析cann 组织链接:https://atomgit.com/cann mat-chem-sim-pred仓库解读链接:https://atomgit.com/cann/mat-chem-sim-pred
种时光的人17 天前
cann
CANN仓库核心解读:atvc构筑推理的自动化验证与合规屏障在深度学习模型从研发到生产落地的全链路中,模型验证与结果合规性保障是容易被忽视却至关重要的环节。无论是工业质检的缺陷判定、医疗影像的病灶识别,还是金融风控的风险评估,模型的输出准确性与一致性直接关系到业务可靠性。CANN开源仓库(CANN组织链接:https://atomgit.com/cann)推出的 atvc(Automated Verification & Compliance,自动化验证与合规)项目(解读仓库链接:https://atomgit.com/cann/atvc),正是为解决这一痛点而生
种时光的人17 天前
cann
CANN生态分布式中枢:HCCL构建大模型集群通信高速通道在大模型全链路开发中,随着参数量从亿级迈向万亿级,单卡训练已成为历史,分布式并行训练成为突破算力瓶颈的核心路径。而分布式训练的效率与稳定性,核心取决于多卡、多机间的数据通信能力——梯度同步、参数分发、结果聚合等关键环节,均需高效的集群通信支撑,通信延迟与带宽利用率直接决定了大模型训练的整体周期。依托华为CANN开源仓库的生态优势,HCCL(Huawei Collective Communication Library)仓库应运而生,作为CANN生态中专为大模型分布式训练打造的高性能集合通信库,聚焦集群节点
熊文豪17 天前
cann·ops-nn
CANN ops-nn 卷积池化算子实现cann组织链接:https://atomgit.com/cann ops-nn仓库链接:https://atomgit.com/cann/ops-nn
种时光的人17 天前
cann
CANN仓库核心解读:AMCT解锁模型精度与性能的平衡密码在深度学习模型从训练到部署的完整生命周期中,精度损失与性能优化一直是开发者面临的核心矛盾。一方面,开发者期望模型在部署后保持与训练时相近的精度,以确保推理结果的可靠性;另一方面,面对实际业务场景对低延迟、高吞吐的严苛要求,又不得不对模型进行压缩、量化等优化操作,而这往往会导致精度下降。华为CANN开源仓库(CANN组织链接:https://atomgit.com/cann)推出的 AMCT(Accuracy - aware Model Compression Toolkit,精度感知模型压缩工具包)项目(
向哆哆18 天前
cann
CANN版本发布管理Release-Management的架构设计与版本管理技术深度解析cann 组织链接:https://atomgit.com/cann release-management仓库解读链接:https://atomgit.com/cann/release-management
向哆哆18 天前
cann
CANN推理优化样例CANN-Recipes-Harmony-Infer的架构设计与系统推理优化技术深度解析cann 组织链接:https://atomgit.com/cann cann-recipes-harmony-infer仓库解读链接:https://atomgit.com/cann/cann-recipes-harmony-infer
向哆哆18 天前
numpy·cann
CANN原生Numpy库AsNumpy的架构设计与数值计算优化技术深度解析cann 组织链接:https://atomgit.com/cann asnumpy仓库解读链接:https://atomgit.com/cann/asnumpy
ujainu18 天前
运维·人工智能·自动化·cann
CANN仓库中的“隐形架构师”:AI软件栈的自动化优化引擎深度剖析在AIGC(人工智能生成内容)时代,模型复杂度呈指数级增长,人工调优已无法满足性能需求。开发者不再满足于“能跑”,而是追求“极致性能”——在有限硬件上实现最低延迟、最高吞吐与最小功耗。面对这一挑战,华为CANN(Compute Architecture for Neural Networks)开源仓库中隐藏着一群“隐形架构师”:它们不是人类工程师,而是由算法驱动的自动化优化引擎——包括图优化器(GE Optimizer)、自动调度器(TBE AutoSchedule)、性能调优器(AOE)等。