cann

红目香薰8 小时前
c语言·开发语言·华为·华为云·昇腾·cann·modelarts
Ascend C 算子:Sigmoid 函数原理深入解析与工程化构建及验证声明:本文所有内容均围绕Ascend C算子开发能力认证(中级)相关知识点进行考试心得分享,为保障考试的公平性,会对完整的流程、函数、逻辑、基础算法与代码进行说明,具体的合并组合方式需要理解后自行填充。
昇腾CANN8 天前
昇腾·cann
4月3日直播丨CANNBot发布:畅享算子开发新体验CANN算子的"手工作坊"如何突围?当手写内核、反复调试、性能问题定位等成为效率瓶颈,AI开发正从"匠人单打独斗"迈向“智能工业化”。大模型时代更需注重算子的高效开发与快速定制,构建AI辅助的开发流水线。
昇腾CANN13 天前
cann
HIXL快速适配NIXL昇腾后端HIXL 是昇腾面向高性能数据传输场景提供的通信能力组件,支持内存注册、建链、同步/异步传输、状态查询与通知等关键能力,并提供简洁、易用的 API,便于业务快速集成。当前,vLLM、SGLang 等多个主流 AI 开源框架已通过调用HIXL 接口,在昇腾设备上实现高性能数据传输。
昇腾CANN18 天前
昇腾·cann
3月24日直播丨HCCL集合通信专用引擎CCU技术介绍在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。
昇腾CANN21 天前
昇腾·cann
3月23日直播丨HiF8高效数据格式及其应用Ascend 950支持HiFloat8数据格式,这是面向AI大模型训推的新一代8位浮点数据格式。创新采用动态点位域与即时可译变长前缀码设计,突破传统FP8精度与动态范围瓶颈,阶码范围接近16位浮点,大幅减少数值溢出。
昇腾CANN24 天前
昇腾·cann
3月18日直播丨场景驱动,精准选型:Ascend 950算子编程语言如何抉择随着AI模型迭代不断加速,算子开发正面临前所未有的挑战。算法验证阶段,开发者更看重易用性与快速迭代;而部署阶段则追求极致性能,力求榨干硬件每一分潜能。面对如此多元的场景需求,算子编程语言领域正在形成全新的格局:既有基于C/C++的Ascend C,也有基于Python的DSL(如PyPTO、Triton和TileLang),它们共同构建起覆盖从算法探索到生产部署的全流程生态体系。 面对Ascend 950引入的 SIMT 矢量计算单元、基于 Reg 的 SIMD 矢量计算、AIC/AIV 数据通路增强,以
newBorn_19912 个月前
人工智能·深度学习·transformer·cann
ops-transformer RoPE位置编码 复数旋转硬件加速实战本文将深度解析cann项目中ops-transformer的RoPE位置编码实现,聚焦/operator/ops_transformer/rope/rotary_position_embedding.cpp的关键优化技术。核心内容包括sin/cos表预计算机制、向量指令融合策略,以及如何在NPU上实现复数旋转操作的高效硬件加速。通过实测数据,在LLaMA模型推理中实现18%的吞吐提升,为AIGC推理性能优化提供实战参考。本文将结合代码级实现细节和性能分析,分享一线开发中的优化经验。
七夜zippoe2 个月前
neo4j·cann
与vLLM对比 Ascend Transformer Boost吞吐延迟显存实测数据解读作为一名拥有多年AI基础设施实战经验的老兵,我今天想从工程角度深度解析CANN社区的Ascend Transformer Boost(ATB)与vLLM在Transformer推理性能上的真实较量。通过实测数据发现,ATB在长文本生成场景下显存优化尤为突出,相比vLLM可节省高达40%的显存占用,同时保持更稳定的吞吐表现。文章将结合源码级原理分析、可运行的代码demo以及企业级调优经验,带你搞懂如何在实际项目中发挥硬件最大潜力。关键亮点包括ATB的动态显存复用机制、自定义算子融合策略以及针对长序列的优化技
艾莉丝努力练剑2 个月前
架构·cann
CANN hcomm 通用通信抽象层的后端插件化架构cann组织链接:https://atomgit.com/cann hcomm仓库链接:https://atomgit.com/cann/hcomm
昇腾CANN2 个月前
昇腾·cann
2月12日直播 | CANN算子一站式开发平台全面公测直播时间2026年2月12日19:00 - 20:00 B站/微信视频号搜索【昇腾CANN】观看直播,参与直播互动可获CANN周边小礼品。
艾莉丝努力练剑2 个月前
人工智能·cann
CANN hcomm 对 RDMA 与 Socket 传输协议的统一封装相关链接:在 CANN(Compute Architecture for Neural Networks)高性能计算生态中,HCOMM(Huawei Communication)作为 HCCL(Heterogeneous Collective Communication Library)的底层通信基础库,承担着为上层集合通信操作提供高效、可靠点对点(Point-to-Point)数据传输服务的重任。现代 AI 集群的硬件环境高度异构,既包含支持 RDMA(Remote Direct Memory Acce
种时光的人2 个月前
cann
破译 GE 库:CANN 图编译引擎的“大脑”与“交通枢纽”在深度学习模型的落地过程中,“从算法到硬件的高效执行”始终是最大的挑战之一。即使有了优化的算子和跨语言交互能力,若无法将分散的模型组件(算子、数据、控制流)组织成硬件“能懂且跑得快”的形式,性能依然会大打折扣。华为 CANN 生态中的 GE 库(Graph Engine,图编译引擎)正是解决这一问题的核心枢纽——它像一位“模型翻译官”兼“交通指挥官”,将前端框架的模型转化为硬件友好的执行计划,并调度数据与计算在 CANN 硬件上高效流动。今天,我们就深入 GE 库的内部,揭开它的神秘面纱。
种时光的人2 个月前
microsoft·交互·cann
探秘 CANN 的 hixl 库:让跨语言高性能交互如丝般顺滑在人工智能与高性能计算的世界里,“跨语言协作”往往是一道绕不开的难题——模型推理可能用 C++ 实现以获得极致性能,而业务逻辑却习惯用 Python 快速迭代;又或者底层算子用汇编/专用指令优化,上层调度却需要脚本语言的灵活性。如何让不同语言编写的模块高效、稳定地“对话”,既不失性能,又不牺牲开发效率?
种时光的人2 个月前
cann
玩转 catlass 库:CANN 上的“模板级”高性能数学运算利器在深度学习与高性能计算领域,数学运算库一直是底层性能的核心支柱。CANN 生态中除了我们前面介绍的 ops-math(基础数学运算)、hixl(跨语言交互)与 GE(图编译引擎),还有一个面向 极致性能优化 的底层库—— catlass(源于 “CANN Template-based Linear Algebra Subroutine Library” 的概念),它是面向 CANN 硬件量身打造的 模板化高性能线性代数与张量运算库。如果说 ops-math 是“瑞士军刀”,那么 catlass 就是为特定
七夜zippoe2 个月前
人工智能·机器学习·cann
CANN Runtime安全沙箱机制深度解析 从源码看硬件防护设计今天咱们不聊虚的,直接扒开CANN Runtime的源码,看看它是如何像铜墙铁壁一样保护你的AI加速卡不被恶意代码搞崩的。
向哆哆2 个月前
分布式·wpf·cann
CANN HCCL集合通信库在分布式训练中的高性能通信方案cann 组织链接:https://atomgit.com/cann hccl仓库解读链接:https://atomgit.com/cann/hccl
种时光的人2 个月前
人工智能·cann
直击硬件心脏:CANN pto-isa 库带你掌控指令集的奥秘在深度学习与高性能计算的赛道上,算子的性能不仅取决于算法与内存优化,更深层的瓶颈往往藏在 硬件指令的执行效率 里。对于 CANN(Compute Architecture for Neural Networks)平台而言,要想让模型推理或训练达到硬件的理论峰值,就必须让计算“说”硬件听得懂、执行快的 原生语言 —— 也就是 ISA(Instruction Set Architecture,指令集架构)。
向哆哆2 个月前
人工智能·cann
CANN Mat-Chem-Sim-Pred工业领域计算仿真与预测技术解析cann 组织链接:https://atomgit.com/cann mat-chem-sim-pred仓库解读链接:https://atomgit.com/cann/mat-chem-sim-pred
种时光的人2 个月前
cann
CANN仓库核心解读:atvc构筑推理的自动化验证与合规屏障在深度学习模型从研发到生产落地的全链路中,模型验证与结果合规性保障是容易被忽视却至关重要的环节。无论是工业质检的缺陷判定、医疗影像的病灶识别,还是金融风控的风险评估,模型的输出准确性与一致性直接关系到业务可靠性。CANN开源仓库(CANN组织链接:https://atomgit.com/cann)推出的 atvc(Automated Verification & Compliance,自动化验证与合规)项目(解读仓库链接:https://atomgit.com/cann/atvc),正是为解决这一痛点而生
种时光的人2 个月前
cann
CANN生态分布式中枢:HCCL构建大模型集群通信高速通道在大模型全链路开发中,随着参数量从亿级迈向万亿级,单卡训练已成为历史,分布式并行训练成为突破算力瓶颈的核心路径。而分布式训练的效率与稳定性,核心取决于多卡、多机间的数据通信能力——梯度同步、参数分发、结果聚合等关键环节,均需高效的集群通信支撑,通信延迟与带宽利用率直接决定了大模型训练的整体周期。依托华为CANN开源仓库的生态优势,HCCL(Huawei Collective Communication Library)仓库应运而生,作为CANN生态中专为大模型分布式训练打造的高性能集合通信库,聚焦集群节点