cann

大数据在线12 小时前
cuda·昇腾·cann·英伟达·deepseek
AI计算新生态:旧地图找不到新大陆沿着旧地图,永远找不到新大陆。当英伟达GPU+CUDA花费数年构筑起足够高的AI计算生态壁垒时,试图通过“抄作业”的方式固然短时间之内可获得一定的份额,但这种“亦步亦趋”的捷径,本质上是基于他人的生态,最终无法在市场中实现真正的突围。
昇腾CANN1 天前
开发语言·javascript·性能优化·昇腾·cann
TileLang-Ascend 算子性能优化方法与实操在 AI 大模型时代,算子性能优化是提升整体训练和推理效率的关键。TileLang 是一门面向高性能算子开发的领域特定语言(DSL),采用简洁直观的编程范式,让开发者能够以接近数学表达的方式描述计算逻辑。相比传统的手写算子开发,TileLang 大幅降低了开发门槛,使开发者能够更高效地完成高性能算子的开发与调优。
昇腾CANN3 天前
人工智能·昇腾·cann·deepseek
4月28日直播丨基于TorchTitan的DeepSeek-V4昇腾续训练优化实践
昇腾CANN6 天前
人工智能·昇腾·cann·deepseek
【DeepSeek-V4昇腾首发系列干货】NPU DeepSeek-V4推理优化实践原文链接(链接跳转异常请到原文中查看):NPU DeepSeek-V4推理优化实践 直播回放链接:DeepSeek-V4昇腾首发:基于CANN的训推优化实践 DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (K
昇腾CANN7 天前
人工智能·昇腾·cann
CANN NEXT系列干货:CANN算子开发体验升级系列直播回放及材料链接:CANN - 开源代码托管,代码协作 - AtomGit | GitCode以前写算子要走写‑跑‑调‑测四步循环,常常调半天也达不到性能要求。 这次 CANN 把算子编程、运行时调度、性能调优三个环节一次性升级,助力开发者体验升级:
wei_shuo12 天前
昇腾·cann
玩转昇腾 CANN:从 Hello World 到向量归一化的 Host–NPU 异构计算实战昇腾 CANN 一直被认为门槛高、资料散、难上手,但真正拦住新手的,并不是算子本身,而是对 Host 与 NPU 异构计算流程不清晰。本文基于 GitCode Notebook 的真实昇腾 NPU 环境,从 CANN 是什么、怎么跑起来讲起,通过 Hello World、数组加法到向量归一化三个最小可运行示例,完整演示 CPU 数据准备 → NPU 内存管理 → 数据传输 → 计算流程演示 → 结果回传 的全流程,帮助新手在 5 分钟内建立对 CANN 的正确认知,真正迈出昇腾异构计算的第一步。
昇腾CANN13 天前
人工智能·昇腾·cann
码力全开特辑直播预告|4月20日19:00,PyPTO Tensor编程范式介绍【昇腾CANN】视频号、B站昇腾社区多平台直播点击“https://gitcode.com/cann/cann-learning-hub/issues/18?sessionid=”,参与互动赢取惊喜定制礼
昇腾CANN15 天前
昇腾·cann
CANN Meetup 北京站|本周六赴约!参会指南+直播预约,干货、福利双丰收备受期待的 CANN Meetup 北京站,将于本周六(4月18日)正式与大家见面!为了让每一位参会者都能轻松赴约、满载而归,这份超详细参会指南请务必收藏,从签到流程到会场细节,从干货议题到专属福利,一文读懂所有注意事项~
昇腾CANN16 天前
昇腾·cann
4月15日直播丨CANNBot开发进阶:PyPTO算子开发实操进入社区互动讨论,获取往期材料,赢取社区好礼~https://gitcode.com/org/cann/discussions/80
昇腾CANN19 天前
昇腾·cann
从微观到介观:MCE SIG突破算力瓶颈的DPD算子已开源从微观到介观:MCE SIG突破算力瓶颈的DPD算子已开源,化工行业深入介观尺度,持续完善AI+科学计算能力
昇腾CANN19 天前
昇腾·cann
CANN NEXT系列干货:面向950的架构详解面向Ascend 950,CANN技术架构的变与不变当前,人工智能正以前所未有的速度渗透千行百业,推动 AI 算力需求呈指数级增长,算力已成为人工智能产业发展的核心竞争力。
昇腾CANN19 天前
昇腾·cann
【CANNBot学习周】4.13~4.16入门课程来袭经历了上一期“CANNBot发布:畅享算子开发新体验”,相信你对解锁智能化昇腾CANN算子开发已经跃跃欲试。
红目香薰21 天前
c语言·开发语言·华为·华为云·昇腾·cann·modelarts
Ascend C 算子:Sigmoid 函数原理深入解析与工程化构建及验证声明:本文所有内容均围绕Ascend C算子开发能力认证(中级)相关知识点进行考试心得分享,为保障考试的公平性,会对完整的流程、函数、逻辑、基础算法与代码进行说明,具体的合并组合方式需要理解后自行填充。
昇腾CANN1 个月前
昇腾·cann
4月3日直播丨CANNBot发布:畅享算子开发新体验CANN算子的"手工作坊"如何突围?当手写内核、反复调试、性能问题定位等成为效率瓶颈,AI开发正从"匠人单打独斗"迈向“智能工业化”。大模型时代更需注重算子的高效开发与快速定制,构建AI辅助的开发流水线。
昇腾CANN1 个月前
cann
HIXL快速适配NIXL昇腾后端HIXL 是昇腾面向高性能数据传输场景提供的通信能力组件,支持内存注册、建链、同步/异步传输、状态查询与通知等关键能力,并提供简洁、易用的 API,便于业务快速集成。当前,vLLM、SGLang 等多个主流 AI 开源框架已通过调用HIXL 接口,在昇腾设备上实现高性能数据传输。
昇腾CANN1 个月前
昇腾·cann
3月24日直播丨HCCL集合通信专用引擎CCU技术介绍在AI计算集群规模持续扩大的背景下,集合通信效率成为影响系统整体性能的关键因素。集合通信处理器(CCU)是昇腾NPU中用于加速集合通信任务的专用协处理器,其主要目标是解决传统通信方式中性能瓶颈,提升整体系统性能。
昇腾CANN1 个月前
昇腾·cann
3月23日直播丨HiF8高效数据格式及其应用Ascend 950支持HiFloat8数据格式,这是面向AI大模型训推的新一代8位浮点数据格式。创新采用动态点位域与即时可译变长前缀码设计,突破传统FP8精度与动态范围瓶颈,阶码范围接近16位浮点,大幅减少数值溢出。
昇腾CANN1 个月前
昇腾·cann
3月18日直播丨场景驱动,精准选型:Ascend 950算子编程语言如何抉择随着AI模型迭代不断加速,算子开发正面临前所未有的挑战。算法验证阶段,开发者更看重易用性与快速迭代;而部署阶段则追求极致性能,力求榨干硬件每一分潜能。面对如此多元的场景需求,算子编程语言领域正在形成全新的格局:既有基于C/C++的Ascend C,也有基于Python的DSL(如PyPTO、Triton和TileLang),它们共同构建起覆盖从算法探索到生产部署的全流程生态体系。 面对Ascend 950引入的 SIMT 矢量计算单元、基于 Reg 的 SIMD 矢量计算、AIC/AIV 数据通路增强,以
newBorn_19913 个月前
人工智能·深度学习·transformer·cann
ops-transformer RoPE位置编码 复数旋转硬件加速实战本文将深度解析cann项目中ops-transformer的RoPE位置编码实现,聚焦/operator/ops_transformer/rope/rotary_position_embedding.cpp的关键优化技术。核心内容包括sin/cos表预计算机制、向量指令融合策略,以及如何在NPU上实现复数旋转操作的高效硬件加速。通过实测数据,在LLaMA模型推理中实现18%的吞吐提升,为AIGC推理性能优化提供实战参考。本文将结合代码级实现细节和性能分析,分享一线开发中的优化经验。
七夜zippoe3 个月前
neo4j·cann
与vLLM对比 Ascend Transformer Boost吞吐延迟显存实测数据解读作为一名拥有多年AI基础设施实战经验的老兵,我今天想从工程角度深度解析CANN社区的Ascend Transformer Boost(ATB)与vLLM在Transformer推理性能上的真实较量。通过实测数据发现,ATB在长文本生成场景下显存优化尤为突出,相比vLLM可节省高达40%的显存占用,同时保持更稳定的吞吐表现。文章将结合源码级原理分析、可运行的代码demo以及企业级调优经验,带你搞懂如何在实际项目中发挥硬件最大潜力。关键亮点包括ATB的动态显存复用机制、自定义算子融合策略以及针对长序列的优化技