技术栈
算子
brave and determined
20 小时前
自动化测试
·
人工智能
·
log4j
·
算子
·
fuzz
·
测试实战
·
st测试
CANN训练营 学习(day10)昇腾AI算子ST测试全攻略:从入门到精通
训练营简介报名链接https://www.hiascend.com/developer/activities/cann20252#cann-camp-2502-intro
向哆哆
20 天前
算子
·
昇腾
·
cann
深入解析华为 CANN Matmul 高阶算子:数据流、NZ 格式与完整 Tiling 策略全解
在昇腾 AI 处理器生态中,矩阵乘法(Matmul)是最关键、最基础的核心算子之一。无论是 Transformer、CNN 还是复杂的科学计算模型,最终都可以分解为一系列 Matmul 操作。因此,一个高性能 Matmul 的实现,往往决定了整个模型推理与训练性能的上限。
向哆哆
20 天前
算子
·
昇腾
·
cann
深入解析华为CANN算子开发:从异构并行到核函数编程
随着人工智能计算需求的日益增长,算子(Operator,简称OP)在深度学习模型执行中的作用越来越重要。华为Ascend AI处理器通过CANN(Compute Architecture for Neural Networks)框架,为开发者提供了高效的算子编程能力。本文将围绕异构并行编程模型、SPMD并行计算以及核函数开发与调用等核心内容,详细解析Ascend C算子开发的技术要点和实现方法。
向哆哆
21 天前
华为
·
算子
·
昇腾
·
cann
深入理解华为 CANN 中的 Broadcast 算子实现:从底层机制到工程化落地
在深度学习算子开发的世界里,Broadcast 是一个看似简单,却在底层实现上极富挑战性的概念。对用户而言,Broadcast 只是让两个 shape 不一致的张量也能 “自然相加”;但对于算子开发者而言,它涉及 数据扩维策略、对齐约束、核内 Tiling 切分、UB 缓冲区布局以及对硬件特性的深度理解。
向哆哆
21 天前
算子
·
昇腾
·
cann
深入解析华为CANN Matmul算子:从数据流到高性能实现
在深度学习计算中,矩阵乘法(Matmul)是核心算子之一,也是AI计算加速性能的关键瓶颈。华为CANN(Compute Architecture for Neural Networks)提供了高效的Matmul算子实现,通过合理的数据布局、分块(Tiling)和多核并行策略,实现了在Ascend AI处理器上的高性能矩阵乘计算。本文将全面解析CANN Matmul算子的设计理念、数据流、分块策略以及高阶API使用方法。
向哆哆
21 天前
华为
·
算子
·
昇腾
·
cann
深入理解华为CANN静态Tensor编程范式:极致性能的算子开发之道
在深度学习硬件加速领域,算子性能优化一直是关键环节。华为Ascend系列处理器提供了丰富的算子开发接口,其中CANN(Compute Architecture for Neural Networks)框架下的静态Tensor编程范式为开发者在追求极致性能时提供了灵活而高效的途径。本篇文章将系统解析静态Tensor编程的设计理念、内存与同步管理机制、流水优化方法,以及开发约束与实用技巧,帮助开发者理解如何在AI Core上实现高性能算子。
wuli_滔滔
23 天前
算子
·
昇腾
·
atlas
·
ascend c
·
cann]
昇腾Atlas加速卡与Ascend C:从硬件基石到编程哲学的深度解析与实战
目录摘要1. 引子:我们为何需要“另一种”AI芯片和编程模型?2. 昇腾Atlas加速卡硬件架构:达芬奇核心的匠心独运
Soonyang Zhang
1 个月前
人工智能
·
算子
·
ascendc
MoeDistributeDispatch算子代码阅读
图像定格,一声尖利的呜叫响起,排险者告诉人们,预警系统报警了。 “为什么?”总工程师不解地问。 “这个原始人仰望星空的时间超过了预誓阀值,已对宇宙表现出了充分的好奇。到此为止,已在不同的地点观察到了十例这样的超限事件,符合报警条件。” “如果我没记错的话,你前面说过,只有当有能力产生创世能级能量、过程的文明出现时,预警系统才会报警。” “你们看到的不正是这样一个文明吗? ——《朝闻道》
被制作时长两年半的个人练习生
2 个月前
算法
·
面试
·
职场和发展
·
算子
近期的笔试和面试的复盘
报错如下:解决上面的问题有两种方法: 如果是C++ 14及以前,可以通过类外定义的方式实现:对于C++17及以后,可以通过inline的方式直接在类内定义同时初始化。
AndrewHZ
3 个月前
图像处理
·
算法
·
计算机视觉
·
cv
·
算子
·
边缘检测
【图像处理基石】图像处理中的边缘检测算法及应用场景
边缘检测是图像处理中的关键技术,用于识别图像中亮度变化剧烈的区域,这些区域通常对应物体的边界。以下是几种经典的边缘检测算法及其应用场景:
伊织code
1 年前
人工智能
·
神经网络
·
paddlepaddle
·
飞桨
·
编译
·
算子
·
cinn
CINN - 神经网络的编译器基础设施 [飞桨]
CINN项目是多硬件后端的机器学习编译器和执行器。它旨在提供多层API,使张量计算更容易定义、执行更快,并且更方便地与硬件后端一起扩展。目前,它的目标是x86处理器和英伟达图形处理器。
PersistJiao
1 年前
spark
·
rdd
·
算子
·
join
Spark RDD各种join算子从源码层分析实现方式
在 Spark RDD 中,join、leftOuterJoin、rightOuterJoin、fullOuterJoin 等多个 Join 操作符都使用了 cogroup 进行底层实现。cogroup 是 Spark 中的一种底层分组操作,可以将两个或多个 RDD 中同一键的数据分组到一起,为各种 Join 操作提供了基础。下面我们从源码实现角度来分析这些 Join 操作符的实现原理,并列出相关的核心代码。
SunnyRivers
1 年前
大数据
·
flink
·
算子
·
数据流
理解Flink数据流图
在大数据处理的世界里,Apache Flink 已经成为处理实时数据流的一个强大工具。Flink 提供了一种高度灵活的方法来构建复杂的数据处理管道,其核心是所谓的 DataFlow 图模型。本文将带你深入了解 Flink DataFlow 图的基础知识,帮助你理解它是如何工作的以及如何利用它来构建高效的数据流应用程序。
华为云开发者联盟
2 年前
算子
·
昇腾
·
cann
·
华为云开发者联盟
·
ascend c
一文教你如何调用Ascend C算子
本文分享自华为云社区《一文教你如何调用Ascend C算子》,作者: 昇腾CANN。Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。基于Ascend C编写的算子程序,通过编译器编译和运行时调度,运行在昇腾AI处理器上。使用Ascend C,开发者可以基于昇腾AI硬件高效实现自定义的创新算法。
Briwisdom
2 年前
人工智能
·
tvm
·
算子
·
ai编译器
·
指令优化
AI编译器的后端优化策略
工作领域是AI芯片工具链相关,很多相关知识的概念都是跟着项目成长建立起来,但是比较整个技术体系在脑海中都不太系统,比如项目参与中涉及到了很多AI编译器开发相关内容,东西比较零碎,工作中也没有太多时间去做复盘与查漏补缺。但是最近比较闲,发现了一个宝藏级的B站博主,系统的讲了很多AI芯片领域的知识,并把课程资源开源维护,极力推荐大家多多关注。在这里当个搬运工,传播一下。
G皮T
2 年前
大数据
·
flink
·
实时计算
·
窗口
·
算子
·
数据交换
·
流处理
【大数据】流处理基础概念(一):Dataflow 编程基础、并行流处理
Dataflow 程序描述了数据如何在不同操作之间流动。Dataflow 程序通常表示为 有向图。图中 顶点 称为 算子,表示计算;而 边 表示 数据依赖关系。算子是 Dataflow 程序的基本功能单元,它们从输入获取数据对其进行计算,然后产生数据并发往输出,以供后续处理。没有输入端的算子称为 数据源(data sources),没有输出端的算子称为 数据汇(data sinks)。一个 Dataflow 图至少要有一个数据源和一个数据汇。
华为云开发者联盟
2 年前
算子
·
cann
·
算子开发
·
自定义算子
手敲,Ascend算子开发入门笔记分享
本文分享自华为云社区《Ascend算子开发入门笔记》,作者: JeffDing 。Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,最大化匹配用户开发习惯;通过多层接口抽象、自动并行计算、孪生调试等关键技术,极大提高算子开发效率,助力AI开发者低成本完成算子开发和模型调优部署。
华为云开发者联盟
2 年前
编程范式
·
算子
3天上手Ascend C编程丨通过Ascend C编程范式实现一个算子实例
本文分享自华为云社区《3天上手Ascend C编程 | Day2 通过Ascend C编程范式实现一个算子实例》,作者:昇腾CANN 。
我是有底线的