Ascend C算子开发(入门)—— 算子开发初体验


文章目录

Ascend C算子开发(入门)------ 算子开发初体验

Host与Device
  • Host指与Device相连接的x86服务器,ARM服务器,会利用Device提供的NN(Neural Network)计算能力完成任务。
  • Device模块指安装了昇腾AI处理器的硬件设备,利用PCle接口与Host侧连接,提供NN计算能力。

以下图为例,理解传统计算机中Host端和Device端的概念。

而CANN框架中的Host和Device的概念不过是,将Device端的显卡部分替换成华为AI加速卡。

核心需要编写在AI Core上的代码。

核函数
什么是核函数

核函数是跑在AI Core上的,是Ascend C算子设备测的入口,用户使用核函数这种C/C++函数的语法扩展来管理设备测的运行代码,用户在核函数中实现算子逻辑的编写,例如自定义算子类及其成员函数以实现该算子的所有功能。核函数是主机侧核设备侧连接的桥梁。

如何编写核函数?
核函数实现例子------Hello World

HelloWorld------实现(Device端)

c++ 复制代码
#include "kernel_operator.h"
using namespace AscendC;
// 核函数实现
extern "C" __global__ __aicore__ void hello_world(){
  printf("Hello World!!!\n");
}
// 核函数调用
void hello_world_do(uint32_t blockDim, void* stream){
  hello_world<<<blockDim,nullptr,stream>>>();
}

HelloWorld------调用(Host端)

c++ 复制代码
hello_world_do(blockDim,stream);
aclrtSynchronizeStream(stream);// 阻塞,等待所有队列任务执行完成。
完整核函数泛讲

在核函数中完成初始化和数据处理,初始化阶段找到核需要计算的GlobalMemory,Process对每一段数据进行拷入、计算和拷出。

copyin阶段完成了将数据从Device端的显存移动到AICore中(从GlobalMemory到LocalMemory),当将数据拷入时,先放入一个队列,计算时将数据从队列拿出来做计算并放到另一个队列中。

compute阶段完成计算

Memory),当将数据拷入时,先放入一个队列,计算时将数据从队列拿出来做计算并放到另一个队列中。

compute阶段完成计算

copyout阶段拷出数据

相关推荐
Gu Gu Study6 分钟前
枚举与lambda表达式,枚举实现单例模式为什么是安全的,lambda表达式与函数式接口的小九九~
java·开发语言
时光の尘21 分钟前
C语言菜鸟入门·关键字·float以及double的用法
运维·服务器·c语言·开发语言·stm32·单片机·c
-一杯为品-30 分钟前
【51单片机】程序实验5&6.独立按键-矩阵按键
c语言·笔记·学习·51单片机·硬件工程
以后不吃煲仔饭34 分钟前
Java基础夯实——2.7 线程上下文切换
java·开发语言
进阶的架构师35 分钟前
2024年Java面试题及答案整理(1000+面试题附答案解析)
java·开发语言
前端拾光者39 分钟前
利用D3.js实现数据可视化的简单示例
开发语言·javascript·信息可视化
程序猿阿伟41 分钟前
《C++ 实现区块链:区块时间戳的存储与验证机制解析》
开发语言·c++·区块链
傻啦嘿哟1 小时前
如何使用 Python 开发一个简单的文本数据转换为 Excel 工具
开发语言·python·excel
大数据编程之光1 小时前
Flink Standalone集群模式安装部署全攻略
java·大数据·开发语言·面试·flink
初九之潜龙勿用1 小时前
C#校验画布签名图片是否为空白
开发语言·ui·c#·.net