【2024第一期CANN训练营】全面掌握Ascend C算子

Sinh算子实现分享

近期参加了华为的CANN训练营,学习到了Ascend C的很多知识,训练营也步入尾声,在这里利用所学知识,分享Sinh的算子实现过程


1. 准备工作

首先我们需要知道一个算子工程有哪些部分组成

看上去有很多文件,但其实我们只需要修改其中主要的几个文件,也就是host侧的.h和.cpp文件以及kernal侧的.cpp文件,所以新手小白别被吓到!

2.具体流程

2.1 生成算子工程

首先我们需要通过.json文件生成算子工程,也就是先把框架搭建起来

根据算子的输入输出及其类型,填写如下json文件,sinh整体较为简单,只有一个输入一个输出

填写完成后在命令行中输入以下命令,框架就搭好了

复制代码
./msopgen gen -i /home/HwHiAiUser/SinhCustom/SinhCustom.json -c ai_core-ascend310B -lan cpp -out /home/HwHiAiUser/SinhCustom/

2.2 host侧实现

host侧主要是将一些参数以及切分策略传入到kernal侧
tiling注意一定要32字节对齐!!!

关于数据切分的部分对初学者来说十分复杂,可以参考往期训练营培训视频

cpp 复制代码
const uint32_t BLOCK_DIM = 8;
const uint32_t TILE_NUM = 8;
static ge::graphStatus TilingFunc(gert::TilingContext* context)
{
    SinhCustomTilingData tiling;
    uint32_t totalLength = context->GetInputShape(0)->GetOriginShape().GetShapeSize();
    context->SetBlockDim(BLOCK_DIM);
    tiling.set_totalLength(totalLength);
    tiling.set_tileNum(TILE_NUM);
    tiling.SaveToBuffer(context->GetRawTilingData()->GetData(), context->GetRawTilingData()->GetCapacity());
    context->GetRawTilingData()->SetDataSize(tiling.GetDataSize());
    size_t *currentWorkspace = context->GetWorkspaceSizes(1);
    currentWorkspace[0] = 0;
    return ge::GRAPH_SUCCESS;
}

填写.h文件

cpp 复制代码
#include "register/tilingdata_base.h"

namespace optiling {
BEGIN_TILING_DATA_DEF(SinhCustomTilingData)
  TILING_DATA_FIELD_DEF(uint32_t, totalLength);
  TILING_DATA_FIELD_DEF(uint32_t, tileNum);
END_TILING_DATA_DEF;

REGISTER_TILING_DATA_CLASS(SinhCustom, SinhCustomTilingData)

2.3 kernal侧实现

kernal侧主要运用host侧的切分策略,并进行compute运算

整个算子分析计算过程分为三个阶段:CopyIn,Compute,CopyOut

CopyIn:搬入x到Local内存

Compute:使用Local内存进行计算

CopyOut:搬运Local计算结果到z

这里主要讲解compute的实现
sinh(x) = (exp(x) - exp(-x)) / 2.0

我们需要将这些矢量运算一步步拆解,运算符的使用可以查阅Ascend官方的api

cpp 复制代码
__aicore__ inline void Compute(int32_t progress)
{
	LocalTensor<half> xLocal = inQueueX.DeQue<half>();
	LocalTensor<half> yLocal = outQueueY.AllocTensor<half>();
	
	Exp(yLocal, xLocal, this->tileLength); //exp(x)
	Muls(xLocal, xLocal, (half)(-1.0), this->tileLength); //-x
	Exp(xLocal, xLocal, this->tileLength); //exp(-x)
	Sub(xLocal, yLocal, xLocal, this->tileLength); //exp(x) - exp(-x)
	Muls(yLocal, xLocal, (half)(0.5), this->tileLength);
	
	outQueueY.EnQue<half>(yLocal);
	inQueueX.FreeTensor(xLocal);
}

3.编译测试

三部曲: 编译、安装run包、测试

复制代码
bash build.sh  
./build_out/custom_opp_ubuntu_aarch64.run
./test/run.sh

总结

通过本次CANN训练营,全面掌握了Ascend C算子的实现和测试流程,学习氛围十分浓厚,感谢工作人员的精心准备和辛勤付出

相关推荐
伶俜6616 小时前
鸿蒙原生应用实战(十九)ArkUI 喝水提醒 App:定时通知 + 每日记录 + 统计图表
华为·harmonyos
重生之后端学习16 小时前
Java入门
java·开发语言·职场和发展
碧海蓝天202216 小时前
C++法则24:在标准 C++ 中,没有任何可移植的方式判断指针 T* pt 指向的内存位置是否已经 构造了对象,程序员必须手动跟踪哪些元素已构造。
java·开发语言·c++
代码不加糖16 小时前
Proxy能够监听到对象中的对象的引用吗?
开发语言·前端·javascript
风华圆舞16 小时前
Flutter + 鸿蒙 Intents Kit:页面直达能力的完整接入方案
flutter·ui·华为·harmonyos
charlie11451419116 小时前
现代C++指南:Lambda,让我们用另一种方式持有函数
开发语言·c++
三声三视17 小时前
Electron 在鸿蒙 PC 上跑 webview,我是怎么把首屏从 4.2s 干到 1.1s 的
华为·electron·harmonyos·鸿蒙
qq36219670517 小时前
阿里裁员新消息(2026最新动态汇总)
java·开发语言·前端
.千余17 小时前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
代码改善世界17 小时前
【C++进阶】C++11:列表初始化、右值引用与移动语义、完美转发全解析
java·开发语言·c++