kerminal工具试用

这两天kerminal在做推广,我试用了一下他们的工具。有一些值得分享的感受。首先这个工具的前身是kernelcat,当时在几十分钟内写好了最新的DeepSeek mHc算子,还引起了一点轰动。据说写的加法能到官方baseline的九倍。这次不限量试用,我直接吃螃蟹。

编写算子

首先让他写了一个ScatterElements,能够写出来,验证也是通过的。我要求直接用pybind11,这样我用python就能调用,他写出来的工程看起来也比之前我们构建的aclnn工程要简洁很多,这个确实好评啊。

优化算子

我让他优化一下我写的算子,大概给了四个优化。一是使用DataCopy取代SetValue和GetValue,这个一般人都不会用SetValue吧(这里指的是原数据到目标数据的拷贝)。ScatterElements的更新还是只能用全局的操作,因为是Scatter的嘛。

第二个优化是利用DataCopy一次读一块index和update,这个见仁见智,小规模的场景还会占用UB,效果也并不一定好。

第三个优化是把坐标的递增逻辑从除法改成累加,这个对1D的效果不大,因为计算除法的部分可以被编译器优化掉。这个优化确实比较细节了,原理上听起来非常类似于,把除法换成移位操作。

第四个优化是把kernel从一个分裂成两个,一个kernel专门负责拷贝,一个kernel专门负责更新。

优化之后,我发现他搞错了我的910B3的AIV数目了,只用了20个AIV。这个确实有点出乎我意料了,比较简单能想起来的优化了算是。

用Triton-Ascend

这个确实出乎意料,我让他用了Triton-Ascend写算子,他也写出来了,而且测试也能过,确实很不错。不过在写的时候他说Triton-Ascend只支持int64,我让他检查了这个事情,又否认了,并且写出来了一版int32的。

相关推荐
aqi0021 小时前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
vivo互联网技术3 天前
CVPR 2026 | 全新强化学习框架 BeautyGRPO:重塑真实人像
算法·大模型·cvpr·影像
AndrewHZ4 天前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
Vergelight4 天前
实战拆解|三类RAG架构差异:朴素、进阶、多轮RAG落地选型指南
架构·大模型·aigc·agent·ai产品经理·转行·ai后台设计
问道飞鱼4 天前
【大模型相关】意图识别实现方案行业分析报告
大模型·意图识别
DogDaoDao4 天前
【GitHub】CL4R1T4S:AI 系统提示词的透明革命
人工智能·python·ai·大模型·github·ai agent·cl4r1t4s
ujainu小4 天前
CANN ops-nn:新增一个自定义激活函数算子的完整流程
算子·cann
文艺倾年4 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
IRevers4 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev
张彦峰ZYF5 天前
从嵌入、表征到潜空间:理解大模型向量世界的三种视角
人工智能·大模型·向量空间