【AscendC】ReduceSum中指定workLocal大小时如何计算

参考官方文档,但其中对于workLocal大小的计算只是以代码注释的方式给出,不具有直观性,现在结合两个官方例子进行推导。

首先注意到api的调用,分为高维切分模式和指定数量模式,两种模式的计算是不同的,主要在于repeattimes这个变量的大小。

高维切分的例子见上图,可以看到结果是80.

结合图1进行分析,首先数据类型为half类型,所以elementsPerBlock为16,而repeatTime的计算是通过srcDataSize / mask, 也即8320 / 128 = 65。

进行上取整得到的结果是65 + 15 / 16 = 5, 5 * 16 = 80。所以最终结果为80。

对于指定数量n的模式,见下图:

此处指定的srcDataSize是288,由图1的注释,

// 此处需要注意:对于tensor高维切分计算接口,firstMaxRepeat就是repeatTimes;对于tensor前n个数据计算接口,firstMaxRepeat为count/elementsPerRepeat,比如在half类型下firstMaxRepeat就是count/128,在float类型下为count/64,按需填入,对于count<elementsPerRepeat的场景,firstMaxRepeat就是1

可以看到 firstMaxRepeated = 288 / 128 = 1。

因此得到的结果就是(1+ 15) / 16 * 16 = 16.

相关推荐
乾元2 分钟前
Syslog / Flow / Telemetry 的 AI 聚合与异常检测实战(可观测性)
运维·网络·人工智能·网络协议·华为·自动化·ansible
大千AI助手3 分钟前
编辑相似度(Edit Similarity):原理、演进与多模态扩展
人工智能·机器学习·大模型·编辑距离·相似度·大千ai助手·编辑相似度
数智顾问6 分钟前
(102页PPT)数字化转型,从战略到执行(附下载方式)
大数据·人工智能·物联网
XiaoMu_0017 分钟前
多场景头盔佩戴检测
人工智能·python·深度学习
民乐团扒谱机8 分钟前
【微实验】谱聚类之大规模数据应用——Nyström 方法
人工智能·算法·机器学习·matlab·数据挖掘·聚类·谱聚类
leafff12311 分钟前
一文了解:智能体大模型LangChain 和 Dify有什么区别?
人工智能·架构·langchain
xiangzhihong812 分钟前
什么是GPU
人工智能
QYZL_AIGC15 分钟前
全域众链AI 赋能实体,创业的生态共赢新范式
人工智能
L、21818 分钟前
Flutter + OpenHarmony + AI:打造智能本地大模型驱动的跨端应用(AI 时代新范式)
人工智能·flutter·华为·智能手机·harmonyos
ccLianLian20 分钟前
CLIPer
人工智能·计算机视觉