技术栈

融合算子

zjun3021
20 天前
cann·融合算子·昇腾950
【昇腾950 cv融合算子体验】L0C Buffer到UB的单向数据通路昇腾950在架构上做了更新,参考文档如下:220x到351x架构变更 如上图红色线段所示,新增通过LOC->Unifiled Buffer的数据通道 按照之前A2/A3上的数据搬运通路,cv融合算子需要通过GM作为中转站,典型通路如:L0C → FixPipe → GM → DataCopy → UB。既然950提供了相关硬件支持,那么就可以测试下,新的通路是否有性能(少一层GM数据中转)提升。
Hi20240217
2 年前
python·算法·性能优化·哈希算法·序列分析·融合算子·频繁项集
分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列本文尝试分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列
Hi20240217
2 年前
pytorch·python·性能优化·分布式训练·nccl·融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
我是有底线的