技术栈

融合算子

Hi20240217
10 个月前
python·算法·性能优化·哈希算法·序列分析·融合算子·频繁项集
分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列本文尝试分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列
Hi20240217
10 个月前
pytorch·python·性能优化·分布式训练·nccl·融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap