技术栈
融合算子
Hi20240217
4 个月前
python
·
算法
·
性能优化
·
哈希算法
·
序列分析
·
融合算子
·
频繁项集
分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列
本文尝试分析Profiler Timeline中的算子序列,通过寻找频繁项集的办法,得到TOPK可融合的算子序列
Hi20240217
4 个月前
pytorch
·
python
·
性能优化
·
分布式训练
·
nccl
·
融合算子
将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap
本文演示了如何将数据切分成N份,采用NCCL异步通信,让all_gather+matmul尽量Overlap