技术栈

cann算子

嗝o゚
1 天前
人工智能·gemm·ascend·cann算子
昇腾CANN ops-blas 仓:GEMM 算子的高性能实现矩阵乘法是深度学习里最核心的操作,没有之一。Transformer 的 Attention 要做 Q@K.T 和 P@V,FFN 要做两 个 MatMul。GEMM(General Matrix Multiply)就是专门优化矩阵乘的算子。ops-blas 仓是 CANN 的线性代数基础算子库,GEMM 是它的核心产品。这篇文章拆开看它怎么把 Cube 单元跑满的。
我是有底线的