技术栈
ops-blas
hh.h.
11 小时前
人工智能
·
gemm
·
cann
·
ops-blas
昇腾CANN ops-blas 仓:GEMM分块参数调优实战
你跑一个矩阵乘法(GEMM),A是(4096, 4096),B是(4096, 4096),输出C是(4096, 4096)。理论上一次计算就能算出结果,但你发现延迟 120ms,不应该是 10ms 吗?
我是有底线的