技术栈
gemm
hh.h.
11 小时前
人工智能
·
gemm
·
cann
·
ops-blas
昇腾CANN ops-blas 仓:GEMM分块参数调优实战
你跑一个矩阵乘法(GEMM),A是(4096, 4096),B是(4096, 4096),输出C是(4096, 4096)。理论上一次计算就能算出结果,但你发现延迟 120ms,不应该是 10ms 吗?
嗝o゚
2 天前
人工智能
·
gemm
·
ascend
·
cann算子
昇腾CANN ops-blas 仓:GEMM 算子的高性能实现
矩阵乘法是深度学习里最核心的操作,没有之一。Transformer 的 Attention 要做 Q@K.T 和 P@V,FFN 要做两 个 MatMul。GEMM(General Matrix Multiply)就是专门优化矩阵乘的算子。ops-blas 仓是 CANN 的线性代数基础算子库,GEMM 是它的核心产品。这篇文章拆开看它怎么把 Cube 单元跑满的。
minhuan
4 个月前
gemm
·
大模型应用
·
矩阵乘加运算
·
大模型算力优化
大模型应用:矩阵乘加(GEMM)全解析:大模型算力消耗的逻辑与优化.68
在大模型的训练与推理过程中,我们应该经常会看到GEMM,General Matrix Multiply and Accumulate,就是矩阵乘加运算,GEMM构成了计算负载的绝对核心其计算量通常占整个 Transformer 架构的 90% 以上。无论是注意力机制中的 QKV 投影、多头融合,还是前馈网络(FFN)中的升维与降维操作,本质上都是不同形态的 GEMM。可以说,GEMM 不仅是大模型算力消耗的主战场,更是衡量硬件性能、评估量化收益、设计推理引擎的底层数学基石。
KIDGINBROOK
5 个月前
cuda
·
gemm
·
hopper
Hopper Gemm优化
本章介绍下Hopper下TensorCore的使用,以及如何利用TensorCore实现和优化Gemm,主要参考这个博客和对应的代码实现。
Eloudy
10 个月前
算法
·
gpu
·
gemm
cuDNN 的 IMPLICIT_GEMM 算法
IMPLICIT_GEMM 是 NVIDIA cuDNN 库中用于卷积运算的一种算法选择。它是卷积计算的一种优化实现方式,特别适用于某些特定场景。
吃肉夹馍不要夹馍
2 年前
cuda
·
cublas
·
gemm
·
cublaslt
CublasLt 极简入门
官方文档: cublasLt文档网上搜了挺多,Cublas的文档有不少,但是对于cuda10以上轻量化的cublasLt 的文档或博客却很少。
Thomas_Cai
3 年前
线性代数
·
矩阵
·
cuda
·
cublas
·
gemm
VS2015+cublas实操记录(cuda加速GEMM矩阵乘加算子)
cuda安装后一般的安装位置在:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8 把这个目录下的include和lib分别配置在vs中,安装cuda教程可参考:https://zhuanlan.zhihu.com/p/520995962(笔者实操ok版本:win11+cuda11.8+cdunn8.2.1.32+trt8.5.3.1)。 另外还要记得添加附加依赖项:
我是有底线的