gemm

大模型应用：矩阵乘加（GEMM）全解析：大模型算力消耗的逻辑与优化.68在大模型的训练与推理过程中，我们应该经常会看到GEMM，General Matrix Multiply and Accumulate，就是矩阵乘加运算，GEMM构成了计算负载的绝对核心其计算量通常占整个 Transformer 架构的 90% 以上。无论是注意力机制中的 QKV 投影、多头融合，还是前馈网络（FFN）中的升维与降维操作，本质上都是不同形态的 GEMM。可以说，GEMM 不仅是大模型算力消耗的主战场，更是衡量硬件性能、评估量化收益、设计推理引擎的底层数学基石。

Hopper Gemm优化本章介绍下Hopper下TensorCore的使用，以及如何利用TensorCore实现和优化Gemm，主要参考这个博客和对应的代码实现。

cuDNN 的 IMPLICIT_GEMM 算法IMPLICIT_GEMM 是 NVIDIA cuDNN 库中用于卷积运算的一种算法选择。它是卷积计算的一种优化实现方式，特别适用于某些特定场景。

吃肉夹馍不要夹馍

CublasLt 极简入门官方文档： cublasLt文档网上搜了挺多，Cublas的文档有不少，但是对于cuda10以上轻量化的cublasLt 的文档或博客却很少。

VS2015+cublas实操记录（cuda加速GEMM矩阵乘加算子）cuda安装后一般的安装位置在：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8 把这个目录下的include和lib分别配置在vs中，安装cuda教程可参考：https://zhuanlan.zhihu.com/p/520995962（笔者实操ok版本:win11+cuda11.8+cdunn8.2.1.32+trt8.5.3.1）。另外还要记得添加附加依赖项：

我是有底线的