技术栈
cutlass
engchina
6 天前
人工智能
·
线性代数
·
cuda
·
cutlass
CUTLASS:高性能 CUDA 线性代数模板库详解
在深度学习和高性能计算领域,GPU 加速的线性代数计算(如矩阵乘法、卷积等)是核心操作之一。为了充分发挥 GPU 的性能,NVIDIA 推出了 CUTLASS(CUDA Templates for Linear Algebra Subroutines and Solvers),这是一个高效、灵活的 CUDA C++ 模板库。本文将详细介绍 CUTLASS 的概念、用途、安装方法以及如何使用它来加速计算。
fgh431
8 个月前
ai
·
nvidia
·
cutlass
·
ai推理工程师
发表博客之:gemm/threadblock/threadblock_swizzle.h 文件夹讲解,cutlass深入讲解
如果 N = 2 N=2 N=2,那么三对<<<>>>发射的grid就是(8,2,1)!那么每个Tile被映射到的ThreadBlock id如下图所示。