技术栈
cutlass
ouliten
10 天前
c++
·
笔记
·
cuda
·
cutlass
[CUTLASS笔记2]host端工具类
头文件这里大部分的流程都和上一篇一模一样,就不再赘述了这是cutlass封装的half数据类型,对应cuda的__half
engchina
1 年前
人工智能
·
线性代数
·
cuda
·
cutlass
CUTLASS:高性能 CUDA 线性代数模板库详解
在深度学习和高性能计算领域,GPU 加速的线性代数计算(如矩阵乘法、卷积等)是核心操作之一。为了充分发挥 GPU 的性能,NVIDIA 推出了 CUTLASS(CUDA Templates for Linear Algebra Subroutines and Solvers),这是一个高效、灵活的 CUDA C++ 模板库。本文将详细介绍 CUTLASS 的概念、用途、安装方法以及如何使用它来加速计算。
fgh431
2 年前
ai
·
nvidia
·
cutlass
·
ai推理工程师
发表博客之:gemm/threadblock/threadblock_swizzle.h 文件夹讲解,cutlass深入讲解
如果 N = 2 N=2 N=2,那么三对<<<>>>发射的grid就是(8,2,1)!那么每个Tile被映射到的ThreadBlock id如下图所示。
我是有底线的