一个编写最快,运行很慢的 cuda gemm kernel, 占位 kernel

C = alpha*A*B + beta*C

每个线程负责一个C(i , j) 元素的计算。

1, gemm nn

复制代码
__global__
void dgemm_NN( lint M,
                    lint N,
                    lint K,
                    double* Ad,
                    lint lda,
                    double* Bd,
                    lint ldb,
                    double* Cd,
                    lint ldc,
                    double alpha,
                    double beta )
{
    lint i = blockIdx.x * blockDim.x + threadIdx.x;
    lint j = blockIdx.y * blockDim.y + threadIdx.y;
    double sigma = 0.0;
    for(lint k=0; k<K; k++)
        sigma += Ad[i + k*lda]*Bd[k + j*ldb];

    Cd[i + j*ldc] = alpha*sigma + beta*Cd[i + j*ldc];
}

2, gemm nt

复制代码
__global__
void dgemm_NT( int opA,
                    int opB,
                    lint M,
                    lint N,
                    lint K,
                    double* Ad,
                    lint lda,
                    double* Bd,
                    lint ldb,
                    double* Cd,
                    lint ldc,
                    double alpha,
                    double beta )
{
    lint i = blockIdx.x * blockDim.x + threadIdx.x;
    lint j = blockIdx.y * blockDim.y + threadIdx.y;
    double sigma = 0.0;
    if(i<M && j<N){
        for(lint k=0; k<K; k++)
            sigma += Ad[i + k*lda]*Bd[k*ldb + j];

        Cd[i + j*ldc] = alpha*sigma + beta*Cd[i + j*ldc];
    }
}
相关推荐
suuijbd3 分钟前
个人总结八股文之-基础篇(持续更新)
算法
2401_881244404 分钟前
斐波那契数列------矩阵幂法
线性代数·算法·矩阵
机器学习与统计学27 分钟前
阿里牛逼,又开源两个遥遥领先的模型(向量化、重排),知识库要翻天地覆了
算法
小河豚oO30 分钟前
LeetCode刷题---贪心算法---944
算法·leetcode·贪心算法
【杨(_> <_)】33 分钟前
信号处理分析工具——时频分析(一)
算法·matlab·信号处理
还不起来学习?37 分钟前
常见算法题目5 -常见的排序算法
java·算法·排序算法
Once_day1 小时前
代码训练LeetCode(23)随机访问元素
算法·leetcode
小河豚oO1 小时前
LeetCode 热题 100 - 哈希 - 128
算法·leetcode·哈希算法
客卿1231 小时前
力扣100题之128. 最长连续序列
算法·leetcode·哈希算法
T1an-11 小时前
【力扣链表篇】206.反转链表
算法·leetcode·链表