VS2015+cublas实操记录(cuda加速GEMM矩阵乘加算子)

1. 环境配置:

cuda安装后一般的安装位置在:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8

把这个目录下的include和lib分别配置在vs中,安装cuda教程可参考:https://zhuanlan.zhihu.com/p/520995962(笔者实操ok版本:win11+cuda11.8+cdunn8.2.1.32+trt8.5.3.1)。

另外还要记得添加附加依赖项

复制代码
cublas.lib
cudart.lib

不然会报错:

error LNK2019: 无法解析的外部符号 cudaMalloc,该符号在函数 "class cv::Mat __cdecl CublasByCuda(class cv::Mat,class cv::Mat)" (?CublasByCuda@@YA?AVMat@cv@@V12@0@Z) 中被引用

2. 代码可参考:

https://blog.csdn.net/baishuiniyaonulia/article/details/120119380

  • 如果你是结合opencv,用cv::Mat做矩阵乘可参考:
py 复制代码
#include <iostream>
#include <opencv2/core.hpp>
#include <cuda_runtime.h>
#include <cublas_v2.h>

int main() {
    const int N = 1000;
    const int K = 500;
    const int M = 800;

    // 创建 cuBLAS 句柄
    cublasHandle_t cublasHandle;
    cublasCreate(&cublasHandle);

    // 分配设备内存
    float *d_A, *d_B, *d_C;
    cudaMalloc((void**)&d_A, N * K * sizeof(float));
    cudaMalloc((void**)&d_B, K * M * sizeof(float));
    cudaMalloc((void**)&d_C, N * M * sizeof(float));

    // 在这里可以将数据填充到 d_A 和 d_B
    // 例如,将 cv::Mat 转换为设备内存中的数据
    cv::Mat A(N, K, CV_32F);
    cv::Mat B(K, M, CV_32F);
    cv::randu(A, 0.0, 1.0);
    cv::randu(B, 0.0, 1.0);
    cudaMemcpy(d_A, A.data, N * K * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, B.data, K * M * sizeof(float), cudaMemcpyHostToDevice);

    const float alpha = 1.0f;
    const float beta = 0.0f;

    // 调用 cuBLAS 进行矩阵乘法计算
    cublasSgemm(cublasHandle, CUBLAS_OP_N, CUBLAS_OP_N,
                M, N, K,
                &alpha, d_B, M,
                d_A, K,
                &beta, d_C, M);

    // 将结果从设备内存传回主机内存
    cv::Mat C(N, M, CV_32F);
    cudaMemcpy(C.data, d_C, N * M * sizeof(float), cudaMemcpyDeviceToHost);

    // 打印计算结果
    std::cout << "Result Matrix C:" << std::endl << C << std::endl;

    // 清理资源
    cublasDestroy(cublasHandle);
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);

    return 0;
}
相关推荐
啵啵鱼爱吃小猫咪3 小时前
机械臂能量分析
线性代数·机器学习·概率论
Physicist in Geophy.4 小时前
从矩阵到函数(算子理论)
矩阵·math
Physicist in Geophy.5 小时前
一维波动方程(从变分法角度)
线性代数·算法·机器学习
AI科技星6 小时前
从ZUFT光速螺旋运动求导推出自然常数e
服务器·人工智能·线性代数·算法·矩阵
_OP_CHEN7 小时前
【算法基础篇】(五十八)线性代数之高斯消元法从原理到实战:手撕模板 + 洛谷真题全解
线性代数·算法·蓝桥杯·c/c++·线性方程组·acm/icpc·高斯消元法
独断万古他化7 小时前
【算法通关】前缀和:和为 K、和被 K整除、连续数组、矩阵区域和全解
算法·前缀和·矩阵·哈希表
ouliten16 小时前
cuda编程笔记(36)-- 应用Tensor Core加速矩阵乘法
笔记·cuda
3GPP仿真实验室17 小时前
【MATLAB源码】CORDIC-QR :基于Cordic硬件级矩阵QR分解
开发语言·matlab·矩阵
Σίσυφος190018 小时前
PCL 法向量估计-PCA邻域点(经典 kNN 协方差)的协方差矩阵
人工智能·线性代数·矩阵
_OP_CHEN1 天前
【算法基础篇】(五十七)线性代数之矩阵乘法从入门到实战:手撕模板 + 真题详解
线性代数·算法·矩阵·蓝桥杯·c/c++·矩阵乘法·acm/icpc