CUDA C 编程入门学习记录

这是本人21年读书时学习CUDA基础知识保留的一些笔记,学习时的内容出处和图片来源不记得了,仅作为个人记录!

CUDA编程

host:主机端CPU

device:设备端GPU

kernels:核函数

  • global:定义一个kernel函数
    • 入口函数,CPU调用,GPU执行,返回void
  • 线程层次
    grid-> block -> threads : 找到一个线程:需要每个线程的编号(threadIdx)和对应的block
  • <<<1个block,block的索引是2维的>>>
  • int i 获取索引的下标
  • 块索引 blockIdx
  • 块维度 blockDim
  • 上面的代码可以只用了一个block,可使用多个block
  1. 线程的全局位置更改(int i)
  2. 定义每个线程块空间大小(16,16)
  3. 需要多少个block(N/16,N/16)
  • 例如N=32
  • 每块16×16个线程(threadIdx([0,15],[0,15]))
  • Grid有2×2个线程块Block(blockIdx([0,1],[0,1]) blockDim = 16)
  • 那么int i = blockIdx.x * blockDim.x + threadIdx.x
  • 线程同步:
  • Host与device数据传输
    • global memory 全局存储器
    • Constant memory 常量存储器
    • cudaMalloc() global memory分配
    • cudaFree()释放空间
  • 拷贝cudaMmcpy(目的地址,原地址,size, cudaMemcpyHostToDevice)
例如矩阵相乘,每个元素互不影响
  • cpu实现:

  • gpu实现:

  1. 对输入和输出数据内存进行管理,分配内存
  2. 并行处理
  3. 拷贝回cpu,释放内存
  4. 伪代码
  5. cuda核函数实现:
  6. 调用
线程同步

每一个块block可以使用__syncthreads()等待上面程序所有线程都执行完成调用下面方法。

参考

图片来源

很老的一个视频但是入门确实是够了,推荐~

相关推荐
WSSWWWSSW1 小时前
Numpy科学计算与数据分析:Numpy文件操作入门之数组数据的读取和保存
开发语言·python·数据挖掘·数据分析·numpy
芥子须弥Office1 小时前
从C++0基础到C++入门 (第二十五节:指针【所占内存空间】)
c语言·开发语言·c++·笔记
Q741_1472 小时前
如何判断一个数是 2 的幂 / 3 的幂 / 4 的幂 / n 的幂 位运算 总结和思考 每日一题 C++的题解与思路
开发语言·c++·算法·leetcode·位运算·总结思考
半瓶啤酒一醉方休3 小时前
C# 查询电脑已安装所有软件并打印txt保存到桌面
开发语言·c#
钢铁男儿3 小时前
深入解析C#并行编程:从并行循环到异步编程模式
开发语言·c#
小郝 小郝3 小时前
开启单片机
c语言·单片机·嵌入式硬件·学习·51单片机
小杜的生信筆記4 小时前
基于R语言,“上百种机器学习模型”学习教程 | Mime包
开发语言·学习·机器学习·r语言·sci
慕y2744 小时前
Java学习第一百二十二部分——HTTPS
网络协议·学习·https
源代码•宸5 小时前
C++高频知识点(十八)
开发语言·c++·经验分享·多线程·互斥锁·三次握手·字节对齐
mit6.8245 小时前
修复C++14兼容性问题& 逻辑检查
开发语言·c++