CUDA补充笔记

文章目录

一、不同核函数前缀

二、指定kernel要执行的线程数量

总共需要线程数是:

1 * N = N个线程

三、线程需要两个内置坐标变量来唯一标识线程

①都是dim3类型变量

blockIdx指明线程在grid中的位置,threadIdx指明线程所在block中的位置

  • 若使用的向量大小为1<<20,假设block大小为256,而grid的大小就是4096

③而线程的ID值为:

二维:对于2-dim的block(Dx,Dy),线程(x,y)的ID值为(x+ yDx)
三维:如果是3-dim的block(Dx,Dy,Dz),线程(x,y,z)的ID值为(x+ y
Dx +zDxDy)

④矩阵加法

四、不是blocksize越大越好,上限一般是1024个blocksize

相关推荐
omage2 小时前
cornerstone3D学习笔记-MPR
笔记·学习·vtk·dicom·mpr
Zhouqi_Hua4 小时前
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly
论文阅读·笔记·深度学习·语言模型·自然语言处理
Urf_read5 小时前
微服务入门-笔记
redis·笔记·微服务
V---scwantop---信5 小时前
英文字体:极简现代浓缩未来派科技海报标题排版无衬线字体 PODIUM Sharp Font
笔记·字体
出门喝奶茶6 小时前
挖掘图片的秘密:如何用piexif提取和修改Exif数据
笔记·python
Moonnnn.7 小时前
C语言——时基
c语言·笔记·学习
人有一心7 小时前
cs224w课程学习笔记-第2课
笔记·学习
红色的山茶花8 小时前
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-build.py
笔记·深度学习·yolo
GardenTu8 小时前
vue非组件的初学笔记
javascript·vue.js·笔记
前端熊猫9 小时前
栈与队列学习笔记
笔记·学习·算法··队列