CUDA补充笔记

文章目录

一、不同核函数前缀

二、指定kernel要执行的线程数量

总共需要线程数是:

复制代码
1 * N = N个线程

三、线程需要两个内置坐标变量来唯一标识线程

①都是dim3类型变量

blockIdx指明线程在grid中的位置,threadIdx指明线程所在block中的位置

  • 若使用的向量大小为1<<20,假设block大小为256,而grid的大小就是4096

③而线程的ID值为:

二维:对于2-dim的block(Dx,Dy),线程(x,y)的ID值为(x+ yDx)
三维:如果是3-dim的block(Dx,Dy,Dz),线程(x,y,z)的ID值为(x+ y
Dx +zDxDy)

④矩阵加法

四、不是blocksize越大越好,上限一般是1024个blocksize

相关推荐
DKPT9 分钟前
Java内存区域与内存溢出
java·开发语言·jvm·笔记·学习
ST.J22 分钟前
前端笔记2025
前端·javascript·css·vue.js·笔记
Suckerbin36 分钟前
LAMPSecurity: CTF5靶场渗透
笔记·安全·web安全·网络安全
小憩-1 小时前
【机器学习】吴恩达机器学习笔记
人工智能·笔记·机器学习
UQI-LIUWJ2 小时前
unsloth笔记:运行&微调 gemma
人工智能·笔记·深度学习
googleccsdn2 小时前
ESNP LAB 笔记:配置MPLS(Part4)
网络·笔记·网络协议
楚肽生物小敏2 小时前
Cy5-Tyramide, Cyanine 5 Tyramide;1431148-26-3
笔记
speop2 小时前
llm的一点学习笔记
笔记·学习
运维小雅2 小时前
哪些因素会直观地影响到产品销量?
经验分享·笔记·媒体
抓饼先生3 小时前
Linux control group笔记
linux·笔记·bash