CUDA补充笔记

文章目录

一、不同核函数前缀

二、指定kernel要执行的线程数量

总共需要线程数是:

复制代码
1 * N = N个线程

三、线程需要两个内置坐标变量来唯一标识线程

①都是dim3类型变量

blockIdx指明线程在grid中的位置,threadIdx指明线程所在block中的位置

  • 若使用的向量大小为1<<20,假设block大小为256,而grid的大小就是4096

③而线程的ID值为:

二维:对于2-dim的block(Dx,Dy),线程(x,y)的ID值为(x+ yDx)
三维:如果是3-dim的block(Dx,Dy,Dz),线程(x,y,z)的ID值为(x+ y
Dx +zDxDy)

④矩阵加法

四、不是blocksize越大越好,上限一般是1024个blocksize

相关推荐
沐风听雨_A2 小时前
雄迈IP摄像头配置笔记
笔记
沐风听雨_A4 小时前
有人串口转Wifi模块配置笔记
笔记
小智RE0-走在路上5 小时前
Python学习笔记(11) --数据可视化
笔记·python·学习
么么...7 小时前
在 Ubuntu 上安装 Docker 并部署 MySQL 容器
linux·运维·经验分享·笔记·mysql·ubuntu·docker
Asus.Blogs7 小时前
SSE + Resty + Goroutine + Channel 完整学习笔记
笔记·学习·golang
雍凉明月夜8 小时前
深度学习网络笔记Ⅱ(常见网络分类1)
人工智能·笔记·深度学习
卷心菜_8 小时前
代码随想录笔记-背包问题
笔记
北岛寒沫8 小时前
北京大学国家发展研究院 经济学辅修 经济学原理课程笔记(第十三课 垄断竞争)
人工智能·经验分享·笔记
love530love9 小时前
【笔记】Intel oneAPI 开发环境配置
人工智能·windows·笔记·oneapi·onednn·deep neural
HansenPole8259 小时前
元编程笔记
笔记·网络协议·rpc