CUDA编程入门系列(十一)CUDA程序优化技巧

优化原则:最大化并行执行

探索并行化:

优化线程块的规模

我们在设计CUDA程序的时候,要对线程块的个数进行考虑。因为GPU中流处理器SM的数量是相对固定的,所以我们应该尽量的将多个block放到同一个SM当中(至少保证每个SM中都有一个块),使得SM时刻处于活跃状态。但如果块所需资源过多,那么一个SM能够同时处理的块就比较少。

优化线程块的大小

因为SM是以warp为单位的,那么我们就要尽量的保证块的大小是32的倍数,使得所有的warp中所有的线程都处于活跃状态。如果块上的线程多的话,就可以隐藏一些内存的延迟。但是,如果一个块上的线程越多,每个线程拥有的寄存器大小就越小。

最大化Occupancy

基本策略

极小化CPU和GPU之间的数据传输

极大化使用共享内存

优化内存使用模式

全局内存:对齐与合并访问

共享内存:防止bank conflict

优化优先级

指令优化:原则

结论

相关推荐
zzu123zsw29 分钟前
第五章:自动化脚本开发
人工智能·自动化
IT_陈寒32 分钟前
Python 3.12 新特性实战:10个性能优化技巧让你的代码快如闪电⚡
前端·人工智能·后端
siliconstorm.ai1 小时前
OpenAI与微软“再造合作”:重组背后的资本与生态博弈
人工智能·microsoft
张较瘦_1 小时前
[论文阅读] 告别“数量为王”:双轨道会议模型+LS,破解AI时代学术交流困局
论文阅读·人工智能
nju_spy1 小时前
GPT 系列论文1-2 两阶段半监督 + zero-shot prompt
人工智能·gpt·nlp·大语言模型·zero-shot·transformer架构·半监督训练
芝麻开门-新起点1 小时前
第30章 零售与电商AI应用
人工智能·零售
shuidaoyuxing1 小时前
机器人检验报告包含内容
人工智能·机器人
南山二毛1 小时前
机器人控制器开发(训练到Jetson本地部署)
人工智能·机器人
工藤学编程2 小时前
零基础学AI大模型之AI大模型常见概念
人工智能
ACEEE12222 小时前
Stanford CS336 | Assignment 2 - FlashAttention-v2 Pytorch & Triotn实现
人工智能·pytorch·python·深度学习·机器学习·nlp·transformer