技术栈
pragma unroll
Briwisdom
1 年前
性能优化
·
编译器
·
cuda
·
pragma unroll
·
循环展开
编译代码性能优化实践:理解循环展开(pragma unroll)
引言:CUDA的矩阵乘优化经常见到 pragma unroll 的使用,本文通过简单的示例,展示了CPU和CUDA对循环展开前后的性能表现,来通俗理解循环展开的优化策略。