技术栈

shfl_xor_sync

self-motivation
3 小时前
cuda·hpc·warp·shfl_xor_sync·dot product
cuda编程 --------- warp 级别规约指令 __shfl_xor_sync__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令(shuffle instruction),用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值,而无需通过共享内存或全局内存。这样可以实现高效的线程间通信,并减少共享内存的使用。
我是有底线的