shared memory - shared memory技术,学习,经验文章

远上寒山

1 个月前

FlashAttention 原理与工程实践：从 IO-aware 到 H100 上的 1 PFLOPs/s关键词：IO-aware、在线 Softmax（online softmax）、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3