技术栈
shared memory
远上寒山
9 小时前
大模型
·
注意力机制
·
flash_attention
·
online softmax
·
shared memory
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s
关键词:IO-aware、在线 Softmax(online softmax)、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3
我是有底线的