技术栈

online softmax

远上寒山
9 小时前
大模型·注意力机制·flash_attention·online softmax·shared memory
FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s关键词:IO-aware、在线 Softmax(online softmax)、tiling、shared memory、SDPA、PyTorch 后端、FA1/FA2/FA3
我是有底线的