概述
LLM大模型训练/推理深度依赖FlashAttention算法,本文从Standard Slef-Attention到 FlashAttention,介绍算法的原理和优化演进。
Attention 算法演进 Overview
算法说明
关于FlashAttentionV1 算法的执行过程,请看我的另外一篇博客分析:
【算法分析】FlashAttention算法实例演示_flash attention实例-CSDN博客
关于FlashAttention V2 和 V1 算法的区别,请看我的另外一篇博客分析: