【FlashAttention】 FA2与FA1算法区别辨析

被制作时长两年半的个人练习生2026-01-21 20:22

看了几篇关于FlashAttention2的文章，对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。

https://zhuanlan.zhihu.com/p/1993815603383902344

https://zhuanlan.zhihu.com/p/668888063

https://zhuanlan.zhihu.com/p/665170554

注意，第10行在部分文章中错写成了diag的逆，应该根据这篇文章的伪代码为准（推测是之前存在笔误，改了之后又重新上传了）。

这里FlashAttention2与FlashAttention1看起来有很大差别，推导如下；

首先比较重要的一点是，在FA2里，关于m, P的计算都没有mijm_{ij}mij, pijp_{ij}pij的概念，而是直接计算mim_imi和minewm_i^{new}minew，pip_ipi和pinewp_i^{new}pinew。因此此处的mijm_i^jmij就是FA1中的mijm_{ij}mij - minewm_i^{new}minew。另外此处的P也就是FA1中的emij−minew∗Pe^{m_{ij} - m_i^{new}} * Pemij−minew∗P。
另外第二个点，就是在中间的迭代中不计算L，只在最后一个迭代计算。

上一篇：C++风格的命名转换

下一篇：基于 Flutter × OpenHarmony 开发的文本处理工具箱首页

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04OpenClaw + 飞书（Feishu）环境搭建指南 05Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 06Window 10部署openclaw报错node.exe : npm error code 128 07Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 08OpenClaw优化飞书API 额度已耗尽问题 09AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 10AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot