技术栈

linformer

这是谁的博客?
3 小时前
ai·rwkv·flash attention·高效注意力·performer·linformer·retnet
高效注意力机制深度解析:从 Linear Attention 到 RWKV 的线性复杂度序列建模Transformer 的自注意力机制计算复杂度为 O ( n 2 ) O(n^2) O(n2),随序列长度二次增长,成为长上下文建模的核心瓶颈。本文系统梳理了高效注意力机制的技术全景,从稀疏注意力、线性注意力到状态空间模型,深入分析 Performer、Linformer、RWKV、RetNet 等代表性方法的数学原理和架构设计。文章涵盖核技巧、低秩近似、递推状态更新等核心技术,并提供完整的性能对比和选型指南。
我是有底线的