Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力

1️⃣ 背景 & 问题

Transformer 的软最大注意力(softmax attention)是 LLM 核心,但有两大痛点:

指标 复杂度
时间 O(N²)
KV cache 与 context 线性增长

尤其在百万级上下文、Agent 推理、RL 长轨迹 ,全注意力慢、贵、卡显存

已有改进:

类别 代表 问题
线性注意力 Mamba2、DeltaNet、RetNet 表达能力弱,短上下文也不如 Transformer
混合注意力 RWKV/Hyena、Hybrid models 有提升,但规模/评测不够全面

📢 目标 :找到能直接替代 Transformer 的 attention 架构------更强 + 更快 + 更省显存

Kimi Linear 达成了。


2️⃣ 核心贡献:Kimi Delta Attention + 3:1 Hybrid

✅ 贡献一:Kimi Delta Attention (KDA)

对 DeltaNet/GDN 做了两大升级:

模块 GDN KDA
遗忘机制 标量 α 逐通道门控 Diag(α) ✅
状态更新 I - βkkᵀ 同,但带细粒度 decay
位置感知 基于 decay Learnable position embedding 替代 RoPE ✅

核心递推:

更新公式

在时刻 t t t 的状态矩阵 S t S_t St 满足

下面给出可直接粘贴到 CSDN 编辑器的「LaTeX + Markdown」源码,支持富文本与 Markdown 两种模式一键渲染。

(已测试 CSDN 默认 KaTeX,无需额外插件)

更新公式

在时刻 t t t 的状态矩阵 S t S_t St 满足

S t = ( I − β k t k t T ) Diag ( α t ) S t − 1 + β k t v t T S_t = (I - \beta k_t k_t^T) \text{Diag}(\alpha_t) S_{t-1} + \beta k_t v_t^T St=(I−βktktT)Diag(αt)St−1+βktvtT

其中

  • I I I 为单位矩阵;
  • β \beta β 为标量学习率;
  • k t , v t k_t,\ v_t kt, vt 为第 t t t 步的向量;
  • α t \alpha_t αt 为门控系数向量, D i a g ( α t ) \mathrm{Diag}(\alpha_t) Diag(αt) 表示以其为对角元素的对角矩阵。

➡️ 比 Mamba2 更精细、比 GDN 更稳定、更能保信息

✅ 贡献二:Chunkwise + 高效 DPLR 变体

  • 采用 WY 形式 + UT 变换(高效矩阵组合)
  • 避免二级 chunking 带来的 FP32 开销
  • 比通用 DPLR 快 2×

✅ 贡献三:架构设计 = 3 KDA + 1 MLA

模式 说明
3 线性层 负责位置建模 + 高效局部记忆
1 全注意力 保证全局信息同步
NoPE 全注意力层不用 RoPE 😮

这样:

  • 75% 层不需要 KV cache
  • 1M context decoding 提速

3️⃣ 实验:全面刷新认知

📌 关键结果

场景 SOTA? 描述
短上下文 Pretrain/SFT 全优于 MLA
长上下文 (1M) 128k / 1M 上大幅领先
推理速度 1M context 6.3×
显存 KV cache 节省 75%
RL 推理任务 提升数学/代码 RL 收敛速度

🔥 图示结论

1M context 输出速度:6× Transformer
长上下文榜单平均:Kimi Linear 第一
1.4T token 公平训练:全面优于 full attention
Scaling law:同算力,效果 +16%


4️⃣ 与业界模型对比

模型 结构 长上下文 推理速度 短任务质量
Transformer Softmax
Mamba2 RNN+DSS ❌(表达弱)
DeltaNet/GDN delta rule ~
Kimi Linear 细粒度 KDA + Hybrid ✅✅ ✅✅ ✅✅✅ 🚀

一句话:

第一次有线性注意力完整超越 Transformer


5️⃣ 为什么 KDA 能做到?

技术 作用
逐通道遗忘 Diag(α) 像 RoPE 一样编码位置信息
Delta rule 具备快权重&学习记忆
混合注意力 保证全局精度
NoPE 避免 RoPE 长上下文崩
精调 kernel 2× DPLR 提速

学术定位:

线性注意力 = 退化的 Transformer

➡️ KDA 让它重新"学会"位置、记忆、建模依赖


6️⃣ 工程师角度思考 & 启示

✅ 工程角度

意义
线性 attention 成熟了 可以大规模生产
架构无需重写 vLLM 已支持
长序列压倒性优势 RAG / agent / 代码 / log AI
MoE + Linear 大模型未来方向明确

✅ 理论角度

学习到的位置信息 > 手工设计 RoPE


7️⃣ 个人总结

这篇报告是 Transformer 之后架构演进的一座里程碑

  • 不走纯 RNN 路线(Mamba)
  • 不走卷积核路线(Hyena)
  • 用 delta-rule 学习自适应位置编码
  • 混合架构 平衡精度与效率

一句话评价:

Kimi Linear = 能直接替代 Transformer 的 Attention 方案

下一步期待:

  • 社区模型规模全线改这套
  • 训练效率/精度进一步优化
  • 与 FlashAttention 生态融合

📎 建议阅读与代码

可视为 线性注意力版 FlashAttention2

相关推荐
Alice-YUE21 分钟前
【js高频八股】防抖与节流
开发语言·前端·javascript·笔记·学习·ecmascript
小陈phd1 小时前
TensorRT 入门完全指南(一)——从核心定义到生态工具全解析
人工智能·笔记
是上好佳佳佳呀2 小时前
【前端(十一)】JavaScript 语法基础笔记(多语言对比)
前端·javascript·笔记
handler012 小时前
Linux 内核剖析:进程优先级、上下文切换与 O(1) 调度算法
linux·运维·c语言·开发语言·c++·笔记·算法
其实防守也摸鱼3 小时前
CTF密码学综合教学指南--第四章
网络·笔记·安全·网络安全·密码学·ctf
05候补工程师5 小时前
【ROS 2 具身智能】Gazebo 仿真避坑指南:从“幽灵机器人”到传感器数据流打通
人工智能·经验分享·笔记·ubuntu·机器人
chushiyunen5 小时前
pandas使用笔记、数据清洗、json_normalize
笔记·pandas
HERR_QQ5 小时前
端到端课程自用 4 规划 基于自规划AR的端到端规划 AI 笔记
人工智能·笔记·自动驾驶·transformer
大模型最新论文速读5 小时前
Select to Think:蒸馏 token 排序能力,效果平均提升24%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
二哈赛车手5 小时前
新人笔记---实现简易版的rag的bm25检索(利用ES),以及RAG上传时的ES与向量数据库双写
java·数据库·笔记·spring·elasticsearch·ai