Kimi Linear——有望替代全注意力的全新注意力架构

Kimi最近提出了Kimi Linear ,这是一种混合线性注意力(Hybrid Linear Attention)架构。它首次在公平比较中,于短上下文、长上下文和强化学习(RL)等多种场景下,全面超越了全注意力(Full Attention)架构。

也就是说,Kimi Linear 证明了自己是全注意力架构的"即插即用"替代品,同时提供了更高的效率和更优的性能,下面就让我们具体来看一下怎么个事。

所有相关源码示例、流程图、面试八股、模型配置与知识库构建技巧,我也将持续更新在Github:AIHub,欢迎关注收藏!

一、核心技术创新点

Kimi Linear 架构的优越性来自于两个主要创新:Kimi Delta Attention (KDA) 模块和高效的硬件优化

1. Kimi Delta Attention (KDA):更精细的门控机制

KDA 是 Kimi Linear 的核心线性注意力模块。

它建立在 Gated DeltaNet 的基础上,并进行了关键的改进:

  • 精细化门控(Finer-Grained Gating): KDA 扩展了 DeltaNet,引入了更精细的门控机制。这使得模型能更有效地利用有限的 有限状态 RNN 内存(finite-state RNN memory)。这种改进对于捕获和处理长序列信息至关重要。
  • 表达能力的增强: KDA 的设计目标是最大化线性注意力的表达能力,使其能够媲美甚至超越全注意力在各种任务上的表现。

2. 混合架构:KDA + 多头潜在注意力(MLA)

Kimi Linear 采用了一种层级混合 (layerwise hybrid)架构,将 KDA 与 Multi-Head Latent Attention (MLA) 结合起来:

  • 协同作用: 这种混合设计旨在结合线性注意力的高效性 和全注意力(或其变体如 MLA)的强大表示能力
  • 模型配置: 预训练了一个 Kimi Linear 模型,其激活参数(Activated Params)为 3B ,总参数(Total Params)为 48B。这证明了其在大型模型训练中的可行性。

3. 硬件效率提升:定制的分块算法

为了实现实际部署中的高性能,开发了定制的分块算法(bespoke chunkwise algorithm)

  • DPLR 变体: 该算法通过利用 Diagonal-Plus-Low-Rank (DPLR) 转换矩阵的一种专门变体来实现高硬件效率。
  • 计算量大幅减少: 相比于通用 DPLR 公式,这种定制变体大幅减少了计算量 ,同时保持了与经典 规则的一致性。
  • 部署优势: 这种优化是实现 KV 缓存使用减少 75%1M 上下文解码吞吐量提高 6 倍的关键。

二、性能基准

下表展示了 Kimi Linear-Base(MoE 48B Total Params)与 Moonlight-Base(MoE 16B Total Params)在多个基准测试中的性能对比。

其中Kimi-Linear-Base 和 Moonlight-Base 均使用相同的 5.7T 训练 tokens。

可以看到Kimi Linear-Base 在所有评估的任务上均显著优于 Moonlight-Base(使用全注意力架构),这有力地证明了 KDA 和其混合架构的强大表示能力

并且在性能上也大幅优于全注意力。

总结一下,Kimi Linear 的核心是 Kimi Delta Attention (KDA) 模块,它结合了创新的分块算法 (chunkwise algorithm)和硬件优化,不仅在所有评估任务上以显著优势击败了全注意力架构,还将 KV 缓存使用量减少了高达 75%,并在百万(1M)上下文长度下实现了高达 6 倍的解码吞吐量提升。

Kimi Linear 架构的诞生标志着语言模型架构进入了一个新阶段,我们不再需要在性能 (全注意力)和效率(线性注意力)之间做取舍。Kimi Linear 是一款高性能、高效率的线性注意力架构,可以作为全注意力架构的直接替代品。

关于AI和大模型相关的知识和前沿技术更新,请关注公众号 coting

相关推荐
小许同学记录成长2 分钟前
原始 IQ 数据时频图生成
python·算法
小小测试开发6 分钟前
OpenAI 模型攻克离散几何 80 年难题:Erdős 单位距离猜想被 AI 证明
人工智能·算法·机器学习
moonsims7 分钟前
从“传感器融合”升级为“多机器人约束融合系统”-Factor Graph 多约束融合
人工智能·算法
Dfreedom.12 分钟前
模型剪枝完全指南:从理论到实践,打造高效深度学习模型
人工智能·算法·机器学习·剪枝·模型加速
几司29 分钟前
OpenISP 模块拆解 · 第11讲:非局部均值降噪 (NLM)
人工智能·算法·均值算法·isp
MicroTech202530 分钟前
突破算力瓶颈,MLGO微算法科技筑牢量子测控与经典混合计算技术根基
科技·算法·量子计算
夏日听雨眠1 小时前
数据结构(堆排序,基数排序)
数据结构·算法
什仙1 小时前
Ansys Maxwell 默认求解器选择
人工智能·笔记·算法·基础·ansys·maxwell
weixin_307779131 小时前
基于Vosk与CTranslate2的实时语音识别翻译系统 —— 完整C++实现详解
人工智能·算法·自动化·语音识别·原型模式
akarinnnn1 小时前
深入理解内存函数:原理、应用与优化
c语言·网络·数据结构·算法