大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
小Pawn爷11 分钟前
8.RAG构建金融知识库
金融·llm·rga
WitsMakeMen1 小时前
用矩阵实例具象化 RankMixer 核心机制
人工智能·线性代数·矩阵·llm
dzj20212 小时前
Unity中使用LLMUnity遇到的问题(一)
unity·llm·llmunity
智泊AI12 小时前
不靠模仿的第三条路:DeepSeek 凭数学推导,为何撞上 Google 的工程直觉?
llm
laplace012318 小时前
claude code架构猜测总结
架构·大模型·llm·agent·rag
lkbhua莱克瓦2419 小时前
RAG到RGA:生成式AI的范式演进
人工智能·llm·prompt·大语言模型·rag·rga
tswddd20 小时前
Debug:mlx-omni-server服务器用qwen3模型出错
llm·debug
致Great21 小时前
TextIn × Agentic RAG:让大模型真正读懂学术论文
llm·agent
Stirner1 天前
A2UI : 以动态 UI 代替 LLM 文本输出的方案
前端·llm·agent
kagg8861 天前
mcp-gateway —— 隐藏mcp上下文以避免不必要的tokens开销
llm·mcp