大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
智泊AI1 小时前
重磅!小米刚刚发布新模型MiMo-V2-Flash开源了!
llm
骚戴3 小时前
大语言模型(LLM)进阶:从闭源大模型 API 到开源大模型本地部署,四种接入路径全解析
java·人工智能·python·语言模型·自然语言处理·llm·开源大模型
stark张宇5 小时前
别掉队!系统掌握 LLM 应用开发,这可能是你今年最值得投入的学习方向
人工智能·llm·agent
大模型教程5 小时前
使用Langchain4j和Ollama3搭建RAG系统
langchain·llm·ollama
大模型教程5 小时前
全网首发!清北麻省顶级教授力荐的《图解大模型》中文版终于来了,碾压 95% 同类教材
程序员·llm·agent
用户307140958485 小时前
📢 深度解析 Dify 核心 LLM 提示模板库,揭秘 AI 交互的「幕后魔法」
人工智能·llm·agent
AI大模型6 小时前
谷歌 Agents 白皮书中文版全网首发,堪称 AI 教材的天花板级神作
程序员·llm·agent
Elwin Wong7 小时前
本地运行LangChain Agent用于开发调试
人工智能·langchain·大模型·llm·agent·codingagent
沛沛老爹7 小时前
Prompt Engineering 基础原理:从入门到实践
llm·prompt·提示词·提示词工程·核心原则·思维链技术
CoderJia程序员甲7 小时前
GitHub 热榜项目 - 日榜(2025-12-16)
llm·github·ai教程