大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
weixin_438077496 小时前
windows10安装WSL2 & ubuntu24.04中安装vLLM & vLLM中部署Qwen2.5-VL
llm·vllm·qwen2.5-vl
一个处女座的程序猿6 小时前
LLMs之Deployment:guidellm的简介、安装和使用方法、案例应用之详细攻略
llm·部署·压测·负载·推理·guidellm
智泊AI1 天前
传统RAG已到尽头?Agentic RAG 正成为新范式
llm
梵得儿SHI1 天前
Prompt Engineering 关键技能:精准掌控 LLM 输出的格式、内容与风格
大模型·llm·prompt·格式控制·内容到风格·内容控制·风格控制
大模型教程1 天前
如何构建你的Agents|谷歌Agents白皮书
google·llm·agent
大模型教程1 天前
构建可靠AI Agent:从提示词、工作流到知识库的实战指南
程序员·llm·agent
AI大模型1 天前
OpenAI 官方出品:从 0 到 1 构建 AI Agent 实战指南
程序员·llm·agent
AI大模型1 天前
《Hello-Agents》项目正式发布,一起从零学习智能体!
程序员·llm·agent
亿牛云爬虫专家2 天前
用LLM自动化生成解析器:从Prompt到Parser的工程化落地
自动化·llm·prompt·xpath·爬虫代理·网页爬虫·解析器
智泊AI2 天前
1分钟搞明白什么是Agent?Agent四大核心能力详解
llm