大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
土豆12501 天前
🚀 RAG系统构建指南:从「为什么」到「怎么做」
llm
智泊AI1 天前
为什么说CLIP是多模态大模型的基石?
llm
鱼鱼块1 天前
"从自然语言到数据库:AI First 时代的编程与开发革命"
sqlite·llm·openai
ohyeah2 天前
AI First 时代:用大模型构建轻量级后台管理系统
前端·llm
Swizard2 天前
Claude Opus 4.5 深度解构:当 AI 学会了“拒绝道歉”与“痛恨列表”
ai·llm·prompt·claude
企鹅侠客2 天前
Ubuntu本地部署AnythingLLM实现本地文档RAG
linux·运维·ubuntu·llm
缘友一世2 天前
Unsloth高效微调实战:基于DeepSeek-R1-Distill-Llama-8B与医疗R1数据
llm·模型微调·unsloth·deepseek
华师数据学院·王嘉宁2 天前
DeepSeek-Math-V2解读:稠密Reward信号回归到RLVR
大语言模型·强化学习·大模型推理
kida_yuan2 天前
【从零开始】19. 模型实测与验证
人工智能·llm
沛沛老爹2 天前
LangGraph系列9 :调试、日志与可观测性 —— 当你的 AI 智能体突然精神分裂,如何 5 分钟定位故障?
人工智能·langchain·llm·调试·rag·langgraph·ai入门