大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
大千AI助手2 分钟前
灾难性遗忘:神经网络持续学习的核心挑战与解决方案
人工智能·深度学习·神经网络·大模型·llm·持续学习·灾难性遗忘
大模型教程8 分钟前
本地AI知识库问答开源技术实现(二)--配置模型和知识库
程序员·llm·ollama
火山引擎开发者社区24 分钟前
豆包・图像创作模型 Seedream 4.0 正式发布!
llm
算家计算1 小时前
多年AI顽疾被攻克!OpenAI前CTO团队破解AI随机性难题,大模型可靠性迎来飞跃
人工智能·llm·资讯
小鑫同学7 小时前
M4 MacBook Pro + Qwen 模型:企业问答机器人原型微调实战方案
人工智能·llm
Baihai_IDP10 小时前
MCP 是为开发者设计的工具,而非为 LLM 而设
人工智能·面试·llm
聚客AI1 天前
🌈多感官AI革命:解密多模态对齐与融合的底层逻辑
人工智能·llm·掘金·日新计划
大模型教程1 天前
12天带你速通大模型基础应用(四)声音克隆技术实践
程序员·llm·agent
大模型教程1 天前
12天带你速通大模型基础应用(三)LLM全流程部署教程
程序员·llm·agent
AI大模型1 天前
无所不能的Embedding(05) - skip-thought的兄弟们[Trim/CNN-LSTM/quick-thought]
程序员·llm·agent