大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
堆栈future5 小时前
深度解析AI Agent:从概念、原理到构建模式,一文彻底搞懂
llm·aigc·agent
老周聊大模型11 小时前
LangChain替代框架深度横评:轻量化、企业级、垂直专精的技术博弈
langchain·llm·agent
聚客AI14 小时前
LangGraph革命:用动态断点破解AI Agent高危操作困局
人工智能·llm·agent
想去的远方15 小时前
OpenAI Python API 完全指南:从入门到实战
llm·openai·大语言模型
AI大模型17 小时前
这份最新 AI / 机器学习学习路线!强烈建议收藏并反复阅读!
程序员·llm·agent
在未来等你18 小时前
智能Agent场景实战指南 Day 23 : Agent安全与隐私保护
llm·大模型应用·ai开发·智能agent·agent开发
AI大模型18 小时前
超强大模型LLM面试八股文,54道题背完就超过70%的IT人!
程序员·llm·agent
白熊1881 天前
【大模型LLM】梯度累积(Gradient Accumulation)原理详解
人工智能·大模型·llm
pingzhuyan1 天前
python入门篇12-虚拟环境conda的安装与使用
python·ai·llm·ocr·conda
Slientsakke1 天前
FunASR实时多人对话语音识别、分析、端点检测
人工智能·计算机视觉·llm·funasr·实时语音识别