大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
熊猫钓鱼>_>9 小时前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw
Baihai_IDP13 小时前
微软多模态推理模型 Phi-4-reasoning-vision 训练经验分享
人工智能·面试·llm
Pitayafruit14 小时前
Windows 也能跑 Hermes Agent!完整安装教程 + 飞书接入,全程避坑
人工智能·llm·agent
深度学习机器14 小时前
一文快速看懂Hermes Agent
llm·agent
Cosolar2 天前
LangChain实战:基于Streamlit+ LangChain + Qwen 快速构建一个多会话AI聊天页面
人工智能·llm·agent
云端FFF2 天前
LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness
llm·agent·skill·ai engineering
小手智联老徐2 天前
OpenClaw 三小时连更三个版本
llm·ai编程·openclaw
得物技术2 天前
财务数仓 Claude AI Coding 应用实战|得物技术
大数据·llm·aiops
jiguanghover3 天前
Playwright_Langgraph
llm
@atweiwei3 天前
用 Rust 构建 LLM 应用的高性能框架
开发语言·后端·ai·rust·langchain·llm