大模型-attention汇总解析之-MQA

MQA,即 "M ulti-Q uery Attention",是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo : k , v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

相关推荐
yaocheng的ai分身3 小时前
reddit前副总裁Yishan的AI应用层观点
llm
Jack_abu5 小时前
RAG系统学习之——RAG技术详解与实战指南
llm·rag·ollama
是Dream呀1 天前
OpenAI与百度同日竞速,文心5.0以原生全模态重新定义AI理解力
语言模型·llm·aigc·文心一言·ernie-5.0
uncle_ll1 天前
RAG系统中的文本分块技术:从基础策略到智能分块的深度解析
llm·agent·dify·rag
沛沛老爹1 天前
检索增强微调(RAFT)如何重塑慢病健康管理?——从技术原理到落地实践
llm·raft·rag·ai入门·慢病管理
沛沛老爹1 天前
AI入门知识之RAFT方法:基于微调的RAG优化技术详解
人工智能·llm·sft·raft·rag
speop1 天前
Hello-agents TASK03 第四章节 智能体经典范式构建
llm
常先森1 天前
【解密源码】 RAGFlow 切分最佳实践- paper 篇
架构·llm·agent
大千AI助手2 天前
Prefix-Tuning:大语言模型的高效微调新范式
人工智能·神经网络·自然语言处理·llm·prefix-tuning·大千ai助手·前缀微调