各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
一点一木1 小时前
深度体验TRAE SOLO移动端7天:作为独立开发者,我把工作流揣进了兜里
前端·人工智能·trae
Lee川2 小时前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
weelinking2 小时前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局3 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
研华科技Advantech3 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能
Lab_AI3 小时前
AI for Science: MaXFlow AI Agent+ 报告体验双升级,让AI智能体更高效易用!
人工智能·ai for science·ai agent·ai智能体
李坤4 小时前
让 Codex 和 Claude 互相 Review:告别手动复制
人工智能·openai·claude
南屹川4 小时前
【API设计】GraphQL实战:从REST到GraphQL的演进
人工智能
KJ_BioMed4 小时前
当计算生物学遇上生成式AI:从头设计生物分子的“新范式”初探
人工智能·从头设计·生命科学·生物医药·科研干货·科晶生物
明月醉窗台4 小时前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo