各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
董董灿是个攻城狮6 小时前
零基础带你用 AI 搞定命令行
人工智能
喝拿铁写前端8 小时前
Dify 构建 FE 工作流:前端团队可复用 AI 工作流实战
前端·人工智能
阿里云大数据AI技术9 小时前
阿里云 EMR Serverless Spark + DataWorks 技术实践:引领企业 Data+AI 一体化转型
人工智能
billhan20169 小时前
MCP 深入理解:协议原理与自定义开发
人工智能
Jahzo9 小时前
openclaw桌面端体验--ClawX
人工智能·github
billhan20169 小时前
Agent 开发全流程:从概念到生产
人工智能
threerocks9 小时前
过了个年,AI 圈变天了?但没人告诉你为什么
人工智能
threerocks10 小时前
Anthropic CEO Dario Amodei:海啸已在地平线上,但没人在看
人工智能
用户51914958484510 小时前
Adrenaline GPU 漏洞利用框架:突破 Android 内核内存读写限制
人工智能·aigc