各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
机器觉醒时代2 分钟前
英伟达GR00T N系列四代模型演进解析
人工智能·机器人·具身智能·vla模型
AI技术增长7 分钟前
Pytorch图像去噪实战(八):Noise2Void盲点网络图像去噪实战,只有单张带噪图也能训练
人工智能·pytorch·python
梦想很大很大12 分钟前
让 AI 成为“报表配置员”:BI 低代码平台的 Schema 实践路径
前端·人工智能·低代码
隔壁大炮18 分钟前
Day07-RNN层(循环网络层)
人工智能·pytorch·python·rnn·深度学习·神经网络·计算机视觉
小饕23 分钟前
从 Word2Vec 到多模态:词嵌入技术的演进全景
人工智能·算法·机器学习
上海云盾第一敬业销售24 分钟前
生成式AI催生深度伪造攻击,WAF如何识别“假流量“?
人工智能
ykjhr_3d25 分钟前
数字工具AI智能学伴,助力教育数字化转型
大数据·人工智能·ai·ai人工智能·华锐视点·华锐云空间
LIUAWEIO27 分钟前
鸽鸽工具网:免费在线工具大全,打开网页即用
人工智能·安全·ai·json
动恰客流管家31 分钟前
动恰3DV3丨客流统计系统:旺季人手不够淡季闲人太多?客流统计帮你科学优化人力成本
大数据·运维·人工智能·3d
吻等离子34 分钟前
机器学习基本概念篇(含思维导图)
人工智能·机器学习