各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
芝士爱知识a1 天前
2026年教资备考数字化生存指南:主流App深度测评与AI技术应用分析
人工智能·教资·ai教育·教育技术·教资面试·app测评·2026教资
AIArchivist1 天前
攻坚肝胆疑难病例,AI成为诊疗决策的“智慧大脑”
人工智能
jake don1 天前
GPU服务器搭建大模型指南
服务器·人工智能
JicasdC123asd1 天前
【深度学习实战】基于Mask-RCNN和HRNetV2P的腰果智能分级系统_1
人工智能·深度学习
星爷AG I1 天前
9-28 视觉工作记忆(AGI基础理论)
人工智能·计算机视觉·agi
陈天伟教授1 天前
人工智能应用- 语言理解:07.大语言模型
人工智能·深度学习·语言模型
岱宗夫up1 天前
机器学习:标准化流模型(NF)
人工智能·python·机器学习·生成对抗网络
程序猿阿伟1 天前
《游戏AI训练模拟环境:高保真可加速构建实战指南》
人工智能·游戏
花月mmc1 天前
CanMV K230 波形识别——整体部署(4)
人工智能·python·嵌入式硬件·深度学习·信号处理
tel_182175397671 天前
AOI全自动视觉检测生活用纸表面缺陷检测
人工智能·视觉检测·生活