各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
檐下翻书1734 分钟前
模型蒸馏与压缩技术的新进展
人工智能
小陈phd12 分钟前
Dify从入门到精通(一)——Dify环境搭建
人工智能
zabr17 分钟前
前端已死?我用 Trae + Gemini 零代码手搓 3D 塔罗牌,找到了新出路
前端·人工智能·aigc
速易达网络18 分钟前
Trae智能体SOLO中国版
人工智能·trae
橙汁味的风20 分钟前
2EM算法详解
人工智能·算法·机器学习
永霖光电_UVLED20 分钟前
日本 Novel Crystal 突破10kV障碍
人工智能
小鸡吃米…25 分钟前
带Python的人工智能——计算机视觉
人工智能·python·计算机视觉
oscar99935 分钟前
激活函数:神经网络的“开关”与“灵魂”
人工智能·深度学习·神经网络·激活函数
万岳软件开发小城1 小时前
2026 在线教育新趋势:网校系统源码正在重塑教育培训平台开发模式
人工智能·php·在线教育系统源码·教育平台搭建·教育app开发·教育软件开发
玄同7651 小时前
Python 数据类型:LLM 语料与 API 参数的底层处理逻辑
开发语言·人工智能·python·自然语言处理·llm·nlp·知识图谱