各种attention的变体:MHA,GQA,MQA,MLA(DeepSeek-V2)详解

参考文章:DeepSeek-V2:

Multi-Head Attention (MHA)示意图:

Grouped-Query Attention (GQA)

减小KV head的数量,多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head,多个Query head共用一个KVhead

Multi-head Latent Attention(MLA)示意图:

MLA在DeepSeek-V2论文中被提出,

在生成QKV时,先将向量都down projection到低维度。

对于KV head部分,都由一个共用的低维度向量表示来up pojection出来多个head

在推理时,KV cache只用保存这个低维度的向量,在计算时由up projection还原到多个head的高维空间,这样做的好处是减小了KV cache

原论文中画的MLA的示意图:

具体计算方式:

其中的W^UK可以和W^UQ合并,W^UV和W^O可以合并

相关推荐
新缸中之脑2 小时前
Paperless-NGX实战文档管理
人工智能
无极低码4 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
grant-ADAS4 小时前
记录paddlepaddleOCR从环境到使用默认模型,再训练自己的数据微调模型再推理
人工智能·深度学习
炎爆的土豆翔4 小时前
OpenCV 阈值二值化优化实战:LUT 并行、手写 AVX2 与 cv::threshold 性能对比
人工智能·opencv·计算机视觉
智能相对论4 小时前
从AWE看到海尔智慧家庭步步引领
人工智能
云和数据.ChenGuang4 小时前
魔搭社区 测试AI案例故障
人工智能·深度学习·机器学习·ai·mindstudio
小锋学长生活大爆炸4 小时前
【工具】无需Token!WebAI2API将网页AI转为API使用
人工智能·深度学习·chatgpt·openclaw
昨夜见军贴06164 小时前
AI审核赋能司法鉴定:IACheck如何保障刑事证据检测报告精准无误、经得起推敲?
人工智能
测试_AI_一辰4 小时前
AI系统到底怎么测?一套六层测试框架(Agent案例)
人工智能·功能测试·需求分析·ai编程
运维小欣4 小时前
智能体选型实战指南
运维·人工智能