各种attention的变体：MHA，GQA，MQA，MLA（DeepSeek-V2）详解

Aspect of twilight2025-12-07 10:07

参考文章：DeepSeek-V2：

Multi-Head Attention (MHA)示意图：

Grouped-Query Attention (GQA)

减小KV head的数量，多个Query head共用一个KV head

Multi-Query Attention (MQA)

只有一个KV head，多个Query head共用一个KVhead

Multi-head Latent Attention（MLA）示意图：

MLA在DeepSeek-V2论文中被提出，

在生成QKV时，先将向量都down projection到低维度。

对于KV head部分，都由一个共用的低维度向量表示来up pojection出来多个head

在推理时，KV cache只用保存这个低维度的向量，在计算时由up projection还原到多个head的高维空间，这样做的好处是减小了KV cache

原论文中画的MLA的示意图：

具体计算方式：

其中的W^UK可以和W^UQ合并，W^UV和W^O可以合并

上一篇：iOS--TableView的复用机制以及性能优化（处理网络数据）

下一篇：JAVA智能配电房管理系统源码带数据字典及完整文档JAVA智能配电房管理系统源码带数据字典及完整文档

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 06Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 07AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot 08Window 10部署openclaw报错node.exe : npm error code 128 09让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 10OpenClaw 中转站配置完全指南