大模型中的注意力机制——MHA、GQA、MQA

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题,研究人员也进行了许多研究。代表的就是以下三种模式:

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。

显然,GQA介于MHA和MQA之间。下图展示了他们的具体结构:

相关推荐
盼小辉丶几秒前
Transformer实战(35)——跨语言相似性任务
深度学习·自然语言处理·transformer
JOYCE_Leo1610 分钟前
MPRNet: Multi-Stage Progressive Image Restoration-CVPR2021
深度学习·图像复原·all in one
阿杰学AI15 分钟前
AI核心知识84——大语言模型之 AI Constitution(简洁且通俗易懂版)
人工智能·深度学习·语言模型·自然语言处理·ai伦理·ai宪法·ai constitution
陈天伟教授18 分钟前
人工智能应用- 语言理解:02. 语言模型
人工智能·深度学习·语言模型·自然语言处理·语音识别
*西瓜20 分钟前
基于深度学习的视觉水位识别技术与装备
论文阅读·深度学习
大傻^38 分钟前
大模型基础知识-神经网络
人工智能·深度学习·神经网络
咩咩不吃草1 小时前
【深度学习】:从神经网络到AI大模型的核心逻辑
人工智能·深度学习·神经网络
云边云科技_云网融合1 小时前
SD-WAN:打通智慧工厂“云-边”协同的“神经网络”
人工智能·深度学习·神经网络
大模型最新论文速读1 小时前
BAR-RAG: 通过边界感知训练让单轮 RAG 效果媲美深度研究
论文阅读·人工智能·深度学习·机器学习·自然语言处理
EdisonZhou11 小时前
MAF快速入门(14)快速集成A2A Agent
llm·agent·.net core