大模型中的注意力机制——MHA、GQA、MQA

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题,研究人员也进行了许多研究。代表的就是以下三种模式:

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。

显然,GQA介于MHA和MQA之间。下图展示了他们的具体结构:

相关推荐
zhengyawen6661 小时前
深度学习之图像分类(一)
人工智能·深度学习·分类
不爱学英文的码字机器2 小时前
深度学习的力量:精准肿瘤检测从此不再遥远
人工智能·深度学习
tRNA做科研2 小时前
Pytorch深度学习教程_3_初识pytorch
人工智能·pytorch·深度学习
SylviaW083 小时前
神经网络八股(1)
人工智能·深度学习·神经网络
AAIshangyanxiu4 小时前
从CNN到 Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类
pytorch·cnn·卷积神经网络·transformer·遥感影像目标检测
Zhouqi_Hua5 小时前
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly
论文阅读·笔记·深度学习·语言模型·自然语言处理
冰淇淋百宝箱6 小时前
长文档处理痛点:GPT-4 Turbo引文提取优化策略与替代方案讨论
人工智能·深度学习·算法
HPC_fac130520678166 小时前
深度学习模型应用场景全解析:CNN、Transformer、BERT、RNN与GAN
rnn·深度学习·机器学习·数据挖掘·cnn·bert·transformer
时光旅人01号6 小时前
深度学习工厂的蓝图:拆解CUDA驱动、PyTorch与OpenCV的依赖关系
pytorch·深度学习·opencv
钱彬 (Qian Bin)6 小时前
基于Django+Bootstrap+深度学习 构建商业级人脸识别系统(代码开源)
python·深度学习·django·开源·bootstrap·人脸识别·教程