大模型Transformer笔记:KV缓存

1 MHA(M ulti-H ead Attention)

  • 最经典的多头注意力
    • 等价于多个独立的单头注意力的拼接
  • 对于LLM来说,一般都是自回归地一个一个token的输出,也就相当于只有Transformer的decoder input在变化,之前作为prompt部分的是不变,可以缓存的(KV cache)
    • KV cache的减少可以让我们有更长的context prompt,更快的推理速度,更低的推理成本

2 MQA(M ulti-Q uery Attention)

Fast Transformer Decoding: One Write-Head is All You Need 2019

PaLM [6]、StarCoder [7]、Gemini [8]

  • 所有注意力头共享同一套K,V
    • ------>KV 缓存减少到1/h
    • KV参数的减少可以到FFN/GLU规模的增大来弥补

3 GQA(G rouped-Q uery Attention)

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints emnlp 2023

所有 Head 分为 g个组( g可以整除 head数量 h)

LLAMA2-70B , LLAMA3

参考内容:缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA

相关推荐
1***Q78437 分钟前
深度学习技术
人工智能·深度学习
WWZZ20252 小时前
快速上手大模型:深度学习10(卷积神经网络2、模型训练实践、批量归一化)
人工智能·深度学习·神经网络·算法·机器人·大模型·具身智能
moringlightyn2 小时前
Linux---进程状态
linux·运维·服务器·笔记·操作系统·c·进程状态
希露菲叶特格雷拉特2 小时前
PyTorch深度学习进阶(四)(数据增广)
人工智能·pytorch·深度学习
go_bai2 小时前
Linux-线程2
linux·c++·经验分享·笔记·学习方法
喵个咪3 小时前
基于 Go-Kratos 与 MCP 的推荐服务实战指南
后端·深度学习·微服务
闲聊MoonL3 小时前
【AMBA】Caches协议分析
笔记
汤姆yu4 小时前
基于深度学习的健康饮食推荐系统
人工智能·深度学习
('-')5 小时前
《从根上理解MySQL是怎样运行的》第四章学习笔记
笔记·学习·mysql
laplace01236 小时前
happy-llm笔记
笔记