大模型Transformer笔记:KV缓存

1 MHA(M ulti-H ead Attention)

  • 最经典的多头注意力
    • 等价于多个独立的单头注意力的拼接
  • 对于LLM来说,一般都是自回归地一个一个token的输出,也就相当于只有Transformer的decoder input在变化,之前作为prompt部分的是不变,可以缓存的(KV cache)
    • KV cache的减少可以让我们有更长的context prompt,更快的推理速度,更低的推理成本

2 MQA(M ulti-Q uery Attention)

Fast Transformer Decoding: One Write-Head is All You Need 2019

PaLM [6]、StarCoder [7]、Gemini [8]

  • 所有注意力头共享同一套K,V
    • ------>KV 缓存减少到1/h
    • KV参数的减少可以到FFN/GLU规模的增大来弥补

3 GQA(G rouped-Q uery Attention)

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints emnlp 2023

所有 Head 分为 g个组( g可以整除 head数量 h)

LLAMA2-70B , LLAMA3

参考内容:缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA

相关推荐
从零点6 分钟前
STM32的CAN笔记
笔记
_Twink1e11 分钟前
【HCIA-AIV4.0】2025题库+解析(三)
人工智能·笔记·华为·开源
孙严Pay14 分钟前
快捷支付和网关支付到底哪个更安全呢?
笔记·科技·计算机网络·其他·微信
糖果罐子♡18 分钟前
在 openEuler 上快速体验 PyTorch 深度学习
人工智能·pytorch·深度学习
子午26 分钟前
【交通标志识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
励志成为糕手26 分钟前
动手学CNN:图像处理的卷积神经网络实践指南
图像处理·人工智能·深度学习·计算机视觉·cnn
不羁的木木28 分钟前
【开源鸿蒙跨平台开发学习笔记】Day08:React Native 开发 OpenHarmony —— RN 与原生调用全解析
笔记·学习·harmonyos
lew-yu28 分钟前
博客摘录「 当前开源旗舰LLM主流架构介绍」2025年12月3日
笔记
('-')29 分钟前
《从根上理解MySQL是怎样运行的》第二十四章笔记
数据库·笔记·mysql
LO嘉嘉VE31 分钟前
学习笔记二十四:支持向量机-对偶问题
笔记·学习·支持向量机