gqa

LLama 3分组查询注意力与KV缓存机制要理解分组查询注意力(Group Mulit-Query Attention，GQA) 的价值，我们首先要明白它解决了什么问题。这个问题主要源于 LLM 的自回归生成方式和多头注意力机制。

爱听歌的周童鞋

DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块，究极缝合怪，东抄抄西抄抄，主要 copy 自苏神的文章，仅供自己参考😄

江小皮不皮

MHD、MQA、GQA注意力机制详解自回归解码器推理是 Transformer 模型的一个严重瓶颈，因为在每个解码步骤中加载解码器权重以及所有注意键和值会产生内存带宽开销

代码讲故事

Llama2模型的优化版本：Llama-2-OnnxLlama2模型的优化版本：Llama-2-Onnx。Llama-2-Onnx是Llama2模型的优化版本。Llama2模型由一堆解码器层组成。每个解码器层（或变换器块）由一个自注意层和一个前馈多层感知器构成。与经典的变换器相比，Llama模型在前馈层中使用了不同的投影大小。例如，Llama1和Llama2的投影都使用了2.7倍的隐藏大小，而不是标准的4倍隐藏大小。Llama1和Llama2之间的一个关键区别在于注意层的架构变化，Llama2利用了分组查询注意（GQA）机制来提高效率。

我是有底线的