技术栈

gqa

爱听歌的周童鞋
2 个月前
attention·gqa·deepseek·mla
DeepSeek MLA(Multi-Head Latent Attention)算法浅析学习 DeepSeek 中的 MLA 模块,究极缝合怪,东抄抄西抄抄,主要 copy 自苏神的文章,仅供自己参考😄
江小皮不皮
1 年前
llm·transformer·llama·注意力机制·gqa·mhd·mqa
MHD、MQA、GQA注意力机制详解自回归解码器推理是 Transformer 模型的 一个严重瓶颈,因为在每个解码步骤中加 载解码器权重以及所有注意键和值会产生 内存带宽开销
代码讲故事
1 年前
llama·llama2·注意力机制·解码器·感知器·gqa·变换器
Llama2模型的优化版本:Llama-2-OnnxLlama2模型的优化版本:Llama-2-Onnx。Llama-2-Onnx是Llama2模型的优化版本。Llama2模型由一堆解码器层组成。每个解码器层(或变换器块)由一个自注意层和一个前馈多层感知器构成。与经典的变换器相比,Llama模型在前馈层中使用了不同的投影大小。例如,Llama1和Llama2的投影都使用了2.7倍的隐藏大小,而不是标准的4倍隐藏大小。Llama1和Llama2之间的一个关键区别在于注意层的架构变化,Llama2利用了分组查询注意(GQA)机制来提高效率。