技术栈

mhd

江小皮不皮
1 年前
llm·transformer·llama·注意力机制·gqa·mhd·mqa
MHD、MQA、GQA注意力机制详解自回归解码器推理是 Transformer 模型的 一个严重瓶颈,因为在每个解码步骤中加 载解码器权重以及所有注意键和值会产生 内存带宽开销