技术栈
mhd
江小皮不皮
6 个月前
llm
·
transformer
·
llama
·
注意力机制
·
gqa
·
mhd
·
mqa
MHD、MQA、GQA注意力机制详解
自回归解码器推理是 Transformer 模型的 一个严重瓶颈,因为在每个解码步骤中加 载解码器权重以及所有注意键和值会产生 内存带宽开销