技术栈
mqa
一顿能吃五大海碗啊啊啊
2 天前
mha
·
gqa
·
mqa
·
kv cache
大模型推理加速 KV cache
目录一、Attention 计算Attention 计算详解备注:1. Mask 的核心作用2. 两种主要的 Mask 类型
江小皮不皮
2 年前
llm
·
transformer
·
llama
·
注意力机制
·
gqa
·
mhd
·
mqa
MHD、MQA、GQA注意力机制详解
自回归解码器推理是 Transformer 模型的 一个严重瓶颈,因为在每个解码步骤中加 载解码器权重以及所有注意键和值会产生 内存带宽开销
我是有底线的