技术栈

mqa

一顿能吃五大海碗啊啊啊
2 天前
mha·gqa·mqa·kv cache
大模型推理加速 KV cache目录一、Attention 计算Attention 计算详解备注:1. Mask 的核心作用2. 两种主要的 Mask 类型
江小皮不皮
2 年前
llm·transformer·llama·注意力机制·gqa·mhd·mqa
MHD、MQA、GQA注意力机制详解自回归解码器推理是 Transformer 模型的 一个严重瓶颈,因为在每个解码步骤中加 载解码器权重以及所有注意键和值会产生 内存带宽开销
我是有底线的