技术栈

旋转位置编码

愤怒的可乐
1 年前
人工智能·深度学习·llama·旋转位置编码·分组查询注意力
Llama改进之——分组查询注意力今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-query attention,GQA)1。
愤怒的可乐
1 年前
llama·rope·旋转位置编码
Llama改进之——RoPE旋转位置编码旋转位置编码(Rotary Position Embedding, RoPE)将绝对相对位置依赖纳入自注意力机制中,以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。