技术栈
旋转位置编码
愤怒的可乐
6 个月前
人工智能
·
深度学习
·
llama
·
旋转位置编码
·
分组查询注意力
Llama改进之——分组查询注意力
今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-query attention,GQA)1。
愤怒的可乐
6 个月前
llama
·
rope
·
旋转位置编码
Llama改进之——RoPE旋转位置编码
旋转位置编码(Rotary Position Embedding, RoPE)将绝对相对位置依赖纳入自注意力机制中,以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。