Transformer 21. 从 LLaMA 到 Qwen:Rotary Position Embedding(RoPE)与 YaRN 一文读懂摘要:RoPE(Rotary Position Embedding)把「位置」编码进注意力分数的方式,从「在词向量上加一根位置向量」改成「在每一层对 Q、K 做几何旋转」。本文先讲为什么要这样设计(相对位置、外推动机),再给出二维一对的公式与为何点积只依赖相对距离的推导;最后说明 YaRN 如何在做长文外推时重缩放注意力,并与 Decoder Only Transformer、LLaMA 架构、Qwen 1 / Qwen 1.5、Qwen 2 及社区读物中的叙述对齐。