微软 AI 发布 LongRoPE2:近乎无损地将大型语言模型上下文窗口扩展至 128K 标记,保持 97% 短上下文准确性大型语言模型(LLMs)虽然取得了显著进展,但其在有效处理长上下文序列方面的局限性依然存在。尽管像 GPT-4o 和 LLaMA3.1 这样的模型支持长达 128K 个标记的上下文窗口,但在扩展长度上保持高性能却颇具挑战。旋转位置嵌入(RoPE)在 LLMs 中编码位置信息,但在超出其预训练限制时会出现分布外(OOD)问题。这些 OOD 值出现在高维 RoPE 嵌入中,导致性能下降。更长的上下文窗口对于多轮对话、文档分析和长篇推理等人工智能应用至关重要。在没有有效的扩展方法的情况下,LLMs 在超出其默认