LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻译。

LM-INFiNITE:大语言模型的一个简单长度上推广

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 LLMs中OOD因素的诊断](#3 LLMs中OOD因素的诊断)
  • [4 LM-INFINITE](#4 LM-INFINITE)
  • [5 评估](#5 评估)
  • [6 结论和未来工作](#6 结论和未来工作)

摘要

近年来,基于Transformer的大型语言模型(LLM)在各个领域的性能都有了显著的进步。随着这些LLM被部署用于越来越复杂的任务,它们通常需要进行更长的推理过程或理解更大的上下文。在这些情况下,LLM在长序列上的长度泛化失败变得更加突出。大多数预训练方案将训练序列截断为固定长度(例如对于LLaMa为2048)。LLM通常很难在较长的上下文后生成流畅的文本,更不用说执行下游任务了,即使是为了解决这个问题而设计的相对位置编码。常见的解决方案,如在较长的语料库上进行微调,通常涉及令人生畏的硬件和时间成本,并且需要仔细的训练过程设计。为了更有效地利用现有LLM的生成能力,我们从理论和实证上研究了导致这一问题的主要分布外(OOD)因素。受此诊断的启发,我们提出了一种简单而有效的飞行长度泛化解决方案LM Infinite,它只涉及 Λ \Lambda Λ形注意力掩码和距离限制,而不需要参数更新或学习。我们发现它适用于使用相对位置编码方法的各种LLM。LM Infinite在 O ( n ) \mathcal{O}(n) O(n)时间和空间上具有计算效率,并在ArXiv和OpenWebText2数据集上对多达32k个token表现出一致的流畅性和生成质量,解码速度提高了2.72倍。在诸如密钥检索之类的下游任务中,它继续处理比普通模型立即失败的训练长度长得多的输入。

1 引言

2 相关工作

3 LLMs中OOD因素的诊断

4 LM-INFINITE

5 评估

6 结论和未来工作

在本文中,我们对具有相对位置编码的基于Transformer的LLM中的长度泛化问题提供了解释和简单的即时解决方案。我们首先对可能导致长度泛化失败的OOD(分布外)因素进行理论和实证分析。基于这些直觉,我们提出了LM Infinite,一种无需任何参数更新的即插即用的治疗方法。我们的经验评估表明,我们可以让多个开源SoTA LLM保持其原始生成质量,类似于明确微调后的性能。LM Infinite还将任务求解能力扩展到比训练样本长得多的序列。未来的工作可以探索如何让LM Infinite更好地感知被掩盖的注意力区域中的信息。我们希望LM Infinite的计算效率和易用性使没有大量计算资源的研究人员也能在长序列上使用LLM。

相关推荐
千匠网络18 小时前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO20 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker20 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.20 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑20 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金20 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移20 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower21 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方21 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT21 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造