Parallel Context Windows for Large Language Models

本文是LLM系列文章,针对《Parallel Context Windows for Large Language Models》的翻译。

大语言模型并行上下文窗口

  • 摘要
  • [1 引言](#1 引言)
  • [2 并行上下文窗口](#2 并行上下文窗口)
  • [3 上下文学习的PCW](#3 上下文学习的PCW)
  • [4 PCW用于QA](#4 PCW用于QA)
  • [5 相关工作](#5 相关工作)
  • [6 结论和未来工作](#6 结论和未来工作)
  • 不足

摘要

当应用于处理长文本时,大型语言模型(LLM)受到其上下文窗口的限制。现有的解决这一限制的努力涉及训练专门的体系结构,并且不能很容易地应用于现成的LLM。我们提出了并行上下文窗口(PCW),这是一种在没有进一步训练的情况下减轻任何现成LLM的上下文窗口限制的方法。该方法的关键是将长上下文分割成块("窗口"),将注意力机制限制为仅在每个窗口内应用,并在窗口之间重复使用位置嵌入。我们的主要结果测试了PCW方法在上下文学习中的应用,模型的大小在7.5亿到1780亿个参数之间,并显示出对具有不同输入和输出空间的任务的显著改进。我们在长上下文窗口可能有益的其他设置中展示了额外的好处:多跳问题和使用多个检索到的文档的检索增强问答。我们的研究结果强调,并行上下文窗口是一种很有前途的方法,可以在一系列需要长文本序列的设置中应用现成的LLM。我们在https://github.com/ai21labs/parallel-context-windows.

1 引言

2 并行上下文窗口

3 上下文学习的PCW

4 PCW用于QA

5 相关工作

6 结论和未来工作

近年来,已经提出了许多成功的方法,允许基于Transformer的语言模型在推理过程中利用大量文本,从而产生了各种专用的体系结构。然而,与此同时,具有"常规"(多达数千个token)上下文窗口大小的新模型的主流LLM生产线在扩展、创新和数据更新方面进展更快。

本文介绍了并行上下文窗口(PCW):一种简单的方法,允许任何现成的LLM在推理过程中扩大其可以访问的文本范围。我们展示了PCW在上下文学习框架中的有效性,其中访问一个大B因子的上下文意味着从B倍的训练例子中学习。我们的结果表明,在一组广泛的多类分类任务中,PCW比普通的单上下文窗口方法更有效地进行上下文内学习,这表明PCW可以在具有不同输入或输出空间的任务中改进上下文内学习。我们还展示了将PCW应用于多检索文档读取的有希望的信号。

我们认为未来工作的两个关键方向特别有希望。首先,通过证明现成的LLM可以通过PCW处理大量的文本,我们的结果激励了在其他环境中对PCW方法的进一步研究,在这些环境中,希望将主流LLM应用于长文本序列。其次,尽管我们的研究结果表明,PCW在没有进一步训练的情况下是有效的,但我们相信,对具有并行上下文窗口的LLM进行进一步(短期)训练可以进一步增强这项工作中展示的能力。

不足

我们提出了并行上下文窗口(PCW),这是一种简单的方法,可以减轻任何现成LLM的上下文窗口限制,而无需额外的训练。我们在各种模型和数据集上展示了这种方法的潜力。因此,我们的方法确实有一些局限性。
上下文窗口的数量是有限制的,并且需要预先确定 。与普通上下文学习类似,必须事先选择要包含在提示中的示例数量。对于PCW,还需要选择上下文窗口的数量B。在本文中,大多数结果都是B=3。我们在附录C中对B的选择进行了实验。结果取决于任务,但在高水平上,我们发现B周围的回报在5到7之间递减。我们将进一步研究如何有效地从未来工作的更多窗口中获益。
并非对所有类型的任务都有效。如第3节所述,PCW在ICL中显示了令人印象深刻的优势,用于多类任务分类和信息提取等任务。但是,对于某些任务,PCW并不能提高性能。这可能表明某些任务不适合并行处理。第4.2节表明,PCW更适用于输入文本可以划分为几个独立输入的情况,但长文本生成等任务是否会从PCW中受益仍然是一个悬而未决的问题。

相关推荐
十有久诚8 分钟前
TaskRes: Task Residual for Tuning Vision-Language Models
人工智能·深度学习·提示学习·视觉语言模型
全云在线allcloudonline22 分钟前
微软 Azure AI 服务免费试用及申请:语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景
人工智能·microsoft·azure
Filotimo_22 分钟前
【自然语言处理】实验三:新冠病毒的FAQ问答系统
人工智能·经验分享·笔记·python·学习·自然语言处理·pycharm
标贝科技24 分钟前
ChatGPT对话训练数据采集渠道有哪些
数据库·人工智能·机器学习·chatgpt
zhangfeng113324 分钟前
rnn input_size hidden_size 分别是什么意思 ,人工智能 Python
人工智能·rnn·自然语言处理
PD我是你的真爱粉24 分钟前
GPTo1论文详解
人工智能·深度学习
说私域29 分钟前
构建有温度的用户关系:开源 AI 智能名片、链动 2+1 模式与 S2B2C 商城小程序的作用
人工智能·小程序
newxtc38 分钟前
【天怡AI-注册安全分析报告-无验证方式导致安全隐患】
人工智能·安全
WF199807191 小时前
秋招自我介绍
人工智能
Hoper.J1 小时前
李宏毅2024生成式人工智能导论 中文镜像版指导与作业
人工智能·aigc