In-Context Retrieval-Augmented Language Models

本文是LLM系列文章,针对《In-Context Retrieval-Augmented Language Models》的翻译。

上下文检索增强语言模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 我们的框架](#3 我们的框架)
  • [4 实验细节](#4 实验细节)
  • [5 具有现成检索器的上下文RALM的有效性](#5 具有现成检索器的上下文RALM的有效性)
  • [6 用面向LM的重新排序改进上下文RALM](#6 用面向LM的重新排序改进上下文RALM)
  • [7 用于开放域问答的上下文RALM](#7 用于开放域问答的上下文RALM)
  • [8 讨论](#8 讨论)

摘要

检索增强语言建模(RALM)方法在生成过程中对基础语料库中的相关文档设置语言模型(LM),可以显著提高语言建模性能。此外,它们可以缓解事实上不准确的文本生成问题,并提供自然的来源归因机制。现有的RALM方法侧重于修改LM体系结构,以促进外部信息的合并,从而使部署显著复杂化。本文考虑了一个简单的替代方案,我们称之为上下文RALM:保持LM架构不变,并为输入准备基础文档,而不需要对LM进行任何进一步的训练。我们发现,建立在现成的通用检索器上的上下文RALM在模型大小和不同的语料库中提供了惊人的大LM增益。我们还证明了文档检索和排序机制可以专门用于RALM设置,以进一步提高性能。我们得出的结论是,In-Context RALM在增加LM基准的流行率方面具有相当大的潜力,特别是在必须在不修改甚至通过API访问的情况下使用预训练的LM的情况下。

1 引言

2 相关工作

3 我们的框架

4 实验细节

5 具有现成检索器的上下文RALM的有效性

6 用面向LM的重新排序改进上下文RALM

7 用于开放域问答的上下文RALM

8 讨论

从外部来源检索已成为知识密集型任务中的一种常见做法(如事实问答、事实核查等)。与此同时,LM生成能力的最新突破使LM能够生成有用的长文本。然而,事实上的不准确仍然是机器生成的文本可能达不到要求的常见方式,而且缺乏直接出处使人们很难信任机器生成的文字。这使得语言建模成为知识基础的一个有前途和紧迫的新应用领域,并推动了RALM方法的推广。当然,先前的研究已经对RALM进行了研究,但尚未广泛部署。一个可能的原因是,现有的方法依赖于对LM的微调,这通常是困难和昂贵的,并且对于仅通过API访问的LM来说甚至是不可能的。

本文提出了InContext RALM的框架,使冻结的现成LMs能够从检索中受益。我们证明了使用通用检索器可以获得显著的性能增益,并表明通过根据LM设置调整文档选择可以获得额外的增益。Muhlgay等人最近的一项工作(2023)表明,上下文RALM确实能够提高大型LMs的真实性。

今后的工作还有几个需要进一步改进的方向。首先,本文只考虑将单个外部文件置于上下文中的情况;增加更多的文档可以推动进一步的收益(例如,使用Ratner等人的框架)。其次,我们每隔一个固定的 s s s个token间隔就检索文档,但通过更稀疏的检索,例如只有在专门的模型预测需要检索时,我们才看到了巨大的延迟和成本收益的潜力。

我们发布了这项工作中使用的代码,供社区使用和改进。我们希望它能推动对RALM的进一步研究,从而使其得到更广泛的采用。

相关推荐
go54631584656 分钟前
修改Spatial-MLLM项目,使其专注于无人机航拍视频的空间理解
人工智能·算法·机器学习·架构·音视频·无人机
还有糕手42 分钟前
西南交通大学【机器学习实验2】
人工智能·机器学习
jndingxin44 分钟前
OpenCV CUDA模块设备层-----在 GPU 上执行类似于 std::copy 的操作函数warpCopy()
人工智能·opencv·计算机视觉
weixin_377634841 小时前
【数据增强】精细化贴图数据增强
人工智能·目标检测·贴图
老A技术联盟1 小时前
超实用的Cursor使用技巧之案列分析-教你基于Cursor零代码开发一个chrome插件
人工智能·cursor
慧星云1 小时前
ComfyUI工作流 :一键换背景体验不同场景
人工智能
程序员的小马甲1 小时前
如何编写AI提示词
人工智能·程序员·产品经理
算家计算1 小时前
4 位量化 + FP8 混合精度:ERNIE-4.5-0.3B-Paddle本地部署,重新定义端侧推理效率
人工智能·开源
晓13131 小时前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr
小白狮ww1 小时前
VASP 教程:VASP 机器学习力场微调
人工智能·深度学习·机器学习