An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

本文是LLM系列文章,针对《An Efficient Memory-Augmented Transformer for

Knowledge

一种用于知识密集型NLP任务的高效内存增强转换器

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 高效内存增强Transformer](#3 高效内存增强Transformer)
  • [4 EMAT的训练流程](#4 EMAT的训练流程)
  • [5 实验](#5 实验)
  • [6 分析](#6 分析)
  • [7 结论](#7 结论)
  • 局限性

摘要

获取外部知识对于许多自然语言处理任务至关重要,例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型,或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势,我们提出了高效内存增强Transformer(EMAT)------它将外部知识编码为键值内存,并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务,允许EMAT对信息性键值表示进行编码,并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务(如问答和对话数据集)上的实验表明,使用我们的方法简单地扩充参数模型(T5基础)会产生更准确的结果(例如,25.8→ NQ上的44.3 EM)同时保持高吞吐量(例如NQ上1000个查询/s)。与检索的改进模型相比,EMAT在WoW和ELI5上运行得更快,结果更准确。

1 引言

2 相关工作

3 高效内存增强Transformer

4 EMAT的训练流程

5 实验

6 分析

7 结论

在这项工作中,我们提出了一种有效的内存改进Transformer(EMAT),它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中,并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务,以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验,包括开放域问答、对话和长形式问答,表明了EMAT的准确性和快速性。在未来,我们将寻求改进,将更多样化的知识整合到记忆中,并将我们的方法推广到更多的下游任务中。

局限性

一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着,当应用于不同的下游任务时,我们定义了不同的弱监管标签。可以使用端到端的训练技术,如Paranjape等人提出的技术,用解码器的梯度训练记忆检索模块,我们将其作为未来的工作。另一个潜在的限制是,我们需要存储密集的键值存储器M,这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易,而且大多数深度学习工作站都能达到这一要求,我们认为这并不是太大的限制。此外,在内存资源不足的情况下,我们可以使用LRU缓存来节省RAM。

相关推荐
mingo_敏6 分钟前
深度学习论文: Per-Pixel Classification is Not All You Need for Semantic Segmentation
人工智能·深度学习
财经资讯数据_灵砚智能28 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月12日
人工智能·python·信息可视化·自然语言处理·ai编程
深度学习lover36 分钟前
<数据集>yolo 交通违规标志识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·交通违规标志识别
莽撞的大地瓜3 小时前
多模态内容校对智能体新突破:蜜度校对通以全流程自动化重塑校对标准
自然语言处理·全文检索·中文分词
Resistance丶未来3 小时前
从零构建大语言模型:核心原理与实战落地
人工智能·ai·语言模型·自然语言处理·nlp·多模态大模型·ai工具
MediaTea3 小时前
人工智能通识课:机器学习之无监督学习
人工智能·深度学习·学习·机器学习
一切皆是因缘际会4 小时前
2026实战:AI可解释性落地全指南
人工智能·深度学习·机器学习·架构
keineahnung23454 小时前
PyTorch SymNode 為何找不到方法實作?──sizes_strides_methods 動態安裝機制解析
人工智能·pytorch·python·深度学习
AI-Frontiers4 小时前
transformer进阶之路:#4 attention从如何「工作」到「为何」如此高效
transformer
老鱼说AI4 小时前
现代 LangChain 开发指南:从 LCEL 原理到企业级 RAG 与 Agent 实战
java·开发语言·人工智能·深度学习·神经网络·算法·机器学习