An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

本文是LLM系列文章,针对《An Efficient Memory-Augmented Transformer for

Knowledge

一种用于知识密集型NLP任务的高效内存增强转换器

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 高效内存增强Transformer](#3 高效内存增强Transformer)
  • [4 EMAT的训练流程](#4 EMAT的训练流程)
  • [5 实验](#5 实验)
  • [6 分析](#6 分析)
  • [7 结论](#7 结论)
  • 局限性

摘要

获取外部知识对于许多自然语言处理任务至关重要,例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型,或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势,我们提出了高效内存增强Transformer(EMAT)------它将外部知识编码为键值内存,并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务,允许EMAT对信息性键值表示进行编码,并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务(如问答和对话数据集)上的实验表明,使用我们的方法简单地扩充参数模型(T5基础)会产生更准确的结果(例如,25.8→ NQ上的44.3 EM)同时保持高吞吐量(例如NQ上1000个查询/s)。与检索的改进模型相比,EMAT在WoW和ELI5上运行得更快,结果更准确。

1 引言

2 相关工作

3 高效内存增强Transformer

4 EMAT的训练流程

5 实验

6 分析

7 结论

在这项工作中,我们提出了一种有效的内存改进Transformer(EMAT),它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中,并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务,以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验,包括开放域问答、对话和长形式问答,表明了EMAT的准确性和快速性。在未来,我们将寻求改进,将更多样化的知识整合到记忆中,并将我们的方法推广到更多的下游任务中。

局限性

一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着,当应用于不同的下游任务时,我们定义了不同的弱监管标签。可以使用端到端的训练技术,如Paranjape等人提出的技术,用解码器的梯度训练记忆检索模块,我们将其作为未来的工作。另一个潜在的限制是,我们需要存储密集的键值存储器M,这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易,而且大多数深度学习工作站都能达到这一要求,我们认为这并不是太大的限制。此外,在内存资源不足的情况下,我们可以使用LRU缓存来节省RAM。

相关推荐
2501_9333295520 小时前
企业级舆情监测系统技术解析:Infoseek数字公关AI中台架构与实践
开发语言·人工智能·自然语言处理·架构
醉卧考场君莫笑21 小时前
规则与传统NLP之任务范式
人工智能·自然语言处理
今日说"法"1 天前
数值计算与浮点误差:深度学习中梯度崩溃的数学根源与归一化对策
人工智能·深度学习
LaughingZhu1 天前
Product Hunt 每日热榜 | 2026-04-21
人工智能·经验分享·深度学习·神经网络·产品运营
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月20日
人工智能·python·信息可视化·自然语言处理·ai编程
keineahnung23451 天前
PyTorch 張量尺寸為 1 時,步長為何不具語意?
人工智能·pytorch·python·深度学习
思绪无限1 天前
YOLOv5至YOLOv12升级:日常场景下的人脸检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·日常场景下的人脸检测·yolov12·yolo全家桶
一休哥※1 天前
YOLOv11改进系列 | 引入EMO ICCV2023的C3k2_iRMB模块,轻量注意力残差混合块增强C3k2,多尺度分割更稳更准
深度学习·yolo·计算机视觉
小超同学你好1 天前
Transformer 27. Vision Transformer(ViT):把图像当作「词序列」的编码器
人工智能·深度学习·transformer
赋创小助手1 天前
RTX PRO 6000 vs RTX 5090:从一组230B模型测试数据谈企业级推理选型
服务器·人工智能·科技·深度学习·自然语言处理