KILM: Knowledge Injection into Encoder-Decoder Language Models

UnknownBody2023-10-18 19:49

本文是LLM系列文章，针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

KILM：知识注入到编码器-解码器语言模型

摘要
[1 引言](#1 引言)
[2 相关工作](#2 相关工作)
[3 方法](#3 方法)
[4 实验](#4 实验)
[5 讨论](#5 讨论)
[6 结论](#6 结论)
局限性

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识，我们提出了知识注入语言模型(KILM)，这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明，KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能，优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中，我们提出了一种新的方法，KILM，通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能，特别是在零样本和小样本设置中，同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中，我们提出了一种持续预训练的方法，将知识注入到大型预训练的语言模型中。每次预训练实验使用8个V100 gpu，初级设置下，基本尺寸模型预训练5天，大尺寸模型预训练13天。在数据升级设置中，这些数字明显更大(大尺寸模型为30天)。尽管它在减少推理时间的资源需求方面具有优势，但在训练时间内，KILM既耗时又消耗计算资源。

与任何基于模型的生成系统类似，KILM可能容易生成关于实体的事实不正确的陈述。这些陈述也可能有基于种族、种族和性取向的偏见。