摘要

我们介绍了Backpacks：一种新的神经架构，它将强大的建模性能与可解释性和控制性的接口结合在一起。背包为词汇表中的每个单词学习多个非上下文意义向量，并将序列中的一个单词表示为该序列中意义向量的上下文相关、非负线性组合。我们发现，经过训练后，感觉向量会发生专门化，每个向量都会编码单词的不同方面。我们可以通过检查感向量在输出空间上的（非上下文、线性）投影来解释感向量，并干预这些可解释的挂钩，以可预测的方式改变模型的行为。我们在OpenWebText上训练了一个170M参数的Backpack语言模型，匹配GPT-2小型（124M参数）Transformer的损失。在词汇相似性评估中，我们发现Backpack感觉向量甚至优于6B参数Transformer LM的单词嵌入。最后，我们提出了一些简单的算法，这些算法对感觉向量进行干预，以执行可控的文本生成和去偏。例如，我们可以编辑意义词汇，使其更倾向于某个主题，或者将性别偏见的来源定位为意义向量，并在全球范围内抑制这种意义。

1 引言

2 背包架构

3 带有背包的语言模型

4 实验训练背包LM

5 感知向量中的涌现结构

6 用于控制的感知向量

7 相关工作

8 讨论

9 结论

非上下文word2vec嵌入开创了NLP的现代深度学习研究，并具有迷人的几何结构。现在，研究主要转向了单片表示，首先来自RNN，现在来自Transformers。我们的工作表明，在一个单一的模型中，我们可以拥有丰富的词汇结构和干预，以及强大的上下文表现。

11 不足

Backpack语言模型是否会继续随着参数和数据进行扩展，并在更大的模型规模上成为Transformers的可行替代品，这是一个根本的不确定性。在这项研究中，我们无法扩大规模，希望未来的工作将测试更大的模型规模。类似地，我们没有验证Backpack语言模型在多种语言中表现良好。我们也不考虑，例如，在其他任务中微调Backpack，或屏蔽语言建模------还有很多可能的用途有待验证。

我们没有研究使用Backpack的一个潜在障碍是，在形态结构比英语丰富的语言中，标记化的影响------Backpack结构是否适合为这些语言建模？这可能很困难，因为直观地说，背包的可解释性和控制与单个token的语义有关。即使在英语中，不代表一个单词的小单词也很难解释。我们希望提供的是一组足够的实验来激励对背包的进一步探索。

12

本文描述并发布了一个在文本互联网的大部分未经过滤的部分（主要是英语部分）上训练的开放域语言模型，并描述了解释和控制该模型的方法。任何可以用来帮助理解和指导模型生成的控制方法都可以用来更有效地生成有毒或非法内容。尽管如此，我们确实希望，总的来说，深入了解Backpack语言模型的好处是朝着正确的方向迈出的一步。特别是，基于背包结构的解释可能能够深入了解模型行为背后的机制，从而提高透明度。

我们将发布的具体模型，包括170M个参数，在生成文本方面比目前许多公开和商业可用的语言模型要小得多，性能也较差，因此我们预计这些工件的发布不会产生相当大的负面影响。然而，我们发布的代码可以被公司或政府用来或复制来训练更大的背包LMs。