Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

本文是LLM系列文章，针对《Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor》的翻译。

@TOC

摘要

指令调优使预训练的语言模型能够从推理时间的自然语言描述中执行新的任务。这些方法依赖于以众包数据集或用户交互形式进行的大量人工监督。在这项工作中，我们介绍了非自然指令:一个创造性和多样化指令的大型数据集，几乎没有人工劳动。我们收集了64,000个例子，通过提示一个语言模型，其中包含三个指令的种子例子，并引出第四个。然后通过提示模型重新表述每个指令来扩展该集合，创建总计约240,000个指令、输入和输出示例。实验表明，尽管包含了相当数量的噪声，但在非自然指令上的训练可以与在开源人工管理数据集上的训练相媲美，在各种基准测试中超过了T0++和Tk-Instruct等模型的性能。这些结果证明了模型生成数据作为一种经济有效的方法的潜力替代众包的数据集扩展和多样化。

1 引言

2 数据收集

3 数据分析

4 实验设置

5 结果

6 生成模型消融

7 相关工作

8 结论

我们介绍了非自然指令，这是一个自动生成的自然语言指令数据集及其相应的输入和输出。据我们所知，这是第一个自动生成的通用NLP数据集。我们的实验表明，在多个基准测试中，在非自然指令上训练的模型优于在手动注释数据集上训练的模型。非自然指令不仅具有成本效益，我们还提供了证据，证明所产生的指令具有更高的多样性，并且在设计的任务中具有高水平的创造力，这是群体工作者难以获得的特征。消融表明，即使没有指令调优的较弱模型也可以生成有用的指令，尽管它们可能难以产生相应的输出。然而，提出有趣的任务和编写不同的指令可以说是数据收集过程的主要挑战，而给定指令和输入，输出通常更容易通过众包进行注释。我们的发现鼓励利用模型进行通用数据生成，我们认为这是未来研究的一个有趣方向。

9 局限性

我们指出了未来自动指令生成的一些改进方向。

首先，如§3所示，非自然指令包含有噪声的例子，其中指令、输入或输出都是无效的。未来的工作可能侧重于为这些示例开发更好的过滤器------例如，通过将示例子集注释为有效或无效，并训练分类器来确定生成实例的正确性。

其次，未来的工作可能采用"人在循环"的方法，即人类应该识别具有挑战性的模式，鼓励模型生成更复杂的示例。在另一个人在循环的场景中，人类可以查询非自然指令训练的模型，以找到这些模型失败的例子，从而收集更难的例子。

最后，语言模型有时会反映训练数据中存在的不良偏差。因此，自动生成的数据可能包含此类内容。我们注意到，在我们的手工分析中，我们没有注意到任何有害的例子。尽管如此，未来的工作可能会考虑应用过滤机制来降低有偏见内容的风险。