Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

本文是LLM系列文章,针对《Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor》的翻译。

@TOC

摘要

指令调优使预训练的语言模型能够从推理时间的自然语言描述中执行新的任务。这些方法依赖于以众包数据集或用户交互形式进行的大量人工监督。在这项工作中,我们介绍了非自然指令:一个创造性和多样化指令的大型数据集,几乎没有人工劳动。我们收集了64,000个例子,通过提示一个语言模型,其中包含三个指令的种子例子,并引出第四个。然后通过提示模型重新表述每个指令来扩展该集合,创建总计约240,000个指令、输入和输出示例。实验表明,尽管包含了相当数量的噪声,但在非自然指令上的训练可以与在开源人工管理数据集上的训练相媲美,在各种基准测试中超过了T0++和Tk-Instruct等模型的性能。这些结果证明了模型生成数据作为一种经济有效的方法的潜力替代众包的数据集扩展和多样化。

1 引言

2 数据收集

3 数据分析

4 实验设置

5 结果

6 生成模型消融

7 相关工作

8 结论

我们介绍了非自然指令,这是一个自动生成的自然语言指令数据集及其相应的输入和输出。据我们所知,这是第一个自动生成的通用NLP数据集。我们的实验表明,在多个基准测试中,在非自然指令上训练的模型优于在手动注释数据集上训练的模型。非自然指令不仅具有成本效益,我们还提供了证据,证明所产生的指令具有更高的多样性,并且在设计的任务中具有高水平的创造力,这是群体工作者难以获得的特征。消融表明,即使没有指令调优的较弱模型也可以生成有用的指令,尽管它们可能难以产生相应的输出。然而,提出有趣的任务和编写不同的指令可以说是数据收集过程的主要挑战,而给定指令和输入,输出通常更容易通过众包进行注释。我们的发现鼓励利用模型进行通用数据生成,我们认为这是未来研究的一个有趣方向。

9 局限性

我们指出了未来自动指令生成的一些改进方向。

首先,如§3所示,非自然指令包含有噪声的例子,其中指令、输入或输出都是无效的。未来的工作可能侧重于为这些示例开发更好的过滤器------例如,通过将示例子集注释为有效或无效,并训练分类器来确定生成实例的正确性。

其次,未来的工作可能采用"人在循环"的方法,即人类应该识别具有挑战性的模式,鼓励模型生成更复杂的示例。在另一个人在循环的场景中,人类可以查询非自然指令训练的模型,以找到这些模型失败的例子,从而收集更难的例子。

最后,语言模型有时会反映训练数据中存在的不良偏差。因此,自动生成的数据可能包含此类内容。我们注意到,在我们的手工分析中,我们没有注意到任何有害的例子。尽管如此,未来的工作可能会考虑应用过滤机制来降低有偏见内容的风险。

相关推荐
阿坡RPA7 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户27784491049937 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心7 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI9 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c10 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20510 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清11 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh11 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员11 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物11 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技