本文是LLM系列文章，针对《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻译。

Prompt2Model：从自然语言指令生成可部署模型

摘要
[1 引言](#1 引言)
[2 Prompt2Model框架](#2 Prompt2Model框架)
[3 参考实现](#3 参考实现)
[4 实验设置](#4 实验设置)
[5 实验结果](#5 实验结果)
[6 讨论与结论](#6 讨论与结论)
不足
道德声明

摘要

大型语言模型（LLM）使今天的系统构建者能够通过提示创建有能力的NLP系统，他们只需要用自然语言描述任务并提供几个例子。然而，在其他方面，LLM是传统的专用NLP模型的倒退；它们需要大量的计算资源来进行部署，并且可以在API后面进行门控。在本文中，我们提出了Prompt2Model，这是一种通用方法，它采用自然语言任务描述，如提供给LLM的提示，并使用它来训练有利于部署的专用模型。这是通过检索现有数据集和预训练模型、使用LLM生成数据集以及对这些检索和生成的数据集进行监督微调的多步骤过程来完成的。在三项任务中，我们证明，在输入相同的少量提示的情况下，Prompt2Model训练的模型比强LLM gpt-3.5-turbo的结果平均好20%，同时小700倍。我们还表明，这些数据可以用于获得模型性能的可靠性能估计，使模型开发人员能够在部署前评估模型可靠性。Prompt2Model开源地址https://github.com/neulab/prompt2model

1 引言

2 Prompt2Model框架

3 参考实现

4 实验设置

5 实验结果

6 讨论与结论

我们提出了Prompt2Model，这是一个仅使用自然语言提示自动构建任务特定模型的框架。我们的概念验证实验表明，尽管Prompt2Model使用了与LLM类似的易于使用的界面，但它提供了小而准确的模型，其生成的数据集可用于评估真实世界的性能。除了我们的参考实现提供了一个现成的工具外，Prompt2Model的可扩展设计和模块化实现使其成为推进模型提取、数据集生成、综合评估、数据集检索和模型检索的平台。

我们相信我们的Prompt2Model框架可以启发各种新颖的研究问题。我们希望我们的平台能够在未来更深入地研究生成数据和模型的质量保证。有趣的问题包括我们应该为下游模型训练生成多少数据，以及它应该有多多样化？我们如何有效地混合检索到的和生成的数据集，以实现互补优势（例如，使用数据集生成来关注检索到的数据集无法覆盖的模型的预期输入）？由于用户通常很难提前阐明他们的需求，未来的扩展还应该解决人工在环纠正的挑战------要么提供潜在的策略来帮助用户迭代地完善提示，要么允许用户在任务元数据提取和生成的数据与他们的意图不一致时执行事后修复。我们希望提出明确的挑战，并邀请社区在我们的框架中为各种组件的新实现做出贡献。

不足

我们系统的主要限制之一是，我们目前的实验都是使用gpt-3.5-turbo API（用于提示解析、数据集生成和模型检索）进行的。这种LLM是付费的、封闭的来源，这使得它作为一种科学人工制品存在问题。此外，该LLM的服务提供商OpenAI禁止使用其API创建可能与OpenAI竞争的模型，从而在商业应用中使用Prompt2Model产生潜在的法律问题。我们正在探索开源LLM的集成，以避免对专有API的依赖。

我们工作的另一个限制是Prompt2Model支持需要处理英语以外语言的任务的能力有限。虽然我们已经展示了我们的系统在支持从日语自然语言查询生成代码方面的局限性，但我们的系统可能会在较低资源语言方面遇到更多困难。在我们的参考实现中，我们使用未发表的gpt-3.5-turbo模型作为数据集生成器。该模型被认为与GPT-3相似，GPT-3在93%的英语文档、1%的德语文档、1%法语文档和<5%的其他语言文档上进行了训练。我们使用这个模型可能会加剧高资源语言和低资源语言之间现有的语言技术差异。

一个潜在的限制是，我们只在3个任务上测试了我们的方法，每个任务都有一个数据集和一个评估指标。我们证明这一决定是合理的，因为我们的重点是提供一个可扩展的软件系统，而不是在许多数据集上建立最先进的结果，但我们相信我们的结果表明了更广泛的适用性。

道德声明

任何能让公众更容易获得强大技术的系统都具有伦理意义。Widder等人讨论了与深度伪造软件库相关的开源软件包的道德问题，包括使恶意行为者能够使用他们不具备利用技术技能的技术的可能性。对于诸如Prompt2Model之类的AutoML系统来说，这也是一个风险；然而，我们认为，更大的可访问性所带来的好处超过了这种风险，特别是考虑到生成有害数据的低门槛已经以提示的web界面模型的形式存在。

虽然Prompt2Model在输入有害信息的情况下可能会生成有毒、攻击性或不准确的合成数据，但与底层提示模型相比，Prompt2Mode的风险并不更大；事实上，使用从Hugging Face检索到的模型和补充数据集可能会降低下游模型复制提示模型输出的危害的可能性，尽管还需要更多的调查。与所有ML模型一样，Prompt2Model返回的模型可能会出错，我们的目标是在文档中对系统的潜在限制保持透明。

我们希望Prompt2Model将广泛有用。我们的工作动机是希望增加非NLP社区但将从社区创新中受益的人对NLP模型的可访问性；特别是那些将在下游使用NLP模型但可能不具备设计自己的系统的领域特定知识的人。Prompt2Model也可能被证明对早期NLP研究人员有用，因为它为各种任务的基线提供了直观的起点，并能够发现所描述的任务和现有工作之间的相似性。我们开源Prompt2Model，欢迎社区贡献。