论文阅读：HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
https://proceedings.neurips.cc/paper_files/paper/2023/file/77c33e6a367922d003ff102ffb92b658-Paper-Conference.pdf

HuggingGPT: 解决与ChatGPT及其在Hugging Face的朋友们相关的AI任务

Yongliang Shen1,2*, Kaitao Song2*,†, Xu Tan2, Dongsheng Li2, Weiming Lu1†, Yueting Zhuang1†

浙江大学, 2. 微软亚洲研究院
{syl, luwm, yzhuang}@zju.edu.cn, {kaitaosong, xuta, dongsli}@microsoft.com
https://github.com/microsoft/JARVIS

摘要

解决涉及不同领域和模态的复杂AI任务是实现通用人工智能的关键步骤。尽管目前有众多针对不同领域和模态的AI模型，但它们无法自主处理复杂的AI任务。鉴于大型语言模型（LLMs）在语言理解、生成、交互和推理方面表现出色，我们主张LLMs可以作为控制器来管理现有的AI模型解决复杂任务，语言则作为一种通用接口来实现这一目标。基于这一理念，我们提出了HuggingGPT，这是一个由LLM驱动的代理，利用LLMs（例如ChatGPT）连接机器学习社区（例如Hugging Face）中的各种AI模型来解决AI任务。具体来说，我们使用ChatGPT在接收到用户请求时进行任务规划，根据Hugging Face中可用的功能描述选择模型，使用选定的AI模型执行每个子任务，并根据执行结果总结响应。通过利用ChatGPT强大的语言能力和Hugging Face中丰富的AI模型，HuggingGPT能够处理跨越不同模态和领域的广泛复杂AI任务，并在语言、视觉、语音等具有挑战性的任务中取得了令人印象深刻的成果，这为实现通用人工智能开辟了新的途径。

1 引言

大型语言模型（LLMs）[1, 2, 3, 4, 5, 6]，例如ChatGPT，因其在各种自然语言处理（NLP）任务上的出色表现，已经吸引了学术界和工业界的广泛关注。基于对大量文本语料库的大规模预训练和来自人类反馈的强化学习[2]，LLMs在语言理解、生成和推理方面展现出了卓越的能力。LLMs的强大能力也推动了许多新兴研究课题的发展（例如，上下文学习[1, 7, 8]、指令学习[9, 10, 11, 12, 13, 14]和思维链提示[15, 16, 17, 18]），进一步探索了LLMs的潜力，并为推进通用人工智能带来了无限可能。

尽管取得了这些巨大的成功，当前的LLM技术仍不完善，并在构建先进AI系统的道路上面临一些紧迫的挑战。我们从以下几个方面讨论这些问题：1）限于文本生成的输入和输出形式，当前的LLMs缺乏处理如视觉和语音等复杂信息的能力，尽管它们在NLP任务上取得了显著成就；2）在现实世界场景中，一些复杂任务通常由多个子任务组成，因此需要多个模型的调度和协作，这超出了语言模型的能力；3）对于一些具有挑战性的任务，LLMs在零样本或少样本设置中表现出色，但它们仍然不如一些专家（例如，微调模型）。

如何解决这些问题可能是LLMs迈向通用人工智能的关键步骤。

在本文中，我们指出为了处理复杂的AI任务，LLMs应该能够与外部模型协调以利用它们的力量。因此，关键问题是如何选择合适的中间件来桥接LLMs和AI模型之间的连接。为了解决这个问题，我们注意到每个AI模型都可以通过总结其功能以语言形式来描述。因此，我们引入了一个概念："语言作为LLMs与AI模型协作的通用接口"。换句话说，通过将这些模型描述整合到提示中，LLMs可以被视为大脑，用于管理AI模型，如规划、调度和协作。结果，这种策略使LLMs能够调用外部模型来解决AI任务。然而，当涉及到将多个AI模型整合到LLMs中时，另一个挑战出现了：解决众多AI任务需要收集大量高质量的模型描述，这反过来又需要大量的提示工程。巧合的是，我们注意到一些公共机器学习社区通常提供了一系列具有明确模型描述的适用模型，用于解决特定的AI任务，如语言、视觉和语音。这些观察给我们带来了一些启示：我们能否通过基于语言的接口将LLMs（例如ChatGPT）与公共机器学习社区（例如GitHub、Hugging Face等）联系起来，以解决复杂的AI任务？

在本文中，我们提出了一个名为HuggingGPT的由LLM驱动的代理，它能够自主地解决广泛的复杂AI任务，连接LLMs（即ChatGPT）和机器学习社区（即Hugging Face），并且可以处理不同模态的输入。更具体地说，LLM充当大脑：一方面，它根据用户请求拆解任务，另一方面，根据模型描述为任务分配合适的模型。通过执行模型并整合计划任务中的结果，HuggingGPT能够自主完成复杂的用户请求。图1所示的HuggingGPT的整个过程可以分为四个阶段：

响应生成：最后，使用ChatGPT整合所有模型的预测结果，并为用户生成响应。

得益于这样的设计，HuggingGPT能够从用户请求中自动生成计划，并使用外部模型，使其能够整合多模态感知能力，并解决各种复杂的AI任务。更值得注意的是，这个流程允许HuggingGPT不断地吸收特定任务专家的力量，促进AI能力的增长和可扩展性。

总的来说，我们的贡献可以总结如下：

为了补充大型语言模型和专家模型的优势，我们提出了具有模型间协作协议的HuggingGPT。HuggingGPT将LLMs应用为规划和决策的大脑，并自动调用和执行每个特定任务的专家模型，为设计通用AI解决方案提供了一种新方法。
通过将Hugging Face中心与围绕ChatGPT的众多特定任务模型集成，HuggingGPT能够解决涵盖多个模态和领域的通用AI任务。通过模型的开放协作，HuggingGPT能够为用户提供多模态和可靠的对话服务。
我们指出了HuggingGPT（和自主代理）中任务规划和模型选择的重要性，并制定了一些实验评估，以衡量LLMs在规划和模型选择方面的能力。
在语言、视觉、语音和跨模态等多个具有挑战性的AI任务上的广泛实验表明了HuggingGPT在理解和解决来自多个模态和领域的复杂任务方面的能力和巨大潜力。

图 1：语言作为接口，使大型语言模型（例如ChatGPT）能够连接众多AI模型（例如Hugging Face中的模型）来解决复杂的AI任务。在这个概念中，LLM充当控制器，管理和组织专家模型的协作。LLM首先根据用户请求规划任务列表，然后为每个任务分配专家模型。专家执行任务后，LLM收集结果并响应用户。

图 2：HuggingGPT的概览。以LLM（例如ChatGPT）作为核心控制器，专家模型作为执行者，HuggingGPT的工作流程包括四个阶段：1）任务规划：LLM将用户请求解析成任务列表，并确定任务间的执行顺序和资源依赖关系；2）模型选择：LLM根据Hugging Face上专家模型的描述为任务分配合适的模型；3）任务执行：混合端点上的专家模型执行分配的任务；4）响应生成：LLM整合专家的推理结果，并生成工作流日志的摘要，以回应用户。