本文是LLM系列的文章之一，针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。

TOOLLLMs：让大模型掌握16000+的真实世界APIs

摘要
[1 引言](#1 引言)
[2 数据集构建](#2 数据集构建)
[3 实验](#3 实验)
[4 相关工作](#4 相关工作)
[5 结论](#5 结论)

摘要

尽管开源大型语言模型（LLM）及其变体（如LLaMA和Vicuna）取得了进步，但它们在执行更高级别的任务方面仍然受到很大限制，例如遵循人类指令使用外部工具（API）。这是因为当前的指令调优主要集中在基本的语言任务上，而不是工具使用领域。这与最先进的（SOTA）LLM（例如，ChatGPT）形成了鲜明对比，后者展示了出色的工具使用能力，但不幸的是，它们是封闭源代码的。为了促进开源LLM中的工具使用能力，我们引入了ToolLLM，这是一个数据构建、模型训练和评估的通用工具使用框架。我们首先介绍了ToolBench，这是一个用于工具使用的指令调优数据集，它是使用ChatGPT自动创建的。具体来说，我们从RapidAPI Hub收集了16464个真实世界的RESTful API，涵盖49个类别，然后提示ChatGPT生成涉及这些API的各种人工指令，涵盖单工具和多工具场景。最后，我们使用ChatGPT为每条指令搜索有效的解决方案路径（API调用链）。为了提高搜索过程的效率，我们开发了一种新的基于深度优先搜索的决策树（DFSDT），使LLM能够评估多个推理轨迹并扩展搜索空间。我们表明，DFSDT显著增强了LLM的规划和推理能力。为了进行有效的工具使用评估，我们开发了一个自动评估器：ToolEval。我们在ToolBench上微调LLaMA并获得ToolLLaMA。我们的ToolEval表明，ToolLLaMA表现出执行复杂指令和泛化到看不见的API的非凡能力，并表现出与ChatGPT相当的性能。为了使管道更实用，我们设计了一个神经API检索器，为每条指令推荐合适的API，从而消除了手动选择API的需要。代码、经过训练的模型和演示可在https://github.com/OpenBMB/ToolBench.

1 引言

2 数据集构建

3 实验

4 相关工作

5 结论

这项工作介绍了如何在LLM中获得工具使用能力。我们提供了一个指令调优数据集ToolBench，它涵盖了16k以上的真实世界API和各种实际用例场景，包括单工具和多工具任务。ToolBench的构建完全使用ChatGPT，并且需要最少的人工监督。此外，我们提出了DFSDT来增强LLM的规划和推理能力，使其能够战略性地在推理路径中导航。为了有效评估工具学习，我们设计了一个自动评估器ToolEval。通过在ToolBench上对LLaMA进行微调，获得的模型ToolLLaMA与ChatGPT的性能相匹配，并对看不见的API表现出显著的泛化能力。此外，我们还开发了一个神经API检索器，为每条指令推荐相关的API。检索器可以与ToolLLaMA集成，作为一个更自动化的工具使用管道。总的来说，这项工作为LLM的指令调整和工具使用的交叉研究铺平了道路。