TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

本文是LLM系列的文章之一,针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。

TOOLLLMs:让大模型掌握16000+的真实世界APIs

  • 摘要
  • [1 引言](#1 引言)
  • [2 数据集构建](#2 数据集构建)
  • [3 实验](#3 实验)
  • [4 相关工作](#4 相关工作)
  • [5 结论](#5 结论)

摘要

尽管开源大型语言模型(LLM)及其变体(如LLaMA和Vicuna)取得了进步,但它们在执行更高级别的任务方面仍然受到很大限制,例如遵循人类指令使用外部工具(API)。这是因为当前的指令调优主要集中在基本的语言任务上,而不是工具使用领域。这与最先进的(SOTA)LLM(例如,ChatGPT)形成了鲜明对比,后者展示了出色的工具使用能力,但不幸的是,它们是封闭源代码的。为了促进开源LLM中的工具使用能力,我们引入了ToolLLM,这是一个数据构建、模型训练和评估的通用工具使用框架。我们首先介绍了ToolBench,这是一个用于工具使用的指令调优数据集,它是使用ChatGPT自动创建的。具体来说,我们从RapidAPI Hub收集了16464个真实世界的RESTful API,涵盖49个类别,然后提示ChatGPT生成涉及这些API的各种人工指令,涵盖单工具和多工具场景。最后,我们使用ChatGPT为每条指令搜索有效的解决方案路径(API调用链)。为了提高搜索过程的效率,我们开发了一种新的基于深度优先搜索的决策树(DFSDT),使LLM能够评估多个推理轨迹并扩展搜索空间。我们表明,DFSDT显著增强了LLM的规划和推理能力。为了进行有效的工具使用评估,我们开发了一个自动评估器:ToolEval。我们在ToolBench上微调LLaMA并获得ToolLLaMA。我们的ToolEval表明,ToolLLaMA表现出执行复杂指令和泛化到看不见的API的非凡能力,并表现出与ChatGPT相当的性能。为了使管道更实用,我们设计了一个神经API检索器,为每条指令推荐合适的API,从而消除了手动选择API的需要。代码、经过训练的模型和演示可在https://github.com/OpenBMB/ToolBench.

1 引言

2 数据集构建

3 实验

4 相关工作

5 结论

这项工作介绍了如何在LLM中获得工具使用能力。我们提供了一个指令调优数据集ToolBench,它涵盖了16k以上的真实世界API和各种实际用例场景,包括单工具和多工具任务。ToolBench的构建完全使用ChatGPT,并且需要最少的人工监督。此外,我们提出了DFSDT来增强LLM的规划和推理能力,使其能够战略性地在推理路径中导航。为了有效评估工具学习,我们设计了一个自动评估器ToolEval。通过在ToolBench上对LLaMA进行微调,获得的模型ToolLLaMA与ChatGPT的性能相匹配,并对看不见的API表现出显著的泛化能力。此外,我们还开发了一个神经API检索器,为每条指令推荐相关的API。检索器可以与ToolLLaMA集成,作为一个更自动化的工具使用管道。总的来说,这项工作为LLM的指令调整和工具使用的交叉研究铺平了道路。

相关推荐
千宇宙航2 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
onceco2 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
jndingxin5 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
Sweet锦5 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988946 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学03276 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿6 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手6 小时前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链
小和尚同志6 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
我就是全世界7 小时前
TensorRT-LLM:大模型推理加速的核心技术与实践优势
人工智能·机器学习·性能优化·大模型·tensorrt-llm