MTU-Bench数据集：用于提升LLMs在多轮对话和多工具使用场景下的性能

2024-10-15，由阿里巴巴集团联合中国科学院大学和滑铁卢大学提出了一个创新的大型语言模型（LLMs）多粒度工具使用基准测试数据集------MTU-Bench。这个数据集的重要意义在于它通过模拟真实世界中的工具使用场景，提供了一个全面的评估框架，能够细致地衡量和提升LLMs在多轮对话和多工具使用场景下的性能。

一、研究背景：

1、研究背景随着大型语言模型（LLMs）在推理和决策能力上的显著进步，它们已经能够与用户进行自然的对话。为了进一步提升LLMs的实用性，研究者们开始探索让LLMs能够接口外部工具，如计算器、搜索引擎和预订服务API等，这一方法被称为工具学习（Tool Learning），它被认为是将LLMs转变为通用AI代理的关键步骤。

目前遇到困难和挑战：

1、现有的工具使用基准数据集在评估场景上覆盖不足，仅限于有限的工具使用场景。

2、评估成本高昂，例如依赖GPT API进行评估，导致费用增加。

3、缺乏对多轮对话和多工具使用场景的评估，以及对工具调用顺序、参数选择等细粒度方面的全面评估。

数据集地址：MTU-Bench|大型语言模型数据集|工具使用数据集

二、让我们一起来看一下MTU-Bench数据集

MTU-Bench是一个多粒度工具使用基准测试，目的全面提升LLMs在真实世界工具使用场景中的表现。

MTU-Bench包含两个部分：MTU-Instruct用于训练，MTU-Eval用于评估。它通过转换现有的高质量数据集来模拟真实世界的工具使用场景，并提出了一个指令数据集MTU-Instruct，以增强现有LLMs的工具使用能力。

数据集构建：

数据集的构建涉及五个主要步骤：收集任务导向的对话数据集、创建工具、基于相似性聚类工具、使用GPT-4生成工具文档，以及合成包含思考、行动（工具调用）、行动输入、观察和调整后响应的工具使用样本。

数据集特点：

包括多粒度的工具使用场景覆盖，包含159,061条对话，涵盖了单轮单工具、单轮多工具、多轮单工具、多轮多工具以及分布外任务等多种场景。此外，所有评估指标都基于预测结果和真实情况，无需使用GPT或人工评估指标。

基准测试：

通过在MTU-Bench上微调LLaMA3模型，得到了MTU-LLaMA模型，并在各种场景和指标下展示了其优越的性能，证明了MTU-Instruct的有效性。

从内到外的圆圈分别代表数据源、MTU-Struct 中包含的场景以及 MTU-Eval 中的自动评估指标。

MTU-Instruct 构建的工作流程。它涉及五个步骤：（1）数据收集，（2）工具创建，（3）工具聚类，（4）工具文档，以及（5）工具使用综合。

工具的域分布

MTU-Bench 的统计数据。

三、让我们来一起看一下MTU-Bench数据集场景应用：

在线购物和订单管理场景：

比如，你想要购买一款新手机，但是不确定哪个最适合自己。LLM能够调用电商网站API，帮你比较不同品牌和型号的手机，甚至帮你查找用户评价和价格。确定后，它还能帮你完成下单和支付流程。

通常，你想买个新手机，一个个网站去搜。打开好几个电商网站，比如京东啊、天猫啊，然后一个一个型号比较。看看这个手机的配置怎么样，那个手机的用户评价好不好。还得留意价格，看哪家更便宜，有没有优惠券可以用。选好了以后，还得自己填收货地址，选支付方式，有时候操作起来挺麻烦的，尤其是手机屏幕上敲敲打打，眼睛都看花了。

现在有了MTU-Bench这个工具，情况就完全不一样了。

你只需要告诉LLM，"嘿，我想买个新手机，预算大概三千块，要拍照好看，偶尔打打游戏的。"然后，去调用各大电商平台的API，比如京东、天猫，帮你比较不同品牌和型号的手机。

系统会根据你的需求，筛选出几款符合你预算和功能要求的手机，还会把用户评价啊、价格啊这些信息整理好，直接呈现给你。你看中了哪一款，告诉系统一声，系统就可以帮你下单，连支付流程都能帮你搞定。你只需要最后确认一下信息，点点头，新手机就在路上啦。

来吧，让我们走进：MTU-Bench|大型语言模型数据集|工具使用数据集

知识小科普：

闭源大型语言模型：

GPT-4、GPT-3.5、Qwen-Max、GLM-4-Plus、DeepSeek V2.5

开源大型语言模型：

LLaMA2-7B、LLaMA2-70B、LLaMA3-8B、LLaMA3-70B、Qwen1.5-14B、Qwen1.5-72B、Qwen2-7B、Qwen2-72B、Qwen2-72B、Mistral-7B、ChatGLM3-6B、GLM-4-9B

特定于工具使用大型语言模型：

ToolLLaMA2-7B、MTU-LLaMA (Ours)