小模型驱动大智能：NVIDIA 新研究实现 2.5 倍效率提升，成本直降 70%

大模型实验室Lab4AI2025-12-30 10:51

论文标题：ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

作者团队：英伟达、香港大学

发布时间：2025 年 11 月 27 日

大语言模型在解决深度复杂问题时面临计算成本高、推理能力不足的挑战；现有工具代理多依赖单一强大模型，缺乏对"工具编排"的系统性优化，导致效率与成本难以平衡。

这篇论文解决的是，训练一个小型语言模型（Orchestrator）作为编排器，动态协调多种工具（基础工具、专业 LLMs、通用 LLMs），通过强化学习优化任务完成效果。

论文核心是训练一个小型语言模型作为"编排器"，通过强化学习让小模型学会 "何时调用、调用什么、如何组合" 工具，实现 "以小控大、降本增效"。

该方法将多工具任务建模为马尔可夫决策过程，编排器通过"多轮滚动"交替执行"推理"和"工具调用"，逐步完成任务。

奖励设计包含三重目标：结果正确性（任务是否解决）、效率（成本与延迟）、用户偏好（工具选择倾向），引导模型平衡性能与成本，适配用户需求。

为支持训练，论文还提出了 ToolScale 数据集，通过模拟工具环境与生成多样化任务，解决端到端 RL 训练的数据稀缺问题。