摘要
增强语言模型(ALMs)将大型语言模型(LLMs)的推理能力与允许知识检索和操作执行的工具混合在一起。现有ALM系统触发LLM思维过程,同时以交错的方式从这些工具中提取观察结果。具体来说,LLM调用外部工具的原因,暂停以获取工具的响应,然后根据前面的所有响应令牌决定下一个操作。这种范例虽然简单且易于实现,但由于冗余提示和重复执行,通常会导致巨大的计算复杂性。本研究首次解决了这些挑战,提出了一种模块化范式ReWOO(无观察推理),将推理过程与外部观察分离,从而显着减少了令牌消耗。对六个公共NLP基准和一个精心策划的数据集的综合评估显示,我们提出的方法具有一致的性能增强。值得注意的是,ReWOO在HotpotQA(一个多步骤推理基准)上实现了5倍的令牌效率和4%的准确率提升。此外,ReWOO还展示了工具故障场景下的鲁棒性。除了快速高效之外,将参数模块从非参数工具调用中解耦可以使指令微调将llm卸载到更小的语言模型中,从而大大减少模型参数。我们的示例工作将推理能力从175B GPT3.5转移到7B LLaMA,展示了真正高效和可扩展的ALM系统的巨大潜力。完整的代码、模型和数据被发布以供复制。
1 引言
有一种趋势范式[1; 2; 3; 4; 5; 6; 7; 8]是将大型语言模型(LLMs)与外部插件或工具相结合,使LLMs能够与环境[9; 10]互动并获取最新知识。这种工具增强的LLMs,通常被称为增强型语言模型(ALMs),推动了如Auto-GPT [11]等自主执行任务的流行应用。
现有的ALMs研究大多基于类似于ReAct [1]的提示范式,这种范式将言语推理和工具调用连续交替进行。
然而,这种范式引入了LLMs频繁的执行和暂停,以及在令牌消耗上可能产生巨大的成本。LLMs根据前文上下文生成令牌。在与外部工具交互时,LLM必须暂停以等待工具响应。此外,像ChatGPT这样的黑盒LLMs的API是无状态的。为了恢复令牌生成,所有历史令牌(包括上下文提示、示例、所有之前的推理痕迹和观察结果)都需要重新输入LLM,导致提示内容大量重复。OpenAI提供的商业LLM服务按令牌消耗收费。因此,提示内容的重复给普通用户带来了巨大的费用。然而,据我们所知,尚无先前研究探索减少ALMs的令牌消耗。
图1:ReWOO的工作流程给定一个问题,Planner在工具响应之前编写一个相互关联的计划的综合蓝图。蓝图指示工人使用外部工具并收集证据。最后,计划和证据被配对并提供给求解器以获得答案。
图2:在(a)依赖于观察的推理中,从用户请求的任务首先用上下文提示和示例进行包装,然后将其输入LLM以启动推理过程。LLM生成一个想法(T)和一个动作(a),然后等待来自工具的观察(O)。观察结果被堆叠到提示历史中,以启动下一个LLM调用。在ReWOO (b)中,Planner立即生成一个相互依赖的计划(P)列表,并调用Worker从工具中获取证据(E)。P和E与任务结合在一起,然后输入到求解器中得到最终答案。请注意,在(a)中,上下文和范例被反复输入LLM,导致即时冗余。
本文提出了ReWOO,这是一种针对ALMs的新颖提示范式。如图1所示,ReWOO将ALM的关键组件:逐步推理、工具调用和总结,划分为三个独立的模块:规划器、工作者和解决者。规划器分解任务并制定相互依赖的计划蓝图,每个计划分配给工作者。工作者从工具中检索外部知识以提供证据。解决者将所有计划和证据综合起来,生成对初始任务的最终答案。如图2所示,ReWOO将LLMs的推理过程与外部工具分离,避免了在观察依赖推理中交替提示的重复,从而显著减少了令牌使用并提高了提示效率。为了全面评估ReWOO,我们在六个多步骤且知识密集型的NLP基准测试和一个精选数据集上进行了实验。ReWOO的评价基准包括两种非ALM提示方法,直接提示和思维链提示(CoT)[12],以及一种流行的ALM范式,ReAct [1],特点是观察依赖推理。图3提供了表2中基准测试的平均性能,显示了ReWOO在观察依赖对应方上的持续效率提升。此外,我们通过指令调整[13]和专业化[14]展示了ReWOO在系统参数效率方面的潜力。我们观察到,用少量周期进行微调的LLaMa 7B在零样本设置中可以与GPT3.5相媲美,凸显了ReWOO在促进轻量级和可扩展ALM部署方面的能力。
贡献:我们对ALM领域的贡献可以概括如下:(1)我们识别并评估了LLMs在没有显式观察的情况下进行推理的能力(称为可预见推理)。大量实验表明,可预见推理可以用来促进提示高效的ALMs。(2)我们引入了一个模块化框架ReWOO,旨在利用语言模型的可预见推理能力。综合测试表明,与流行的思想-行动-观察风格的ALMs相比,ReWOO在显著减少令牌使用的同时,可以实现相当或更优的性能。此外,ReWOO在现实世界场景中表现出更强的鲁棒性。(3)我们展示了一个流程,将LLMs的可预见推理能力卸载到更小的语言模型中,使小模型能够在零样本设置中使用未见过的工具。这项研究突显了ReWOO在可扩展和参数高效ALM方面的潜力。
2 方法
人类的一项显著能力是预测将要进行的行动可能产生的结果。行动的可预见结果通常对下一步的适应和规划具有足够的指导意义。类似地,我们设计了一个框架,如下所述。
2.1 计划-工作-解决模式的ReWOO
规划器利用LLMs的可预见推理来编写解决方案蓝图。具体来说,它包含连续的元组(计划,#E),其中计划表示当前步骤的描述性信息,而以步骤数s为下标的#E是一个特殊令牌,用于存储相应指定的工作者[指令]中可能正确的证据。这种范式使ReWOO能够处理多步骤和复杂任务,特别是那些后续步骤依赖于先前步骤观察的任务,通过在给工作者的指令中引用先前步骤的#E来实现。
工作者使ReWOO能够通过工具调用与环境互动。一旦规划器提供了蓝图,指定的工作者就会被指令输入调用,并用真实的证据或观察结果填充#E。
解决者处理所有计划和证据,以形成对原始任务或问题的解决方案,例如在问答任务中提供答案或对于行动请求返回工作状态。我们注意到,提示解决者在使用提供的计划和证据时要"谨慎"可以提高ReWOO的整体性能。我们将这种改进归因于解决者固有的推理能力,以解决简单任务或部分补偿规划器或工作者中的失败。
2.2 提示冗余减少
ALM系统基于交叉推理和观察遭受不良促使冗余如图2所示(一个),考虑一个典型的observation-dependent ALM解决一个问题与推理步骤,推导出最终响应 .从上下文提示和一组n范本, ALM迭代生成元组的思想,行动,和观察(TAOs)表示,。设表示文本序列p的令牌数量。输入令牌的总数可按公式(1)计算。
上面的公式表明,重复和相同的提示被冗余地用作输入。由于和通常是非平凡的,因此输入令牌会随着步骤k的增加而二次增长,这通常会导致令牌限制过剩、计算量和时间开销高得离谱。相反,ReWOO避免了如图2 (b)所示的这种交错模式。具体设, j∈[1,k]为计划、证据变量#E和步骤j的证据响应,ReWOO的总输入令牌为:
如果没有提示设置的明确知识,很难定量地衡量两种方法之间的差异。然而,如果我们经验地使#TAOs与#PEs相等,则Eq.(1)与Eq.(2)的差异在于Q, C,S的大小是线性的,而在于T, A, O到k的大小是二次的。这种分析直接表明,当发送给ALM的任务变得越来越复杂,从而引入更多的推理步骤时,ReWOO可以在ALM系统中节省大量的计算成本。注意,一些基于LLM的工具可能会引入额外的令牌消耗。这些代币在我们的实验中也被计算在内。
2.3 特殊化参数效率
增强型语言模型(ALMs)的一个常见问题是,将参数化语言模型和非参数化工具调用结合起来会使得端到端训练变得复杂[2]。为了减轻这个问题,Toolformer [15] 通过在工具增强语料库上以自监督的方式进行微调,来优化语言模型。同样,ReAct 试图通过在 HotpotQA [16] 收集的推理轨迹上进行微调来优化推理能力。然而,这些方法仅在有限的设置中进行测试。
具体来说,Toolformer 在工具的独立采样上受到限制,因此在多步骤推理任务上无法发挥作用。ReAct 在微调完成思想-行动-观察轨迹的方法尚未被证明能够很好地泛化到未见任务或工具集。
ReWOO 将推理与工具调用解耦,允许在规划器模块上优化可预见推理的通用能力,因为在微调过程中没有暴露工具响应。受到最近的专门化框架 [14] 的启发,我们试图从 GPT-3.5 中引出可预见推理,并将其卸载到 LLaMa 7B [17] 上,如图4所示。我们首先使用 text-davinci-003 在 HotpotQA 和 TriviaQA 的混合训练数据上推断 4000 个(计划,#E)蓝图。按照引导方法 [18],我们采样那些导致正确答案的蓝图,产生了大约 2000 个规划器指令数据。一个预训练的 LLaMa 7B 在 52k 自指令数据集上进行指令微调,产生了 Alpaca [13] 7B,它近似于 text-davinci-003 的通用能力。随后,我们进一步在规划器指令数据上微调 Alpaca-7B,以获得一个专门用于可预见推理的 7B 规划器模型。最后,我们评估专门化在多个基准测试上的潜力,用 GPT-3.5、Alpaca 7B 和规划器 7B 替换 ReWOO 规划器。
3 实验
我们根据最先进的提示范例在广泛的NLP基准中评估ReWOO。为了强调利用外部工具的必要性,我们策划了一个数据集,其中回答问题需要最新的外部知识。值得注意的是,ReWOO不仅持续减少令牌的使用,而且在所有任务中都能匹配甚至超过ReAct。
3.1 设置
任务和数据集 。(a)常识和推理。这样的任务既需要特定领域的知识,也需要逻辑推理。四个数据集被用于评估。HotpotQA[16],多域多跳推理QA任务;TriviaQA[19],阅读理解,然后是挑战性问答,我们隐藏阅读上下文以鼓励搜索。SportsUnderstanding[20], BigBench[21]对深度体育领域知识的事实性QA基准;以及StrategyQA[22],这是一个开放领域的QA任务,其答案需要推理步骤。(b)算术和科学推理。这些任务包括包含小学数学问题的GSM8K[23]和包含高中物理问题的PhysicsQuestions[24]。(c)策划。为了用最新的知识挑战ALMs,我们创建了一个关于2023年国情咨文的QA数据集,标记为SOTUQA。例如,"今年的众议院议长比去年老吗?"希望ALMs从提供的SOTU文件中找到2023年的众议院议长,从网上搜索中找到2022年的众议院议长,然后比较年龄。除了SOTUQA,我们还策划了一系列与现实世界ALM应用程序一致的任务(见附录),包括餐馆推荐、股票交易、人工智能绘图等。
**基线。**我们考虑以下提示范式:(a)直接提示:一个标准的零样本范式,提示LLM直接解决任务或回答问题。这个基线反映了语言模型在没有明确推理或工具使用的情况下的基本性能。(b)思维链(CoT):用一个范例来演示中级口头推理格式,促使LLM"一步一步地思考"。该方法体现了模型的显式推理能力,无需调用工具。(c) ReAct:如图2所示,是alm中流行的提示范例。
与原始实现略有不同,我们在上下文提示中附加了提供的工具的简短描述,以实现零样本评估。
示例。 对于 ReWOO 规划器,我们手动从 HotpotQA、TriviaQA 和 GSM8K 的训练数据中分别制作了 i = {6, 1, 1} 个轨迹。这些示例包括覆盖信息检索("找出 ...", "搜索 ...")、比较("比较 ... 与 ... 在 ... 上")、方程求解("令 ... 为 x,求解 ...")和计算("计算 ...")的推理模板。对于 PhysicsQuestions、SportsUnderstanding 和 StrategyQA,我们将兴趣转向系统性的泛化能力,因此只提供了来自不相关基准的 1 个示例。示例中的推理步骤数 k 通常为 2 或 3。ReWOO 规划器中使用的所有示例问题都以思想-行动-观察的方式同等提供给 ReAct。ReAct 发布了在 HotpotQA 上使用的示例。为了公平比较,我们继续使用与 ReAct 相同的示例进行 ReWOO。
**动作空间。**我们提供了一系列工具来协助 LLMs 获取额外知识和与环境互动,包括:(1)Wikipedia[查询],一个用于维基百科的搜索引擎,功能与原始 ReAct 实现中的 search[实体] 相同。(2)Google[查询],来自谷歌搜索引擎结果页的搜索结果片段。(3)WolframAlpha[查询],来自 Wolfram Alpha API 的搜索/计算结果。(4)LLM[提示],一个独立的单个 LLM。(5)Calculator[提示],一个程序辅助的 LLM [25]。(6)SearchDoc[查询],对私人文档的索引搜索。对于涉及更多样化和复杂现实世界互动的策划任务,我们还提供了一套工具,如 Location[查询],Stock[查询],Twitter[查询],Yelp[查询],Email[请求],TradeStock[请求] 和 Draw[提示](详见附录中的示例)。不同基准测试可用的工具如表 1 所示。为了确保公平比较,我们使 ReWOO 和 ReAct 提供的所有可用工具保持一致。
表1:不同基准测试中ALM可用的工具。
评估指标 。我们的实验采用了常见的性能指标,如精确匹配(EM)和字符级 F1 分数。此外,如 [1] 中观察到的,一些基准问题的正确答案不是唯一的。例如,对于地面真实值 "California",回答 "CA." 也应被视为正确。因此,使用基于 GPT-4 的评分器来衡量答案的语义准确性。另一方面,效率可以通过 LLMs 中的总令牌使用量(包括由基于 LLM 的工具消耗的令牌)、推理步骤数和平均每 1k 查询的令牌费用(美元)来衡量。
**微调。**我们设法在单个 RTX4090 上使用 LoRA [26] 对基于 7B LLaMa 的模型进行微调。Alpaca 7B 和 Planner 7B 的详细微调参数见附录。
3.2 结果与观察
3.2.1 提示范式的比较
ReWOO 在所有基准测试中始终优于 ReAct。表 2 显示了基于 gpt-3.5-turbo 的公共基准测试和策划数据集的主要评估结果。在 ALM 设置下,我们观察到 ReWOO 在所有基准测试中都对 ReAct 取得了压倒性的胜利。在六个公共基准测试的平均结果中,ReWOO 能够减少 64% 的令牌使用量,同时绝对准确率提高了 4.4%。这些结果暗示了 ReWOO 在激发 LLMs 的可预见推理能力方面的成功,以及 ReWOO 相对于流行的依赖观察的 ALM 系统在效率上的显著提升。
表2:公共NLP基准的评估结果。对于HotpotQA, TriviaQA和GSM8K,提示配置了来自相同基准的工具和示例;其他任务与实际场景一致,其中我们使用静态的任务外示例来指导输出格式(可以视为零射击),以及一个通用的大型工具集。N为样本数。†:任务外范例。下划线:表现最好的范例。Bold:表现最好的ALM。
ALMs 在策划任务上表现良好。 如表 2(SOTUQA)所示,ReWOO 和 ReAct 在外部工具的辅助下,明显优于直接提示(Direct Prompting)和链式思维(CoT)。ReWOO 的绝对准确率比 ReAct 高 8%,同时令牌消耗减少了 43%。我们相信,对文档 QA 如 SOTUQA 的评估比先前的公共 NLP 基准测试更接近现实世界的 ALM 应用。此外,我们在附录中展示了几个 ReWOO 轨迹,特点是现实世界的 ALM 应用,如餐厅推荐和 AI 绘画。
外部工具损害了 ALM 的性能。 从表 2 中的另一个发现是,在没有提供任何外部工具的直接提示和链式思维中,它们的表现优于两种 ALM 范式。这一观察引导我们进行了一项消融研究,探讨在 ALMs 中增加工具的影响。我们从 HotpotQA 的相同设置开始,逐渐向 ReWOO 和 ReAct 添加一个额外的工具。图 5 显示,尽管像 Google 这样的强大工具暂时提高了准确率,但当我们引入更多的工具时,总体趋势是下降的。从质量上讲,我们调查了 20 个问题,其中 2 工具的 ReWOO 成功,而 7 工具的 ReWOO 失败,观察到其中 17 个轨迹涉及工具误用,例如使用 Yelp[查询] 来搜索名人。这个实验表明,不必要的工具可能会通过引入无关内容而对 ALMs 造成伤害。
ReWOO 在工具故障时相对稳健。在 ALM 系统中,工具出现故障并返回错误是常见的。为了比较 ReWOO 和 ReAct 在这种情况下的稳健性,我们强制所有工具响应"未找到证据。"表 3 表明,当中间工具失败时,类似 ReAct 的 ALM 系统非常脆弱。另一方面,ReWOO 在工具故障时的表现受损较小,代价也较小。
表3:HotpotQA在(1)所有工具返回"No evidence found"(2)替换LLM时的性能变化。
**在 ALM 中对话对齐的 RLHF。**为了探索 RLHF 的效果,我们用 text-davinci-003 替换了在 HotpotQA 中使用的基于 gpt-3.5-turbo 的 LLMs。表 3 显示,text-davinci-003 在较少的步骤和令牌使用量上优于 gpt-3.5-turbo,这意味着对话 RLHF 稍微损害了 ALMs 的常识推理能力。
3.3 LLM的微调和专业化
遵循图 4 中的专业化框架,我们获得了 Alpaca 7B 和 Planner 7B,它们分别近似于 GPT3.5 的一般能力和可预见推理。两个语言模型都在零样本设置中与原始 GPT-3.5 的性能进行了比较。图 6 反映出,当这些方法被插入到规划器模块中时,在 HotpotQA、TriviaQA 和 StrategyQA 中与 25 倍大的 GPT-3.5 相匹配。此外,从 Alpaca 7B 到 Planner 7B 的一般准确率提升暗示了专业化的有效性。从质量上讲,虽然训练指令数据集只展示了 Wikipedia[query] 和 LLM[prompt],我们惊讶地观察到,如果与上下文描述配对,Planner 7B 比起 Alpaca,在使用 Google[query] 和 Calculator[prompt] 进行推理方面越来越能干。进一步的努力是推动专业化的极限,我们将这一目标留待未来的研究。最重要的是,我们的结果表明了 ReWOO 范式在将一般可预见推理卸载到蒸馏后的小型语言模型中的潜力,从而显著提高了系统的参数效率和可扩展性。
图4:将可预见的推理从GPT-3.5卸载到Alpaca 7B。一个小型LLaMa LM对GPT-3.5生成的自指示数据进行微调,产生了具有一般推理能力的羊驼。然后,Alpaca在GPT-3.5生成的蓝图上进一步微调,从而产生规划师7B,这是一个专门从事可预见推理的模型。
4 限制和未来的工作
我们注意到,对于某些关于环境的上下文很少的任务,完全依赖可预见的推理变得不切实际。考虑以下来自AlfWorld[27]的任务:
因为Planner对环境没有先验知识,所以他必须列举所有可能导致花瓶的计划。在这类任务中,Planner的推理步数相当于观察依赖推理的最坏情况复杂度。
上述示例暗示,一个健壮的增强型语言模型(ALM)系统不应该建立在单一实体上------将不同的LLMs节点、工具和子模型连接成一个有向无环图(DAG)看起来很有前景,这样每个节点都能为其预定任务有机地发挥作用。进一步改进这类ALM系统的效率和性能的四个方向包括:(1) 将专门能力从基础LLMs卸载到更小的模型中。第3.3节展示了小型语言模型在一般可预见推理中的专门化可能性[14]。我们预计,随着开放领域指令数量的增加,可预见推理可以更加全面地卸载。DAG中的其他参数化节点,如解决者,也可以类似地进行微调。(2) 工具表示学习。在HotpotQA的许多案例中,维基百科和谷歌都能导向正确答案,这表明这些工具之间存在一定程度的相似性。我们可以建立一个模型来最小化功能相似的工作者之间的能量。工具表示使我们能够参数化整个ALM系统,从而实现端到端的训练。(3) 图优化。此外,我们应该能够通过多种图和并发算法来优化DAG的执行。
5 相关工作
工具增强的LLMs。 在适当提示下,LLMs展现出使用证据和逻辑解决问题的推理能力,如常识推理、数学推理和符号推理[2]。一些工作通过注入多样化的工具到中间推理步骤中,使LLMs能够检索最新的世界知识并解决更复杂的任务。利用搜索API来避免幻觉并提供更全面的信息,以生成更值得信赖的文本[1; 10; 29]。高级机器人API被用来指导机器人完成物理世界的任务[9; 30; 31; 32]。计算器[23]、代码解释器[25]和数学证明器[33]分别用于修正计算错误、执行生成的代码和证明复杂的数学理论。还有一些工作使用多种工具来解决各种自然语言处理和计算机视觉任务,如Toolformer [15]和Visual ChatGPT [34]。此外,任务可以被分解,使用多步骤推理和行动可以更好地解决问题,如ReAct [1]、ART [35]、MM-ReAct [3]和TaskMatrix.AI [4]。我们的工作为大规模现实世界应用中的工具增强LLMs提出了一个新的视角:ReWOO在减少令牌开销的同时,实现了相当甚至更好的性能。
**高效的LLMs。**高效LLMs是一个持久的 research 主题,特别是随着ChatGPT的流行。已经提出了各种方法[26; 36; 37; 13; 38; 39; 40; 41; 42]来降低微调和部署LLMs的成本。一个流行的方向是减小模型规模,例如,使用指令调整[37; 13]来使一个小型且本地托管的LLM与大型黑盒LLM的协助保持一致。通过LoRA[26]、适配器[40; 41]、提示调整[39; 38]等,可以在调整期间进一步减少计算成本。然而,这些方法通常涉及修改模型结构和解锁模型参数,这阻碍了它们在黑盒LLMs上的应用。相比之下,虽然很少研究,但高效LLMs的提示工程是灵活且直接的。它不要求LLMs的内部信息,可以轻松应用于任何现成的黑盒语言模型,如OpenAI的ChatGPT和Google的PaLM。沿着这个方向,我们的工作是首次探索高效工具增强LLMs的提示。
6 结论
我们提出了ReWOO,一个模块化的ALM框架,通过将推理与工具反馈和观察分离,有效地解决多步骤推理任务。提示令牌的理论分解建立了ReWOO能够大大减少当前思想-行动-观察ALM系统中的提示冗余。在公共NLP基准测试和精心设计的任务上进行的综合实验显示,ReWOO在以更少的代币消耗实现更高性能方面表现出色。一项附带研究还表明,ReWOO在工具失效情况下具有相对稳健的性能。我们的研究进一步揭示了通过指令调优和专门化实现通用推理卸载的潜力。除了基于ReWOO的ALM系统之外,未来的改进还包括模块化的LLM微调、工具表示学习以及系统图学习和优化。我们证明了我们的工作为这些进步奠定了坚实的基础,使我们离真正可扩展的AGI更近了一步。