RIMRULE: Improving Tool-Using Language Agents via MDL-Guided Rule Learning
Authors: Xiang Gao, Yuguang Yao, Qi Zhang, Kaiwen Dong, Avinash Baidya, Ruocheng Guo, Hilaf Hasson, Kamalika Das
Deep-Dive Summary:
以下是该学术论文部分的中文总结:
--------------------|-------|-------|--------|
| | | Rand | Unseen |
| ToolHop | 392 | 70 | 51 |
| BFCL:Live-Multiple | 735 | 175 | 143 |
| BFCL:Multi-Turn-Base | 90 | 60 | 50 |
3 实验
3.1 数据集
我们在两个工具使用基准上评估了我们的方法:ToolHop (Ye et al., 2025) 和 BFCL (Yan et al., 2024)。ToolHop包含需要多步工具推理的组合式、多轮查询,而BFCL的live-multiple子集提供了一个互补的单步设置,具有更大、更多样化的工具集,使得工具选择更具挑战性。
对于这两个数据集,我们假设在训练期间可以访问真值执行轨迹,但没有提供真值规则。为了评估泛化能力,我们定义了两个分割:test-rand,一个随机的同分布分割;和test-unseen,一个包含训练期间未见工具的查询的保留分割。数据集统计信息总结在表1中。
3.2 基线
我们将RIMRULE与几种已建立的适应范式进行了比较:
- 少数样本上下文学习 (Few-shot in-context learning) 根据语义相似性检索前 (k) 个训练示例 (Liu et al., 2021)。
- 使用SEE (Cui et al., 2025) 的提示优化,通过共同演化指令和演示来执行全局提示优化。
- 微调,包括使用LoRA (Hu et al., 2022) 对开源模型进行监督微调 (SFT),以及针对函数调用进行调优的闭源模型。对于SFT,我们从真值执行轨迹构建训练数据,训练模型根据查询、可用工具和先前的工具调用结果生成正确的工具选择和参数。
此外,我们还进行了消融研究,以调查MDL引导的整合和基于符号的检索的效果。
所有方法,包括我们的方法,都使用ReAct风格的提示框架 (Yao et al., 2022) 进行工具使用推理,允许智能体交互式地生成中间步骤和工具调用。我们允许智能体根据工具反馈或错误消息进行重试,这是一种常见的鲁棒性机制,但它仍然难以处理系统性推理错误。我们的方法在此设置的基础上,通过注入明确的规则来防止此类失败。
我们对评估的模型使用简称:Llama3.25、Llama46、GPT-4o7 和 O18,其中 O1 是一个长推理模型。
我们强调,符号表示用于支持规则整合和检索,而不是用于直接符号执行。我们考虑的工具使用任务是基于嘈杂的自然语言查询和轨迹,其中纯粹的符号规则应用是脆弱的。因此,我们不与为干净、完全结构化数据设计的符号规则学习方法(例如FOIL (Quinlan, 1990)、CN2 (Clark and Niblett, 1989)、RIPPER (Cohen, 1995) 和决策列表学习器 (Furnkranz, 1997))进行比较;相反,符号形式作为稳定整合和检索的中间抽象,而规则以自然语言形式应用以指导LLM推理。
4 结果与讨论
4.1 学习过程
表2以Llama3.2为例说明了学习轨迹。其他模型也表现出类似的趋势。
从一个空的规则库开始,我们从零样本智能体收集失败轨迹并生成候选规则,在ToolHop上产生了72条规则,在BFCL上产生了151条规则9。这个初始规则集提高了test-rand和test-unseen分割的准确性。
应用MDL引导的整合进一步减少了规则数量(ToolHop上减少了7%,BFCL上减少了20%),同时提高了性能。
表4: ToolHop 和 BFCL 上基于提示的适应方法的比较。
| | \multicolumn{2}{|c|}{ToolHop} | \multicolumn{2}{|c|}{BFCL} |
|------------------|---------------|-----------------|--------------|---------------|
| | Test-rand | Test-unseen | Test-rand | Test-unseen |
| Zero-shot (Yao et al., 2022) | 26.5 ±1.3 | 35.1±1.6 | 50.1 ±0.9 | 45.0±1.0 |
| Few-shot (Liu et al., 2021) | 29.9 ±1.4 | 37.9 ±1.4 | 54.5 ±0.9 | 46.6 ±1.4 |
| SEE (Cui et al., 2025) | 27.6 ±1.5 | 35.9 ±1.5 | 52.2 ±1.0 | 45.5 ±1.0 |
| RIMRULE (Ours) | 31.1±1.3 | 43.1±1.6 | 56.6±1.2 | 48.5±1.4 |
在test-rand上,并在test-unseen上产生了较小但一致的收益。总的来说,这个过程产生了一个紧凑、可解释的规则库,改进了同分布和异分布泛化能力。
4.2 案例研究
表6展示了一个典型的失败案例,其中智能体直接查询复杂的家族关系,导致工具错误。RIMRULE将根本原因识别为不当的分解,并推导出一个规则,强制逐步解析中间实体。生成的规则是抽象且可重用的,其符号形式使其能够可靠地检索以用于类似查询。此示例说明了失败轨迹如何转换为紧凑规则,从而纠正超出原始实例的系统性推理错误。
4.3 跨LLM的重用性
人类可以共享启发式规则,因为它们在不同上下文中是可解释的。通过将适应编码为符号化、人类可读的规则,我们的方法使得知识能够在不重新训练的情况下跨LLM重用。
我们从Llama3.2和GPT-4o产生的失败轨迹中学习了两个规则库,并将它们应用于不同大小和推理强度的模型,评估了test-rand分割上的性能。表3显示了双向的一致增益:强到弱的迁移改进了较小的模型,而弱到强的迁移则使O1和Llama4等强推理模型受益。这些结果表明,符号规则捕获了仅凭规模无法解决的可迁移失败模式。
4.4 小数据集上的性能
我们在BFCL的multi_turn_base分割上,仅使用90个训练样本,在低资源设置中评估了RIMRULE。尽管监督有限,该方法仅学习了四条规则(附录A.2),但取得了显著的收益:test-rand上的准确率从 (55.2%) 提高到 (62.1%) ,test-unseen上的准确率从 (46.0%) 提高到 (60.0%) 。这些结果突出了基于规则的适应的样本效率和实际适用性。
表6: 案例研究,说明了失败驱动的规则归纳和符号表示。
| Query | How many letters (excluding the first and last) are there in the first name of Viacheslav I of Kiev's maternal grandfather? (基辅维亚切斯拉夫一世的祖母的名字(不包括首尾字母)中有多少个字母?) |
|---|---|
| Failure | The agent directly queries Viacheslav I of Kiev's maternal grandfather. The tool re-turns an error: "no data found". (智能体直接查询基辅维亚切斯拉夫一世的祖母。工具返回错误:"未找到数据"。) |
| Proposed Rule | If the user query involves identifying a specific familial relationship (e.g., maternal grandfather), then decompose the task by first resolving intermediate relationships (e.g., mother, father) sequentially. (如果用户查询涉及识别特定的家族关系(例如,祖母),则通过首先按顺序解决中间关系(例如,母亲、父亲)来分解任务。) |
| Symbolic Form | if domain=FAMILIAL RELATIONSHIP or tool_category=GENEALOGY_QUERY, then action=[DECOMPOSE_QUERY, RESOLVE_INTERMEDIATE_ENTITY, SEQUENCE_SUBTASKS] strength=MANDATORY (如果领域=家族关系 或 工具类别=系谱查询,则动作=[分解查询,解析中间实体,按顺序子任务] 强度=强制) |
表7: 检索策略比较的test-rand准确率((\pm) 标准差,单位为 (%))。
| Method | ToolHop | BFCL |
|---|---|---|
| Nat. Lang. based | 29.4±1.3 | 54.1±1.0 |
| Symbolic guided | 31.1±1.3 | 56.6±1.2 |
表8: 整合策略比较的test-rand准确率((\pm) 标准差,单位为 (%))。
| Method | ToolHop | BFCL |
|---|---|---|
| Prompt-based | 27.5±1.4 | 52.1±0.9 |
| MDL-guided | 31.1±1.3 | 56.6±1.2 |
4.5 优于基于提示的方法
我们将RIMRULE与基于提示的适应方法进行了比较,包括零样本提示 (Yao et al., 2022)、少数样本上下文学习 (Liu et al., 2021) 和使用SEE的提示优化 (Cui et al., 2025)。如表4所示,RIMRULE在ToolHop和BFCL数据集上,以及test-rand和test-unseen分割上,始终优于所有基于提示的基线,展示了比固定提示方法更强的泛化能力。
4.6 补充微调模型
如表5所示,将RIMRULE添加到微调模型中会带来一致的增益,尤其是在test-unseen分割上,这表明符号规则纠正了监督训练留下的残余系统性错误。当将RIMRULE应用于具有原生函数调用能力的模型时,我们也观察到类似的改进(表5),这表明基于规则的适应沿着正交的泛化轴运行。
4.7 消融研究
检索方法的影响。 表7显示,符号检索在两个数据集上始终优于基于原始自然语言相似性的检索。
整合方法的影响。 如表8所示,MDL引导的整合显著优于基于提示的规则合并。总的来说,这些结果表明符号检索和基于MDL的整合对于我们的方法至关重要。
5 相关工作
LLM的规则学习。 最近的工作研究了LLM通过提示进行规则学习,从演示 (Gao and Das, 2024)、图 (Chen et al., 2024) 或轨迹 (Zhang et al., 2024) 中提取规则以指导生成 (Zhou et al., 2024; Wang et al., 2024b)。其他方法在训练时使用规则进行合成监督 (Morishita et al., 2024)、奖励建模 (Wang and Xiong, 2025) 或蒸馏 (Sadeq et al., 2025),或将规则存储在内存中 (Wang et al., 2024c)。与这些大多静态或训练时使用不同,我们从失败中学习和整合规则以进行动态推理时重用。
工具检索和调用。 工具使用智能体通常依赖检索器-生成器管道或微调来选择和调用工具 (Qin et al., 2023; Patil et al., 2023),或通过自监督或智能体调优训练模型使用工具 (Schick et al., 2023; Chen and Others, 2024; Wu and Others, 2024)。最近的工作将工具标记化以实现生成式检索和调用 (Hao et al., 2023; Wang et al., 2024a)。这些方法虽然有效,但将适应编码在模型参数中。我们则将适应外化为紧凑的符号规则库,从而实现跨LLM的可解释、模块化重用,无需重新训练。
6 结论
我们提出了RIMRULE,一种通过从失败轨迹中提炼出紧凑、可解释的规则并在推理时应用它们来适应LLM的方法。在不修改模型权重的情况下,我们的方法使用符号表示和MDL引导的整合来生成可重用的规则库,这些规则库提高了同分布和异分布性能,优于基于提示的方法,并补充了微调模型。这些结果表明,推理时规则学习为实现更模块化、可解释和可重用的LLM适应提供了一条实用路径。
7 局限性
我们的方法假设在训练期间可以访问失败信号,例如执行轨迹或可靠的性能反馈,这可能并非在所有部署设置中都可用。规则整合是使用贪婪的MDL基过程执行的;虽然高效,但它不保证全局最优的规则集。最后,学习到的规则的有效性取决于观察到的失败的质量和多样性,在失败稀疏或高度特殊化的领域中,收益可能会较小。
Original Abstract: Large language models (LLMs) often struggle to use tools reliably in domain-specific settings, where APIs may be idiosyncratic, under-documented, or tailored to private workflows. This highlights the need for effective adaptation to task-specific tools. We propose RIMRULE, a neuro-symbolic approach for LLM adaptation based on dynamic rule injection. Compact, interpretable rules are distilled from failure traces and injected into the prompt during inference to improve task performance. These rules are proposed by the LLM itself and consolidated using a Minimum Description Length (MDL) objective that favors generality and conciseness. Each rule is stored in both natural language and a structured symbolic form, supporting efficient retrieval at inference time. Experiments on tool-use benchmarks show that this approach improves accuracy on both seen and unseen tools without modifying LLM weights. It outperforms prompting-based adaptation methods and complements finetuning. Moreover, rules learned from one LLM can be reused to improve others, including long reasoning LLMs, highlighting the portability of symbolic knowledge across architectures.
PDF Link: 2601.00086v1
部分平台可能图片显示异常,请以我的博客内容为准
