TORL：工具集成强化学习，让大语言模型学会用代码解题

摘要

近年来，大语言模型（LLMs）在推理能力上取得突破，但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL（Tool-Integrated Reinforcement Learning），一个可扩展的强化学习框架，使基础语言模型直接通过强化学习自主学会使用代码工具来辅助推理。

实验证明，TORL 显著优于当前主流方法，7B 模型在 AIME24 数据集上准确率达43.3%，超越无工具强化学习方法 14%，超过最强工具集成模型 17%。此外，TORL 模型表现出多种自发认知能力，包括策略性调用工具、自我修正代码错误、以及灵活切换计算与语言推理方式。

论文标题：TORL: Scaling Tool-Integrated RL
论文链接：arxiv.org/pdf/2503.23...
项目地址：github.com/GAIR-NLP/To...

1 引言

传统的自然语言推理方法（如 Chain-of-Thought）虽在多个任务中有效，但在遇到复杂计算、精度要求高的逻辑问题时，常常力不从心。近期研究提出"工具集成推理"（TIR），即让语言模型写出代码，通过调用解释器执行，结合自然语言与程序反馈形成更强的推理能力。

已有方法/模型如 ToRA、MathCoder、Qwen2.5-Math-Instruct-TIR 等都验证了 TIR 的有效性。但这些方法依赖强模型微调，限制了模型自由探索工具使用策略的能力。TORL则跳出这一限制，从"零"开始训练模型，通过强化学习自主探索并学习如何在推理中合理使用代码工具，最终涌现出显著性能与认知能力。

2 方法

2.1 数据集构建

训练数据来自三个高质量数学题库：NuminaMATH、MATH和DeepScaleR。数据清洗后，保留 75,149 道可验证问题。随后使用 LIMR 数据蒸馏技术提取高质量、难度分布均衡的 28,740 道题目用于训练。

2.2 工具集成推理（TIR）

TIR 通过让模型生成代码并执行，获得中间反馈，不断优化推理路径。推理轨迹定义如下：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> s k = ( r 1 , c 1 , o 1 , ... , r k , c k , o k ) (1) s_k = (r_1, c_1, o_1, \dots, r_k, c_k, o_k) \tag{1} </math>sk=(r1,c1,o1,...,rk,ck,ok)(1)

其中： <math xmlns="http://www.w3.org/1998/Math/MathML"> r i r_i </math>ri为自然语言推理， <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci表示生成代码， <math xmlns="http://www.w3.org/1998/Math/MathML"> o i = I ( c i ) o_i = I(c_i) </math>oi=I(ci)则代表代码执行器返回的执行结果。

推理过程迭代如下：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ( r k , c k ) = M ( Q ⊕ s k − 1 ) (2) (r_k, c_k) = M(Q \oplus s_{k-1}) \tag{2} </math>(rk,ck)=M(Q⊕sk−1)(2)
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> o k = I ( c k ) (3) o_k = I(c_k) \tag{3} </math>ok=I(ck)(3)
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> s k = s k − 1 ⊕ r k ⊕ c k ⊕ o k (4) s_k = s_{k-1} \oplus r_k \oplus c_k \oplus o_k \tag{4} </math>sk=sk−1⊕rk⊕ck⊕ok(4)

每一步都基于之前的执行结果更新，从而实现动态推理与自我修正（图2给出了TIR与COT的示例对比）。

2.3 TORL：工具集成强化学习

TORL 的核心创新是：

不依赖监督微调，直接从基础模型训练
训练中通过执行代码获得奖励反馈，引导模型掌握合理的工具调用策略

训练参数设计：

基础模型：Qwen2.5-Math（1.5B & 7B）
强化学习算法：GRPO
工具调用限制：最多调用工具 <math xmlns="http://www.w3.org/1998/Math/MathML"> C = 1 C = 1 </math>C=1
奖励策略：正确 +1，错误 -1，不可执行代码 -0.5（可选）

代码执行环境选用 Sandbox Fusion，以提高训练过程的稳定性和隔离性。

3 实验

3.1 实验结果

整体实验结果如下表所示：

对于1.5B模型，相比于TIR微调模型，在五个数据集上平均提升7.2；对于7B模型则平均提升14.7。并且，TORL 在高难度基准任务（AIME24/25、OlympiadBench）中尤为突出。

3.2 实验分析

代码行为演化（图5）：模型随着训练更频繁生成有效代码，自动减少无效尝试。代码使用比例从 40% 增至 80%，可执行代码比例持续上升，有效代码占比逐步提升（即在给出答案前生成并成功执行）；
参数影响分析（图6）：提高工具调用次数有效，但引入惩罚可能适得其反。增加工具调用上限 <math xmlns="http://www.w3.org/1998/Math/MathML"> C = 2 C = 2 </math>C=2 可提升准确率约+2%，但训练速度下降明显，需要效率与性能之间的权衡，引入代码可执行性惩罚并未带来性能提升，反而可能抑制复杂代码的生成；
认知行为的涌现：TORL 促进模型"思考"行为的自然涌现，具备跨模态自我验证与修正能力。模型能基于错误信息（如 TypeError）自我修正代码并推理正确答案，并能通过语言与代码双通路反思，校验答案一致性后进行纠错。

4 总结

TORL 是一套创新的强化学习训练框架，使大语言模型能自主学会调用工具（如写代码）来辅助复杂推理任务。其核心优势包括：

无需监督微调，强化学习从基础模型直接起步
可执行代码反馈助力模型策略进化
认知能力涌现，体现出反思、自我修正、交叉验证等智能行为

TORL 的出现，为"工具增强大模型"的发展提供了新范式，尤其在精密科学计算、数学推理等任务中具有广泛应用潜力。