【RL】LLM-in-Sandbox Elicits General Agentic Intelligence

好的，这是对您提供的文件的完整简体中文翻译。

文件 1 的翻译内容

LLM-in-Sandbox：在沙盒中激发通用智能体智能

Daixuan Chengαβ Shaohan Huangβ Yuxian Guγ Huatong Songα Guoxin Chenα

Li Dongβ Wayne Xin Zhaoα† Ji-Rong Wenα Furu Weiβ†

α中国人民大学高瓴人工智能学院 β微软研究院 γ清华大学

https://llm-in-sandbox.github.io

摘要

我们引入了LLM-in-Sandbox（沙盒中的大型语言模型）框架，使大型语言模型（LLM）能够在代码沙盒（即虚拟计算机）内进行探索，以激发其在非代码领域的通用智能。我们首先证明，强大的LLM无需额外训练，就表现出利用代码沙盒处理非代码任务的泛化能力。例如，LLM会自发地访问外部资源以获取新知识，利用文件系统处理长上下文，并执行脚本以满足格式要求。我们进一步表明，通过LLM-in-Sandbox强化学习（LLM-in-Sandbox-RL）可以增强这些智能体能力，该方法仅使用非智能体数据来训练模型进行沙盒探索。实验证明，LLM-in-Sandbox在免训练和训练后两种设置下，均在数学、物理、化学、生物医学、长上下文理解和指令遵循等领域实现了强大的泛化能力。最后，我们从计算和系统角度分析了LLM-in-Sandbox的效率，并将其作为Python包开源，以促进其在现实世界中的部署。

(图1)
LLM-in-Sandbox的性能增益
领域

物理数学生物医学长上下文化学指令遵循

(具体数值见原文图表)

图1：LLM-in-Sandbox概览。 我们让LLM在代码沙盒（即虚拟计算机）内探索，从而在不同LLM和多个领域中解锁了显著的性能提升。绿色数值表示相较于原生LLM的改进。所有LLM均在无额外训练的情况下进行评估。

电子邮件：daixuancheng6@gmail.com †通讯作者。

1 引言

大型语言模型（LLM）的能力通过不同的范式被逐步解锁。上下文学习（In-context learning）表明，模型无需特定任务的微调即可泛化到新任务（Brown et al., 2020）。接着，思维链（Chain-of-thought）提示通过引导模型将问题分解为多个步骤，激发了其推理能力（Wei et al., 2022）。最近，智能体框架（Agentic frameworks）使模型能够跨多轮交互使用多样的工具（Anthropic, 2025b）。沿着这条轨迹，我们如何才能进一步释放它们的能力？

在这项工作中，我们提出LLM-in-Sandbox ------让LLM在代码沙盒内探索------作为这条发展轨迹上一个有前景的下一步。如图1所示，沙盒本质上是一台具有终端功能的虚拟计算机，被Claude Code等代码智能体广泛使用（Anthropic, 2025a）。虽然它通常用于软件工程（Jimenez et al., 2023），但我们认为其潜力远不止于编码。计算机或许是有史以来创造出的功能最全面的平台，几乎任何任务都可以通过它完成。这种通用性源于三个元能力：外部资源访问 （如互联网）、文件管理 和代码执行。我们假设，将LLM与虚拟计算机结合，可能会解锁其通用智能的潜力。

为验证这一潜力，我们在具有挑战性的非代码任务上评估了LLM-in-Sandbox。给定一个任务输入，LLM在具有基本计算机功能的沙盒内进行多轮探索，直至任务完成。值得注意的是，无需任何额外训练，LLM就能自发地利用代码沙盒处理非代码任务，例如安装特定领域的工具以获得新能力，利用文件存储处理超出上下文长度限制的文档，以及执行脚本以满足格式要求。因此，最先进的智能体LLM在数学、物理、化学、生物医学、长上下文理解和指令遵循等领域取得了显著的性能提升。

为了进一步推进这一范式，我们提出了LLM-in-Sandbox强化学习（LLM-in-Sandbox-RL） 。虽然强大的智能体模型直接从LLM-in-Sandbox中受益，但较弱的模型常常表现不佳：在LLM-in-Sandbox模式下的表现甚至比在原生LLM模式下（即不使用沙盒直接生成输出）更差。LLM-in-Sandbox-RL仅使用通用的非智能体数据来弥补这一差距。具体来说，我们使用通用的基于上下文的任务（Cheng et al., 2024），其中上下文作为文本文件预先放置在沙盒中，而不是直接放在模型提示中，这要求模型去探索和与环境互动。仅凭基于结果的奖励（Guo et al., 2025），LLM-in-Sandbox-RL就使较弱的模型在LLM-in-Sandbox模式下表现出色，显著超越其原生LLM模式，同时也增强了已经具备强大智能体能力的模型。关键的是，这种训练激发了强大的泛化能力：在各种领域外任务上带来了一致的改进，甚至增强了原生LLM模式。这表明LLM-in-Sandbox-RL可以成为一种通用的方法，用于激发不同模型和领域的智能体和非智能体智能。

除了性能，我们还分析了在真实世界系统中部署LLM-in-Sandbox的实际考虑因素，涵盖了计算成本、速度和沙盒基础设施。我们发现，在长上下文场景中，LLM-in-Sandbox将令牌消耗量大幅减少了高达8倍（从10万减少到1.3万令牌），平均实现了具有竞争力的查询级吞吐量，并且沙盒基础设施开销极小。最后，我们将LLM-in-Sandbox作为Python包开源，它能与流行的推理后端（如vLLM (Kwon et al., 2023) 和 SGLang (Zheng et al., 2024)）以及基于API的LLM无缝集成，以加速向通用智能体智能的过渡。

我们的贡献总结如下：

我们引入LLM-in-Sandbox，证明了强大的智能体LLM无需额外训练，就表现出利用代码沙盒处理不同领域非代码任务的泛化能力（第2节）。
我们提出LLM-in-Sandbox强化学习，该方法仅使用通用的非智能体数据训练LLM探索沙盒环境，从而增强了智能体和非智能体智能在不同领域的泛化能力（第3节）。
我们从计算和系统角度分析了LLM-in-Sandbox的效率，并将其作为Python包开源以供真实世界部署（第4节）。

2 LLM-in-Sandbox 激发通用智能

LLM-in-Sandbox的核心思想是赋予LLM访问一台计算机的权限，让它们可以自由操作以完成用户指定的任务。具体而言，计算机拥有三个构成通用任务解决基础的元能力：

外部资源访问：从外部服务（如互联网）获取资源；
文件管理：持久地读取、写入和组织数据；
代码执行：编写和执行任意程序。

正如人类利用计算机完成几乎任何任务一样，我们假设将LLM强大的推理和智能体能力与代码沙盒相结合，可能会释放它们的通用智能潜力。

为了探索这一范式的全部潜力，我们设计LLM-in-Sandbox时强调两个原则：最小化 ，提供一个具备这三个基本能力的简单代码沙盒；和探索性，鼓励模型发现多样的解决方案策略。接下来，我们将描述我们的沙盒环境（第2.1节）、LLM-in-Sandbox工作流程（第2.2节），以及在通用领域的实验（第2.3节）和分析（第2.4节）。

2.1 代码沙盒

代码沙盒是一个虚拟化的计算环境，通常是基于Ubuntu并通过Docker容器实现的系统，为LLM提供终端访问和完整的系统能力。在这个环境中，LLM可以执行任意bash命令、创建和修改文件，以及访问网络资源。容器化的特性确保了与宿主系统的隔离，从而能够安全地执行模型生成的代码。

表1：SWE智能体与LLM-in-Sandbox的沙盒设计比较

	SWE 智能体	LLM-in-Sandbox
环境设置	任务特定	通用
依赖项	预先配置	运行时安装
存储扩展	每个任务一个镜像	单一共享镜像

轻量级通用设计。 代码沙盒最近已成为像Claude Code（Anthropic, 2025a）这样的代码智能体的关键基础设施。然而，现有的基于沙盒的系统，特别是那些用于软件工程任务的系统（Jain et al., 2025; Wang et al., 2024; Yang et al., 2024），需要复杂、任务特定的环境。相反，我们提供了一个轻量级、通用的环境，仅配备了标准的Python解释器和必要的科学计算库（如NumPy、SciPy），并将特定领域的工具获取任务交由模型自行完成。在执行过程中，模型可以安装或创建任何它们认为必要的工具。表1总结了关键区别。

这种设计有两个优点：（1）泛化性 ：相同的环境支持多样化的任务，无需手动重新配置。（2）可扩展性：统一的设置使得大规模推理和训练变得高效，没有每个任务的开销。例如，当扩展到数千个任务时，SWE智能体可能需要高达6TB的存储空间来存放任务特定的镜像（Pan et al., 2024），而我们的共享镜像方法仅保持约1.1GB的恒定占用空间。

具备元能力的最小工具集。 在代码沙盒内，我们为模型配备了三个基本工具，它们共同实现了计算机的核心能力：（1）execute_bash 用于执行任意终端命令，（2）str_replace_editor 用于文件创建、查看和编辑，以及（3）submit 用于表示任务完成。具体来说，execute_bash 是一个强大的元工具，它使模型能够安装软件包、运行程序，甚至按需以编程方式创建新工具，从而引导出所提供工具集之外的任何附加功能。详细规格见附录A。

2.2 LLM-in-Sandbox 工作流程

我们的工作流程建立在ReAct框架（Yao et al., 2022）之上，模型根据环境反馈进行迭代式的推理和行动。如算法1所示（紫色高亮部分表示沙盒特定组件），在每一轮中，模型生成一个工具调用，从沙盒接收执行结果，并决定下一步行动。这种多轮交互持续进行，直到模型调用submit或达到最大轮次限制。为了适应通用任务中的多样化场景，我们的工作流程鼓励自由探索并支持灵活的输入/输出处理。

算法1 LLM-in-Sandbox工作流程
需要： 任务提示 p，任务要求 r (可选)，沙盒 S，最大轮次 T
确保： 最终输出 o

1: 根据任务要求 r 配置沙盒 S (如果有)

2: t ← 0

3: 工具: {execute_bash, str_replace_editor, submit}

4: while t < T do

5: 模型根据提示 p 和历史记录生成工具调用 at

6: if at 是 submit then

7: break

8: end if

9: 在 S 中执行 at，获得观察结果 obst

10: 将 (at, obst) 追加到交互历史中

11: t ← t + 1

12: end while

13: 从沙盒 S 中提取输出 o (例如，/testbed/answer.txt)

14: return o

为探索而设计的提示。 我们设计了一个系统提示，引导模型充分利用沙盒。首先，它鼓励模型利用计算工具，而不是通过自然语言进行计算。其次，它强调通过程序执行得出答案，而不是直接硬编码结果。第三，它告知模型沙盒是一个安全的、隔离的环境，它们可以自由探索多种方法来完成任务。完整的系统提示见附录F。

任务输入/输出处理。 我们利用沙盒的文件系统灵活处理多样的输入/输出格式。对于输入，内容不仅可以通过模型提示提供，还可以通过文件提供。例如，对于需要阅读文档的长上下文理解任务，我们可以将文档视为任务要求，并将其放置在 /testbed/documents/ 中。对于输出，模型被指示将最终结果放置在指定位置（例如 /testbed/answer.txt），只包含最终结果，不含中间内容。任务完成后，从该位置提取结果作为最终输出。这种方法清晰地将探索过程与最终输出分开，并自然地适应各种数据格式。

2.3 在通用领域的实验

我们进行实验以研究沙盒访问是否能提升LLM在通用任务上的性能。下面我们介绍实验设置和结果。

设置我们在多种模型和领域中，将LLM-in-Sandbox与原生LLM生成（即不使用沙盒直接生成输出）进行比较。评估的LLM涵盖了前沿的专有模型、开源权重模型、代码专用模型以及较小的通用模型：Claude-Sonnet-4.5-Thinking (Anthropic, 2025b), GPT-5 (Singh et al., 2025), DeepSeek-V3.2-Thinking (Liu et al., 2025), MiniMax-M2 (MiniMax, 2025), Kimi-K2-Thinking (Team et al., 2025), Qwen3-Coder-30B-A3B-Instruct (Yang et al., 2025a), 和 Qwen3-4B-Instruct-2507 (Yang et al., 2025a)。

我们在六个非代码领域进行了具有挑战性的任务测试：数学、物理、化学、生物医学、长上下文理解和指令遵循。对于长上下文任务，我们将输入文档存储在沙盒环境中，而不是包含在提示中，以测试模型利用沙盒的能力。由于模型在沙盒中可以访问互联网，我们重新设计了测试问题以防止基准测试作弊，并手动验证了抽样的轨迹以确保推理的有效性。详细的沙盒实现、模型配置和评估协议见附录A-C。

结果如表2所示，强大的智能体模型持续从LLM-in-Sandbox中受益，在所有评估领域都观察到改进：从计算密集型任务（数学）到知识密集型任务（化学、生物医学）再到通用能力（指令遵循、长上下文）。最大的增益达到了+15.5%（Qwen3-Coder在数学上）。然而，像Qwen3-4B-Instruct这样的较弱模型未能受益，甚至表现更差。我们将在以下部分分析原因。

表2：模型在不同领域下LLM和LLM-in-Sandbox生成模式的任务性能。 LLM 表示 LLM-in-Sandbox 模式。∆ = LLM-in-Sandbox − LLM 表示 LLM-in-Sandbox 相对于 LLM 的性能差异。

（表格数据请参照原文）

2.4 沙盒使用情况分析

为了理解模型如何利用沙盒环境，我们进行了案例研究和定量分析。具体来说，我们关注沙盒的三个核心能力：外部资源访问 、文件管理 和代码执行 。代码执行可以用于多种目的；这里我们特别追踪面向计算的操作。我们通过对模型行为的模式匹配来识别这些行为：（1）外部资源 ：网络请求（如 curl, requests.get）和包安装（如 pip install）；（2）文件管理 ：文件I/O操作（如 open(), json.load）和shell命令（如 cat, grep）；（3）计算：数值求解器、迭代算法和模拟循环。详细的分类模式见附录D。

2.4.1 案例研究

我们进行案例研究，以说明强大的智能体模型如何利用沙盒的核心能力来解决非代码任务，这里的"强大模型"指的是在表2中LLM-in-Sandbox模式下表现优于LLM模式的模型。下面，我们展示了代表性的轨迹片段，灰色文本是我们的注释。

外部资源访问。 在化学任务中，模型被要求仅根据化合物名称预测分子性质。为解决此问题，模型通过apt-get自主安装了Java运行时，并下载了OPSIN库，将化学名称转换为分子结构，从而获得了基础环境中不可用的领域特定工具。

化学轨迹（外部资源访问）