GAIA2: BENCHMARKING LLM AGENTS ON DYNAMIC AND ASYNCHRONOUS ENVIRONMENTS

摘要

我们介绍了Gaia2，这是一项用于在真实的、异步环境中评估大型语言模型代理的基准测试。与之前的静态或同步评估不同，Gaia2引入了环境独立于代理行为演变的场景，要求代理在时间约束下运行，适应噪声和动态事件，解决模糊问题，并与其他代理协作 。每个场景都配备了写入操作验证器，实现了细粒度的操作级评估，使Gaia2能够直接用于基于可验证奖励的强化学习 。我们对最先进的专有和开源模型的评估表明，没有任何模型在能力上占优：GPT-5（高）以42%的pass@1得分达到总体最强，但在时间敏感任务上表现不佳；Claude-4 Sonnet为了成本牺牲了精度和速度；而Kimi-K2以21%的pass@1得分在开源模型中领先。**这些结果突显了推理、效率和鲁棒性之间的基本权衡，并揭示了缩小"sim2real"差距的挑战。**Gaia2基于一个消费者环境，使用开源的代理研究环境（ARE）平台构建，并设计为易于扩展。通过将Gaia2与基础ARE框架一同发布，我们旨在为社区提供一个灵活的基础设施，用于开发、评估和训练下一代实用的代理系统。

图1：Gaia2预算缩放曲线：对于每个最大预算，我们绘制P{情景结果=True且情景成本<最大预算}。配备一个简单的类ReAct框架（参见第3节），这里评估的模型在整个智能范围内均无主导地位------每个模型在能力、效率和预算之间进行权衡。在相同成本下，一些模型表现更好，但所有曲线都趋于平稳，表明标准框架和/或模型缺乏可持续进展的关键要素。成本估算基于人工分析模型定价数据（访问日期：2025年9月10日）。

1 引言

从可验证奖励中强化学习（RLVR）已成为在诸如推理、编码和工具使用等领域以规模化方式提升大型语言模型（LLM）代理的一个有前景的路径，提供了一种比基于偏好的方法更可靠的替代方案（OpenAI, 2024b; DeepSeek-AI et al., 2025; Mistral-AI et al., 2025; MoonshotAI et al., 2025）。与此同时，现代代理的使用场景日益涉及与动态环境的长时间交互，其中时间、不确定性和协作发挥着核心作用。这促使了LLM代理基准的创建（Mialon et al., 2023; Jimenez et al., 2024; Yao et al., 2024; Backlund & Petersson, 2025），但大多数此类基准仍然是静态或同步的：环境仅在代理采取行动时改变，而评估通常忽略中间步骤或动作。因此，代理在实际部署中面临的许多挑战------如处理异步事件、在时间限制下操作或适应噪声和不确定性------尚未得到测试。

我们介绍了Gaia2，一项基准设计，旨在通过评估代理在具有可验证任务的异步环境中的表现来解决这些局限性，这些任务与GAIA（Mialon et al., 2023）一样，对人类来说很简单，但对当今的AI模型却具有挑战性。Gaia2场景是基于实际部署的使用案例而构建的：它将信息寻找从仅限网络扩展到环境，Gaia2-Time反映了计划任务产品（例如，日历和提醒）的需求，而Gaia2-Agent2Agent则借鉴了最近提出的Agent2Agent协议以实现多代理系统的互操作性（Google Developers, 2025）。Gaia2包括1120个人类注释的场景，设置在类似智能手机的环境中，配有现实的应用程序（电子邮件、消息、日历、联系人等），类似于AppWorld和ToolSandbox（Trivedi et al., 2024; Lu et al., 2024）。每个场景需要超越搜索和执行的能力，包括适应新事件、应对噪声的鲁棒性、消解模糊性、时间意识以及与其他代理协作。为了实现可重复和细粒度的评估，Gaia2引入了一个写入动作验证器，用于根据oracle注解检查每个状态变更的动作，使基准直接适用于RLVR。基于Agents Research Environments（ARE）平台构建的Gaia2提供了创建异步环境的抽象，并支持基准的持续扩展。ARE的平台核心概念如图2所示，不仅适用于Gaia2，还可推广定义其他基准实践实践中，这一设计揭示了新的失败模式：虽然先进模型在整体成功率上达到约42%，但没有系统在所有能力上占优，强推理能力通常需要在速度、鲁棒性或成本上进行权衡。

贡献

本文提出了三个主要贡献以推进LLM代理的评估并规划下一代实际系统的开放方向：

• ARE框架：我们发布了Agents Research Environments，一个通用平台，用于构建支持扩展评估和RL数据生成的异步事件驱动基准。

• Gaia2基准：我们引入Gaia2，这是首个结合异步执行、时间推理、噪声鲁棒性、模糊性消解和多代理协作，可直接用于RLVR的可验证评估框架统一基准。

• 实证研究：我们在Gaia2基准上评估了主要的专有和开源模型，揭示了推理能力、效率、鲁棒性和成本之间的基本权衡。

图 2：ARE 环境是基于事件、以时间驱动的模拟，与代理和用户异步运行。ARE 环境允许运行包含代理任务和验证逻辑的场景。无论是由代理还是用户发起，交互都通过相同的接口进行，可以是工具调用，或是工具输出/通知观察。广泛的模拟控制和日志记录功能允许对代理行为进行精确研究。

2 相关工作

LLM代理评估

已经提出了各种基准来衡量代理能力。强调具象执行的体现式和基于网络的环境包括ALFWorld（Shridhar et al., 2021）、WebShop（Yao et al., 2023a）、WebArena（Zhou et al., 2024）和WorkArena（Drouin et al., 2024）。像AppWorld（Trivedi et al., 2024）和ToolSandbox（Lu et al., 2025）这样的合成环境则引入旨在状态验证或基于里程碑评估的类应用任务，而BFCL（Patil et al., 2025）则专注于大规模功能调用。其他研究还结合了时间动态和多代理交互，包括VendingBench（Backlund & Petersson, 2025）、τ-Bench和τ2-Bench（Yao et al., 2024; Barres et al., 2025）、MultiAgentBench（Zhu et al., 2025）以及基于MCP的基准（Wang et al., 2025; Team, 2025; Gao et al., 2025; Anthropic, 2024）。最后，静态设置如GAIA（Mialon et al., 2023）、SWE-bench（Jimenez.等人，2024），以及BrowseComp（Wei等人，2025）仅评估最终结果。虽然这些基准各自捕捉了代理推理、工具使用或协作的宝贵方面，但它们仍然是同步且以代理为驱动的：环境只有在代理采取行动时才会发生变化，并且评估通常忽略中间步骤或行动。Gaia2 的不同之处在于引入了异步、事件驱动的环境，强调时间约束、鲁棒性、模糊解决以及多代理协调，并以统一且可验证的评估为特征。

代理基准中的验证

各基准的验证策略有所不同。GAIA（Mialon等人，2023）通过完全匹配在最终输出级别评估正确性。这适用于搜索类任务，但在格式和内容上缺乏灵活性，尤其是在基于网络的动态领域中。ToolSandbox（Lu等人，2025）引入了里程碑和雷区，约束了代理的路径，从而能够对结果和中间行为进行早期检查。在超出严格可验证领域的情况下，Rubrics as Rewards 框架（Gunjal等人，2025；Starace等人，2025；Lin等人，2025）展示了如何将清单式的评分标准作为主观任务的可解释奖励信号，突出了基于评分标准的评估的更广泛潜力。Gaia2 通过 ARE Verifier 扩展了这一点，该验证器根据权威标注评估每一次引起状态变化的写入操作。它结合了严格参数检查、基于评分标准的灵活案例判断，以及因果和时间约束。重要的是，该验证器是一个独立的贡献：一种细粒度、可重现的奖励分配通用机制，可超越 Gaia2 的范围重复使用。尽管现有模型表现较弱，我们预计未来使用 RLVR 训练的系统将逐步缩小差距，并最终解决 Gaia2。

图 3：Gaia2 中 Llama 4 Maverick 的 12 个移动应用的应用使用分布。

3 ARE: SCALING UP AGENT ENVIRONMENTS AND EVALUATIONS

ARE 是一个研究平台，用于创建模拟环境、在其中运行代理并分析其行为。ARE 环境不断演化，并与代理解耦。在模拟中，随着环境引入事件，时间向前推进。代理异步运行，并通过专用接口与用户和环境交互。

核心概念

ARE 的基础引入了一组抽象概念，如图 2 所示，使得设计丰富、动态的环境成为可能。更具体地说：

(i) 应用程序是带有相关内容的有状态 API，类似于消息或电子邮件等应用程序，每个应用程序都提供可以标记为只读或可写的工具，从而实现精细的控制和验证；

(ii) 应用程序集合与时间管理器和管理规则一起构成一个环境，该环境可以容纳一个或多个代理；

(iii) 在这些环境中，事件代表所有发生的事情，从工具调用和状态变化到计划的更新，这些事件会被完整记录，并安排在绝对时间戳或相对时间戳下，组织成依赖关系图；

(iv) 为呈现相关动态，通知提供了可配置的可观测性层：一项策略选择将哪些事件推送到代理的上下文中，从而能够在不同可观测性条件下研究主动和被动行为；(v) 场景通过指定初始状态和事件的DAG（包括用户请求、中间事件和验证方法），将静态任务扩展为动态轨迹。验证可以在运行结束时离线进行，也可以通过计划的验证事件在线进行，并专注于写操作以避免过度约束探索策略。为了证明这些抽象的通用性，我们验证了ARE可以忠实地重新实现现有的代理基准测试，例如τ-bench、τ2-bench、GAIA和BFCL-v3、VendingBench（Yao等人，2024；Barres等人，2025；Mialon等人，2023；Patil等人，2025；Backlund & Petersson，2025），确认该平台既包含了当前基准测试，也为新一代代理评估提供了基础。关于ARE概念的更多详细信息，请参阅附录A.1。

异步性与时间

由于环境运行是异步的，模型生成直接消耗模拟时间：如果代理响应时间较长，环境时钟仍然推进，并且在其推理过程中可能发生外部事件。这种设计解锁了对时间意识和响应能力的评估，而在同步设置中无法捕获。

移动环境

为展示ARE抽象的多样性，我们发布了作为消费者移动环境实例的Mobile。它包括十二款应用程序（消息、聊天、电子邮件、日历、联系人、购物、打车、文件等）和101种相关工具，与AppWorld（Trivedi等人，2024）和ToolSandbox（Lu等人，2024）具有相似精神。每个"宇宙"代表该环境的完整实例------围绕特定用户的所有应用程序的完整状态。这些应用程序以合成但连贯的数据填充，数据由从PersonaHub（Ge等人，2024）采样的人物角色种子生成，并通过依赖图在应用间传播以确保跨应用一致性（例如，联系人在消息和电子邮件之间对齐，事件与日历可用性匹配）。每个宇宙包含约40万至80万个结构化和非结构化内容标记（不包括文件系统内容），适合于长上下文和长时间任务。Mobile由明确规则管理：每轮以用户消息或通知事件开始，以代理回复用户结束。在一个回合中，模拟时间连续推进，场景在任务完成、时间或步数超过限制，或验证失败时终止。虽然Mobile聚焦消费者领域以利用统一的应用程序概念，其底层ARE平台是环境无关的。API定义在各领域保持不变，例如，在移动端或桌面端场景中，聊天工具的接口是相同的。因此，这里提出的架构可以自然扩展到其他领域，如桌面自动化、客户支持和网页浏览，在新建环境时只需定义相关工具接口即可。

代理编排

在ARE中运行代理需要与其抽象相兼容的编排。为了实现公平评估，我们使用基于ReAct循环（Yao等人，2023b）的模型无关脚手架，其中代理在结构化JSON中每步输出一个工具调用。该编排通过步骤前和步骤后钩子进行了增强：在每次LLM调用之前，注入环境队列中的通知到代理的上下文中；在工具调用之后，检查代理终止条件。此最小扩展保留了ReAct的简单性，同时使其与异步和多轮环境相兼容。替代编排可以轻松插入。为了确保这种顺序式脚手架不会人为导致性能瓶颈，我们在附录B.3.2中将其与并行工具调用（PTC）编排进行了比较。结果表明PTC可以提高效率（壁钟时间和标记使用），但对性能没有提升（见表6），确认观察到的限制是模型能力本身的内在问题，而非脚手架。

GAIA2：扩展通用代理评估

基于ARE的抽象，我们引入了Gaia2，该评估包含800个由人类精心注释的可验证独特场景，分布在移动环境中的10个不同宇宙中，并配备了101种工具。这些场景被组织成不同的分组，每组针对以下定义的一种代理能力。为了支持快速且具有成本效益的评估，我们还整理了一个包含160个场景的子集，称为Gaia2-mini。该基准包括两个从Gaia2-mini中衍生的增强设置，为原有的800个场景增加了320个，最终总计1,120个场景。

4.1 能力评估

Gaia2 在 1,120 个场景中对智能体进行评估。为提供一个清晰的分类法，我们将能力区分为核心能力（执行、搜索、模糊性、适应性、时间）和增强项（噪声、A2A）。五个核心分类包括 800 个独特的人工创作场景，每个场景都通过独特的事件DAG和初始环境状态来实例化。我们将这些核心类别视为主导的"风格"，而不是严格正交的维度。在实际应用中，任何自然任务本质上都是组合性的（例如，一个时间任务通常需要搜索和执行）。因此，我们明确决定不设立单独的"组合性"分类；因为在早期实验中通过人为组合三种或三种以上不同能力的场景，结果为不自然的任务且缺乏清晰的评估信号。相反，我们依赖核心分类中存在的自然组合性以确保任务保持现实，同时允许明确的失败模式归属。

环境增强项

噪声和Agent-to-Agent（A2A）分类是应用于基础场景的环境层级修改，用于压力测试智能体的鲁棒性和协作能力。由于我们的验证工具检查的是状态变化而非具体的工具轨迹，因此这些增强项无需新的标注。在噪声分类中，我们注入了可控的扰动，包括工具异常（例如随机执行失败、签名变化）以及无关的环境事件（例如收到的垃圾邮件）。在A2A分类中，应用程序被替换为"应用智能体"。主智能体失去了直接访问这些应用工具的能力，必须通过消息与这些应用智能体协调来完成任务。应用智能体并非完全自主：它们在需要时被调用以执行具体的子任务并返回报告。该设置明确评估了主智能体在部分可见性下分解目标和协调能力。在我们的评估环境中，主智能体与应用智能体使用的是相同的基础模型。

4.2 场景设计及标注协议

我们使用 ARE 标注界面构建 Gaia2 场景（详细信息见附录A.4），该界面允许标注员探索生成的Mobile宇宙。标注员的任务是创建动作写入的DAG和环境事件作为参考真值。从生成的环境出发，标注员设计场景以隔离和强化单一能力（例如适应性、时间），确保模型优缺点的清晰信号。

每个场景由独立标注员进行多轮验证，并进行一致性检查。我们通过自动化的防护措施（例如事件图上的结构约束）和利用基线智能体进行事后难度校准来补充该过程。这种组合方式生成了多样化、具有挑战性且可验证的场景，同时减少了标注错误。我们在附录B.1中提供了有关标注过程和指南的更多详细信息。

表 1：ARE 验证器和上下文验证器在 450 条人工标注的验证轨迹上的表现

4.3 验证器

ARE 验证器根据一个最小的oracle序列评估代理的轨迹。与最终答案裁决者不同，它是目标导向的，而非路径最优。我们区分读操作和写操作：代理可以执行无限制的读操作（例如浏览）探索，不受惩罚，因为只有写操作会修改环境并计入目标。验证器对独立目标的顺序是无关的。

评估涉及四个维度：(i) 一致性------工具的名称和数量必须匹配；对刚性字段（如ID）使用精确匹配，对灵活字段（如文本）使用LLM评价标准，并进行防黑客检查；(ii) 因果性------操作必须遵守依赖DAG（父节点在子节点之前）；(iii) 时序------通过容差窗口强制执行；以及 (iv) 完整性------成功需要匹配所有oracle的写操作。在450个标注的轨迹上（表1），验证器实现了0.98的一致性和0.99的精确度，优于仅使用LLM的基线方法。除了Gaia2之外，它还可以用作任何基于ARE环境中忠实基准测试和RLVR训练的可重复使用组件。详情见附录B.2。

5 实验

在核心实验中，我们对每个Gaia2能力划分进行了最先进模型的评估（MoonshotAI等，2025；Gemini Team，2025；Yang等，2025；Llama Team，2024；OpenAI，2024a）。我们还测试了模型对Time和Agent2Agent各种评估配置的敏感性。

实验设置

我们在所有评估中使用相同的ReAct风格基线框架（第3节），以确保模型和提供商之间的比较一致性。所有LLM均在全上下文长度（≥128K tokens）、温度0.5以及每轮16K tokens生成上限的条件下进行评估。每个场景运行三次以计入潜在的方差，当满足以下条件之一时终止：(i) 200步；(ii) 上下文溢出，即代理超出上下文窗口（失败）；(iii) 验证完成，即验证器确定轨迹结果------要么在某一轮失败，要么每轮都成功通过验证；或 (iv) 超时。环境通过系统提示提供工具和通知，通知详细程度默认设置为中等：代理会针对高优先级事件收到系统性警报，同时过滤掉低优先级的背景通知。

我们通过模拟生成时间来处理部署问题，如中断和速率限制------在响应期间暂停，并以匹配的时间偏移恢复------以保留真实时序，同时实现稳健的评估。ARE 验证器使用Llama-3.3-70B-Instruct，温度为0。有关实验程序的更多细节，请参见附录B.4。

表 2：每种模型和能力划分在Gaia2场景中的Pass@1得分。所有模型均采用第3节中描述的相同基线ReAct框架进行评估，并进行三次运行以考虑可能的差异性。总体得分是各划分的平均值。

图5：按能力划分的Gaia2评分。模型根据每种能力独立重新排序，突出其优势或不足之处。

5.1 核心结果

我们的核心实验结果呈现在表2、图5和图6中。在Gaia2划分中，执行和搜索被认为是最容易的，与先前基准饱和度一致（Trivedi等，2024；Lu等，2024）。模糊性和适应性仍然具有挑战性，只有Claude-4Sonnet和GPT-5（高）表现出稳健的性能。Time部分进一步区分了前沿模型：只有Gemini 2.5 Pro和Sonnet取得了显著分数，反映出它们的效率-延迟优势（图6）。噪声鲁棒性同样落后，大多数模型得分低于20，尽管GPT-5（高）达到35.4%。Agent2Agent协作对较弱的模型益处大于前沿系统（见图10）。总体而言，GPT-5（高）以42.1% pass@1领先，在所有类别上保持了领先Sonnet 8个点的优势。Kimi-K2在开放模块中表现出色。

特别是关于适应性方面的讨论。虽然遵循指令和搜索任务基本上已经解决，但在鲁棒性、歧义解析和协作方面仍然存在未解的挑战。在图6和图7中，我们将分析范围扩展到原始分数之外，以识别驱动不同模型在Gaia2上的性能差异的细粒度因素。此外，由于智能体最终旨在用于生产环境中，我们评估了它们在计算成本和执行时间方面的表现。

成本性能权衡图6揭示了显著的成本、性能和时间权衡。GPT-5的推理模型表现出直接的扩展关系：更高的测试时间计算成本导致更好的性能，但解决时间更长。Claude 4 Sonnet的成本大约是GPT-5（低水平）的三倍，准确度相当，但其运行速度更快。异常值包括低效的Grok-4和具有成本效益的KimiK2。尽管平均的人类标注员可以完成每项任务，但他们的速度慢于所有模型，这部分是由于使用了ARE的图形用户界面（GUI），而不是原生操作系统。这些发现突出了需要成本归一化评估指标的问题。仅比较模型参数或FLOPs不足以反映实际部署条件。每美元成功率更能体现智能体在实际应用中如何被评估------即在资源受限下可靠、高效地完成任务。

性能驱动因素我们研究了与Gaia2性能相关的行为因素。两个假设指导我们的分析：（1）通过增加工具使用和在写操作之前进行系统性信息收集，探索驱动着成功；（2）通过生成全面的推理令牌提高性能。图7证实了这两种关系：性能与之相关工具调用（左）和输出标记（右）呈正相关。然而，Claude-4 Sonnet 和 Kimi-K2 是显著的异常值，在生成相对较少的标记的同时表现出较高的性能（分别为35%和21%），这表明其效率卓越，可能归因于更大的参数规模或专门的架构。在模型家族内部，我们观察到Claude和Qwen的基础版本与"Thinking"版本之间存在明显对比：后者每步生成更多的标记但总步数更少，从而实现更高的pass@1并降低每个解决方案的成本，实际上以冗长性换取了效率（例如，Qwen-235B Thinking对比Qwen-235B）。应用程序的使用模式在各种模型之间几乎相同（图3），表明性能差异主要源自一般推理能力，而非对特定应用的偏好。

图6：左图：Gaia2得分与平均场景成本（单位：美元）。右图：每个模型成功解决Gaia2场景所需的时间与人类对比。

5.2 时间揭示了推理速度和系统可靠性的影响

我们以两种模式评估 Gaia2-Time。如图 8（左）所示，去除生成延迟（"即时"模式）提升了所有模型的表现，推理模型的提升尤为显著：Sonnet 的性能从 8.1% 上升到 26.7%，而 GPT-5（高）从 0.0% 上升到 34.4%。由于任务难度较高，较弱的模型仅表现出适度改进，而 Gemini 2.5 Pro 由于表现强劲且延迟低，因此最适合满足时间要求。在默认模式下，我们观察到 Time 能力中的反向扩展：模型为了更长时间的思考而将 Time 性能转化为执行性能，参见图 8（右）。这强调了适应性计算的必要性------使用浅层模型，并仅在必要时进行更深入的推理。除了推理速度之外，Time 分隔还凸显了需要可靠的基础设施，以便为响应式模型提供服务，避免速率限制和服务器停机，以处理时间敏感型任务。最后，某些 Time 场景需要在狭窄的时间窗口内进行并发操作，而我们的单线程架构无法完全表达这一需求。并行编排是解决此类场景的一个有潜力的方向。

图 7：左：Gaia2 的 pass@1 分数与每种场景的平均模型调用次数。模型性能与工具调用的次数高度相关，突出了探索的重要性。右：Gaia2 的 pass@1 分数与每种场景的平均输出标记数（对数刻度）。Claude 4 Sonnet 尽管成本较高，但其性能超出了帕累托前沿。

图8：左：Gaia2-Time上的Pass@1（默认设置 vs. 即时）。右：时间上的反向缩放------以推理为主的模型较慢，并且错过截止日期。

图 9：Agent2Agent 测试 LLM 代理是否能够通过消息传递协作，以通过子任务分解完成 Gaia2 任务。对于较轻量级的 LLM，在 Agent2Agent 协作中，工具调用错误的发生率较低。左图：在 Agent2Agent 场景中，Llama 4 Maverick 主代理与应用代理之间的示例交互。右图：Llama 4 Maverick 和 Claude 4 Sonnet 在 Gaia-2 mini 上每次工具调用的错误频率（越低越好）。

图 10：通过增加Agent2Agent比率"r"在Gaia2场景中增加多智能体协作者的数量，可以改善Llama 4 Maverick的pass@k缩放规律，但不会通过重复采样改善Claude 4 Sonnet的令牌成本与得分权衡。

表 3：在 Gaia2-mini Agent2Agent 场景中探究跨模型协作：我们在完全协作的 Agent2Agent 设置（r = 1）下，评估了主要代理与应用代理配对在 Llama 4 Maverick 和 Claude 4 Sonnet 上的 pass@1 表现。结果取三次运行的平均值，并附带标准误差。

5.3 A CLOSER LOOK AT MULTI-AGENT COLLABORATION ON GAIA2 WITH AGENT2AGENT

受近期研究启发，这些研究超越了单一大语言模型（LLM）代理工具的使用，转向能够进行消息传递、协调和分工的代理团队（Google Developers，2025），我们研究了多代理协作

在Gaia2场景中的研究。我们重点分析成本-质量曲线不同位置上两个模型：Llama 4 Maverick，一个较轻量的模型，以及Claude 4 Sonnet，一个在标准Agent2Agent测试中表现最强的LLM（表2）。对于较弱的Llama 4 Maverick，在Gaia任务上的集中式协作通过提高pass@k性能和操作稳定性带来了改进。随着代理对比率r的增加，我们观察到重复采样的扩展性更好，每步的工具调用错误率更低（图9右；图10）。然而，对于Llama 4观察到的趋势并非普遍适用。对于Claude 4 Sonnet，提高协作比率r并增加任务分解程度并未在最佳k采样下提高成本归一化性能：每个token的得分在有或没有多代理协作的情况下都趋于平稳。同样，与Agent2Agent的协作比对工具调用错误频率的影响轻微负面。

这些发现的一个可能解释在于，Agent2Agent引入了决策的分层分解。如图9左所示，主代理发布给应用代理的子目标类似于时间扩展动作（Sutton et al., 1999）。从这个角度来看，性能的提升可能仅在分解的收益超过成本时才会实现。例如，Agent2Agent或许只有在主代理设定的子目标范围明确，并且应用代理和主代理能够在消息传递中可靠交换状态和意图时，才能提高任务得分。同样，如果后续训练使模型适应了长形式的单代理计划和工具使用，那么添加分层可能会导致级联错误和/或收益饱和；在这种情况下，协调可能引入的开销会抵消精度和效率的提升。

异构团队为任务自动化开辟了一个新的计算扩展维度，例如，通过保持一个强大的主代理来计划/分解任务，同时替换为更廉价的应用代理来执行子目标。实证上，用Claude应用代理替换Llama 4 Maverick应用代理，在两种主代理设置下都提升了pass@1（Llama主代理为16.2，Claude主代理为29.3），而完全轻量化的组合显示配置最弱（8.5）。这表明对于现有的大型语言模型（LLMs），Gaia2任务完成在应用程序-代理层级对执行保真度仍然敏感：更强的执行器可以改善结果，即使主代理较为轻量。同样，将一个强大的主代理与轻量的执行器结合，仍然优于全轻量团队（Claude主代理 + Llama应用为18.3），这表明主代理对子目标的更高质量指定和评价带来了独立的收益。这些发现与先前的研究一致，表明异构多代理系统可以通过权衡计划能力与执行保真度来管理计算与质量的权衡。

第六章结论与讨论

ARE 引入了一种异步、事件驱动的评估框架，结合动作级验证，实现了可重复的基准测试，直接应用于 RLVR。其抽象层次包括应用程序、事件、通知以及场景，再加上 MOBILE 环境，为社区驱动的评估和强化学习数据生成提供了可扩展的基础。Gaia2 表明没有一个模型在所有能力上占据优势地位：GPT-5（高）实现了最佳整体准确率（42% pass@1），Claude4 Sonnet 具有较低时延的竞争表现，Kimi-K2 则在开放源码系统中领先（20%）。扩展曲线揭示了基本的成本---时间---准确率权衡，强调了成本标准化报告的必要性。动作级验证比终态比较更有效地扩展，并支持细粒度的信用分配。ARE 验证器与人工标注高度一致（0.99 精度，0.95 召回），同时揭露了诸如"评审作弊"等问题。因此，鲁棒的验证器设计对评估和强化学习训练至关重要；结合标量奖励与偏好信号的混合方法仍是一个开放方向。最后，Gaia2 的时间分割与 A2A 实验突出了协调的重要性。在时间敏感任务中观察到的反向扩展表明，未来的智能体需要自适应计算策略：对例行任务部署快速、轻量化推理，而将更复杂任务留给深度思考。同时，A2A 结果表明协调也适用于协作，异构团队通过有效分工可以超越单一模型。