GAIA2: BENCHMARKING LLM AGENTS ON DYNAMIC AND ASYNCHRONOUS ENVIRONMENTS摘要 我们介绍了Gaia2,这是一项用于在真实的、异步环境中评估大型语言模型代理的基准测试。与之前的静态或同步评估不同,Gaia2引入了环境独立于代理行为演变的场景,要求代理在时间约束下运行,适应噪声和动态事件,解决模糊问题,并与其他代理协作。每个场景都配备了写入操作验证器,实现了细粒度的操作级评估,使Gaia2能够直接用于基于可验证奖励的强化学习。我们对最先进的专有和开源模型的评估表明,没有任何模型在能力上占优:GPT-5(高)以42%的pass@1得分达到总体最强,但在时间敏感任务上表现不佳;Clau