多步骤 Agent + 工具调用：测评标准与数据集全景（2025-2026）

【多步骤 Agent + 工具调用：测评标准与数据集全景（2025-2026）

🤖 多步骤 Agent + 工具调用：测评标准与数据集全景（2025-2026）

这个方向是目前 AI 评估领域最前沿、最复杂、进展最快的子领域。我把它分成四个维度来讲：工具调用能力、通用 Agent、Web/GUI 操作、和垂直场景。

一、为什么 Agent 测评比 LLM 测评难得多？

传统 LLM 评测是"一问一答"，Agent 评测则是一个动态闭环：

复制代码

观察环境 → 规划 → 调用工具 → 读取结果 → 更新状态 → 再次规划...

现代 Agent 不只是单次 LLM 调用，它们维护上下文、调用工具、读写内部数据库，必须可靠地完成任务。这打破了经典 LLM 基准的所有基本假设。

核心挑战有三：
状态管理 ------每一步的错误会累积传播；非确定性 ------同样的任务可以有多条正确路径；环境交互------评测需要真实沙箱，成本极高。

二、工具调用（Function Calling）测评集

🏆 BFCL --- Berkeley Function Calling Leaderboard（最重要）

UC Berkeley 出品，是目前工具调用评测的事实标准，已被 ICML 2025 收录。

BFCL 使用创新的 Abstract Syntax Tree（AST）评估方法，不需要真正执行函数就能验证正确性，因此可以扩展到数千个函数的评测规模，覆盖串行函数调用、并行函数调用、跨编程语言（Python/Java/JavaScript/REST API）等多种场景。

BFCL 已迭代到 v4，从 v1 的 AST 评估方法，到 v2 加入企业级和开源贡献函数，v3 引入多轮交互，v4 引入整体 Agentic 评估。

测评维度（v4）：

类别	说明
单轮单函数	最基础的工具调用
单轮并行函数	同时调用多个工具
多轮交互	多步对话中保持工具状态
相关性检测	判断何时不该调用工具
长上下文	超长对话中的工具记忆
Agentic 决策	有状态的多步规划

当前最新成绩（BFCL Overall Accuracy）：

Claude Opus 4.1 以 70.36% 位居第二，Claude Sonnet 4 以 70.29% 排第三；GPT-5 以 59.22% 排第 7，在函数调用上落后于 Claude 系列。

BFCL 揭示了一个"双面人格"现象：顶尖模型在单轮函数调用上表现出色，但在需要记忆上下文、管理长对话、或主动判断不调用工具时仍然频繁失误。

MCPMark --- MCP（Model Context Protocol）测评

MCPMark 包含 127 个由领域专家与 AI 协作创建的高质量任务，平均每个任务需要 16.2 次执行轮次和 17.4 次工具调用，远超之前 MCP 测评的复杂度。

一个典型 MCPMark 任务可能需要：从代码仓库提取信息 → 查询项目管理系统 → 更新任务状态 → 创建 PR → 发送通知，每一步依赖前一步，一处出错全链崩溃。

在 MCPMark 上，GPT-5 以约 127 美元/次成本领先，而 Claude Sonnet 4 虽然性能优秀但费用高达 252 美元/次------成本效率成为了关键指标之一。

τ-bench（Tau-bench）--- 有状态的业务场景

Sierra Research 出品，模拟电商客服、航空订票等真实业务场景。

τ-bench 的核心创新是用持久化的本地 JSON 文件模拟数据库，Agent 通过工具对数据库进行读写操作，评测同时检查最终答案和数据库的状态变化。它还引入了用户模拟器来模拟真实的来回对话。

这意味着 Agent 不能"走捷径"------只说对答案不够，数据库里的订单状态、用户信息也必须被正确更新。

三、通用 Agent 测评集

🌟 GAIA --- General AI Assistants Benchmark（最受关注）

Meta AI 推出，目前各大厂商新品发布必报的指标。

GAIA 的独特哲学：问题对人类来说概念上简单，但对 AI 来说极其困难。三个难度级别分别是：Level 1 需要不超过 5 步、少量工具；Level 2 需要 5-10 步、多种工具协同；Level 3 需要深度规划和复杂工具链整合。

GAIA 的题目有明确唯一答案，用准确率评测，避免了主观评判的问题。一道典型 Level 3 题可能是："给我找一篇 2023 年发表、引用超过 50 次的关于 XXX 的论文，提取其方法论，与 2022 年的 SOTA 方法对比，计算性能提升百分比。"

历史进展：

2023 年发布时，GPT-4（有插件）仅得 15%，人类得 92%
2025 年顶尖 Agent 系统已逼近 65%+（测试集）
现在各家 Deep Research 类产品以 GAIA 分数作为核心竞争指标

注意事项： 公开验证集已被很多模型"记住"，更应关注私有测试集成绩；Level 3 的成绩最能说明问题，因为 Level 1 已趋于饱和。

GAIA 2 / ARE --- 动态环境版升级

GAIA 2 在原版基础上引入了动态环境事件（世界状态在 Agent 执行过程中异步变化）、时间维度（很多任务明确要求处理时间约束）、以及 Agent-to-Agent 协作（其他智能体作为环境的一部分）。

这标志着 Agent 测评从"完成静态任务"进化到"在变化的世界中应对不确定性"。

AgentBench --- 多环境综合测评

AgentBench 在 8 种环境中评测 LLM-as-Agent 的能力：操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题、家务管理、网购和网页浏览，每个问题预计需要 5-50 轮交互才能解决。

该基准暴露了商业模型和开源模型之间在 Agent 任务上的显著差距。

四、Web 与 GUI 操作测评集

🖥️ OSWorld --- 真实计算机操作（最难）

OSWorld 是首个支持在真实操作系统（Ubuntu/Windows/macOS）上执行任务的 Agent 基准，包含 369 个真实世界计算机任务，涵盖 Chrome、LibreOffice、VS Code 等应用，以及跨应用工作流。

进展令人惊叹但差距依然巨大：

初版发布时（2024）：最佳模型仅 12.24%，人类 72.36%
2025 年 10 月：OSAgent 实现 76.26%，首次超越约 72% 的人类基线，通过"验证-生成"闭环------实时自检动作、失败时下一步纠正------并结合大规模 RL 训练实现。

2025 年最新进展：

OSWorld 已升级为 OSWorld-Verified，修复了社区报告的 300+ 个问题，引入 AWS 并行化（50 倍加速），让评测时间从几天压缩到 1 小时以内。

扩展工作也非常丰富：OSWorld-G（GUI 精准定位）、OSWorld-Human（人类操作轨迹基线）、OS-Harm（Agent 安全性测试）等子项目已先后推出。

WebArena --- Web 浏览 Agent

提供完全自托管的 Web 环境，包含电商网站、社交论坛、GitLab 式代码平台、内容管理系统等，共 812 个任务，评测以功能正确性（目标是否达成）为准，而非路径是否相同。

Mind2Web --- 真实网站操作

覆盖 2,350 个任务、137 个真实网站，难度在于真实网站的动态性和视觉复杂性。

五、评测指标体系

这是一个常被忽视但至关重要的问题------Agent 测评到底量什么？

成功率 / 任务完成率是最基础的指标，但需要区分"通路成功"（最终答案正确）和"轨迹正确"（步骤路径也合理）。

状态一致性（τ-bench 等特有）：不仅要结果正确，数据库/系统的副作用也必须符合预期。

成本和延迟（BFCL、MCPMark 特有）：实际生产部署中，高性价比有时比最高准确率更重要------同样的任务 GPT-5 花 127 美元完成，Claude 花 252 美元，这在大规模使用时差距极大。

Pass@k 可靠性：企业界提出的 CLEAR 框架包含五个维度：成本、延迟、效率、保证（policy adherence）和可靠性，其中 pass@k 评估在 k 次尝试中至少成功一次的概率，是量化随机性风险的关键指标。

工具幻觉率：调用了不存在的工具、或参数格式错误的比率------这在 BFCL 的"相关性检测"子项中有专门衡量。

六、整体格局总结

一张图说清楚这个领域的层次结构：

复制代码

【底层能力】工具调用准确性
    BFCL（函数调用标准）
    τ-bench（有状态业务场景）
           ↓
【中层能力】多步规划与推理
    GAIA（通用助手多步任务）
    AgentBench（多环境综合）
           ↓
【上层能力】复杂环境中的自主操作
    OSWorld（真实计算机操作）
    WebArena/Mind2Web（Web 浏览）
    SWE-bench（软件工程）

当前最大结论：

工具调用基础已趋于成熟，长程规划是瓶颈。 顶尖模型在单轮函数调用上表现出色，但在需要记忆、动态决策和长程推理的场景中仍有明显弱点。

计算机操作仍是悬崖。 OSWorld 从发布时的 12% 爬升到 76%（专项训练后），但这是用大规模 RL 换来的，通用模型的基础能力仍然远低于人类水平。

评测本身正在成为工程问题。 要跑 OSWorld 需要维护虚拟机集群，要跑 GAIA 需要真实的 Web 访问环境，测评基础设施的成本和复杂度已成为瓶颈，这也是为什么涌现了 HUD、Scrapybara 等"Agent 测评即服务"平台。

安全性测评日益重要。 OS-Harm、ToolEmu 等安全向测评集的出现，预示着在 Agent 大规模部署之前，防止工具误用、提示注入的研究将成为不可绕过的关卡。