多步骤 Agent + 工具调用:测评标准与数据集全景(2025-2026)

【多步骤 Agent + 工具调用:测评标准与数据集全景(2025-2026)

🤖 多步骤 Agent + 工具调用:测评标准与数据集全景(2025-2026)

这个方向是目前 AI 评估领域最前沿、最复杂、进展最快的子领域。我把它分成四个维度来讲:工具调用能力、通用 Agent、Web/GUI 操作、和垂直场景。


一、为什么 Agent 测评比 LLM 测评难得多?

传统 LLM 评测是"一问一答",Agent 评测则是一个动态闭环

复制代码
观察环境 → 规划 → 调用工具 → 读取结果 → 更新状态 → 再次规划...

现代 Agent 不只是单次 LLM 调用,它们维护上下文、调用工具、读写内部数据库,必须可靠地完成任务。这打破了经典 LLM 基准的所有基本假设。

核心挑战有三:
状态管理 ------每一步的错误会累积传播;非确定性 ------同样的任务可以有多条正确路径;环境交互------评测需要真实沙箱,成本极高。


二、工具调用(Function Calling)测评集

🏆 BFCL --- Berkeley Function Calling Leaderboard(最重要)

UC Berkeley 出品,是目前工具调用评测的事实标准,已被 ICML 2025 收录。

BFCL 使用创新的 Abstract Syntax Tree(AST)评估方法,不需要真正执行函数就能验证正确性,因此可以扩展到数千个函数的评测规模,覆盖串行函数调用、并行函数调用、跨编程语言(Python/Java/JavaScript/REST API)等多种场景。

BFCL 已迭代到 v4,从 v1 的 AST 评估方法,到 v2 加入企业级和开源贡献函数,v3 引入多轮交互,v4 引入整体 Agentic 评估。

测评维度(v4):

类别 说明
单轮单函数 最基础的工具调用
单轮并行函数 同时调用多个工具
多轮交互 多步对话中保持工具状态
相关性检测 判断何时不该调用工具
长上下文 超长对话中的工具记忆
Agentic 决策 有状态的多步规划

当前最新成绩(BFCL Overall Accuracy):

Claude Opus 4.1 以 70.36% 位居第二,Claude Sonnet 4 以 70.29% 排第三;GPT-5 以 59.22% 排第 7,在函数调用上落后于 Claude 系列。

BFCL 揭示了一个"双面人格"现象:顶尖模型在单轮函数调用上表现出色,但在需要记忆上下文、管理长对话、或主动判断不调用工具时仍然频繁失误。


MCPMark --- MCP(Model Context Protocol)测评

MCPMark 包含 127 个由领域专家与 AI 协作创建的高质量任务,平均每个任务需要 16.2 次执行轮次和 17.4 次工具调用,远超之前 MCP 测评的复杂度。

一个典型 MCPMark 任务可能需要:从代码仓库提取信息 → 查询项目管理系统 → 更新任务状态 → 创建 PR → 发送通知,每一步依赖前一步,一处出错全链崩溃。

在 MCPMark 上,GPT-5 以约 127 美元/次成本领先,而 Claude Sonnet 4 虽然性能优秀但费用高达 252 美元/次------成本效率成为了关键指标之一。


τ-bench(Tau-bench)--- 有状态的业务场景

Sierra Research 出品,模拟电商客服、航空订票等真实业务场景。

τ-bench 的核心创新是用持久化的本地 JSON 文件模拟数据库,Agent 通过工具对数据库进行读写操作,评测同时检查最终答案和数据库的状态变化。它还引入了用户模拟器来模拟真实的来回对话。

这意味着 Agent 不能"走捷径"------只说对答案不够,数据库里的订单状态、用户信息也必须被正确更新。


三、通用 Agent 测评集

🌟 GAIA --- General AI Assistants Benchmark(最受关注)

Meta AI 推出,目前各大厂商新品发布必报的指标

GAIA 的独特哲学:问题对人类来说概念上简单,但对 AI 来说极其困难。三个难度级别分别是:Level 1 需要不超过 5 步、少量工具;Level 2 需要 5-10 步、多种工具协同;Level 3 需要深度规划和复杂工具链整合。

GAIA 的题目有明确唯一答案,用准确率评测,避免了主观评判的问题。一道典型 Level 3 题可能是:"给我找一篇 2023 年发表、引用超过 50 次的关于 XXX 的论文,提取其方法论,与 2022 年的 SOTA 方法对比,计算性能提升百分比。"

历史进展:

  • 2023 年发布时,GPT-4(有插件)仅得 15%,人类得 92%
  • 2025 年顶尖 Agent 系统已逼近 65%+(测试集)
  • 现在各家 Deep Research 类产品以 GAIA 分数作为核心竞争指标

注意事项: 公开验证集已被很多模型"记住",更应关注私有测试集成绩;Level 3 的成绩最能说明问题,因为 Level 1 已趋于饱和。


GAIA 2 / ARE --- 动态环境版升级

GAIA 2 在原版基础上引入了动态环境事件(世界状态在 Agent 执行过程中异步变化)、时间维度(很多任务明确要求处理时间约束)、以及 Agent-to-Agent 协作(其他智能体作为环境的一部分)。

这标志着 Agent 测评从"完成静态任务"进化到"在变化的世界中应对不确定性"。


AgentBench --- 多环境综合测评

AgentBench 在 8 种环境中评测 LLM-as-Agent 的能力:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题、家务管理、网购和网页浏览,每个问题预计需要 5-50 轮交互才能解决。

该基准暴露了商业模型和开源模型之间在 Agent 任务上的显著差距。


四、Web 与 GUI 操作测评集

🖥️ OSWorld --- 真实计算机操作(最难)

OSWorld 是首个支持在真实操作系统(Ubuntu/Windows/macOS)上执行任务的 Agent 基准,包含 369 个真实世界计算机任务,涵盖 Chrome、LibreOffice、VS Code 等应用,以及跨应用工作流。

进展令人惊叹但差距依然巨大:

  • 初版发布时(2024):最佳模型仅 12.24%,人类 72.36%
  • 2025 年 10 月:OSAgent 实现 76.26%,首次超越约 72% 的人类基线,通过"验证-生成"闭环------实时自检动作、失败时下一步纠正------并结合大规模 RL 训练实现。

2025 年最新进展:

OSWorld 已升级为 OSWorld-Verified,修复了社区报告的 300+ 个问题,引入 AWS 并行化(50 倍加速),让评测时间从几天压缩到 1 小时以内。

扩展工作也非常丰富:OSWorld-G(GUI 精准定位)、OSWorld-Human(人类操作轨迹基线)、OS-Harm(Agent 安全性测试)等子项目已先后推出。


WebArena --- Web 浏览 Agent

提供完全自托管的 Web 环境,包含电商网站、社交论坛、GitLab 式代码平台、内容管理系统等,共 812 个任务,评测以功能正确性(目标是否达成)为准,而非路径是否相同。


Mind2Web --- 真实网站操作

覆盖 2,350 个任务、137 个真实网站,难度在于真实网站的动态性和视觉复杂性。


五、评测指标体系

这是一个常被忽视但至关重要的问题------Agent 测评到底量什么?

成功率 / 任务完成率是最基础的指标,但需要区分"通路成功"(最终答案正确)和"轨迹正确"(步骤路径也合理)。

状态一致性(τ-bench 等特有):不仅要结果正确,数据库/系统的副作用也必须符合预期。

成本和延迟(BFCL、MCPMark 特有):实际生产部署中,高性价比有时比最高准确率更重要------同样的任务 GPT-5 花 127 美元完成,Claude 花 252 美元,这在大规模使用时差距极大。

Pass@k 可靠性:企业界提出的 CLEAR 框架包含五个维度:成本、延迟、效率、保证(policy adherence)和可靠性,其中 pass@k 评估在 k 次尝试中至少成功一次的概率,是量化随机性风险的关键指标。

工具幻觉率:调用了不存在的工具、或参数格式错误的比率------这在 BFCL 的"相关性检测"子项中有专门衡量。


六、整体格局总结

一张图说清楚这个领域的层次结构:

复制代码
【底层能力】工具调用准确性
    BFCL(函数调用标准)
    τ-bench(有状态业务场景)
           ↓
【中层能力】多步规划与推理
    GAIA(通用助手多步任务)
    AgentBench(多环境综合)
           ↓
【上层能力】复杂环境中的自主操作
    OSWorld(真实计算机操作)
    WebArena/Mind2Web(Web 浏览)
    SWE-bench(软件工程)

当前最大结论:

工具调用基础已趋于成熟,长程规划是瓶颈。 顶尖模型在单轮函数调用上表现出色,但在需要记忆、动态决策和长程推理的场景中仍有明显弱点。

计算机操作仍是悬崖。 OSWorld 从发布时的 12% 爬升到 76%(专项训练后),但这是用大规模 RL 换来的,通用模型的基础能力仍然远低于人类水平。

评测本身正在成为工程问题。 要跑 OSWorld 需要维护虚拟机集群,要跑 GAIA 需要真实的 Web 访问环境,测评基础设施的成本和复杂度已成为瓶颈,这也是为什么涌现了 HUD、Scrapybara 等"Agent 测评即服务"平台。

安全性测评日益重要。 OS-Harm、ToolEmu 等安全向测评集的出现,预示着在 Agent 大规模部署之前,防止工具误用、提示注入的研究将成为不可绕过的关卡。

相关推荐
duration~4 小时前
Skills
ai·agent
Aric_Jones5 小时前
LLM、Agent、MCP、Skill 是什么?它们之间有什么关系?
ai·llm·agent·mcp·sikll
组合缺一5 小时前
赋予 AI 灵魂:如何在 Java AI 生态实现一个会“自我反思”的长期记忆系统
java·人工智能·ai·llm·agent·solon·mcp
想你依然心痛7 小时前
AtomGit首发模型深度评测:多模态能力与场景适配性实战分析
大模型·测评·atomgit
Java_慈祥8 小时前
My First AI智能体!!!
python·agent·coze
XLYcmy8 小时前
chatgpt数据库检索文献 下
ai·chatgpt·llm·prompt·agent·检索·多轮对话
JaydenAI8 小时前
[拆解LangChain执行引擎]梳理Agent的执行流程
ai·langchain·agent·pregel
A小码哥17 小时前
Gemini 3.1 Pro 发布,12项核心基准测试能力夺得第一
agent
XLYcmy19 小时前
智能体大赛 目录
数据库·ai·llm·prompt·agent·检索·万方