【Agent】Evaluation and Benchmarking of LLM Agents: A Survey

note

文章目录

  • note
    • 一、论文想解决什么问题?(Why)
    • 二、论文的核心贡献(What)
      • [1️⃣ 提出一个 **二维评测分类体系(Taxonomy)**](#1️⃣ 提出一个 二维评测分类体系(Taxonomy))
      • [2️⃣ 系统梳理已有工作](#2️⃣ 系统梳理已有工作)
      • [3️⃣ 明确指出 **企业级 Agent 评测的缺口**](#3️⃣ 明确指出 企业级 Agent 评测的缺口)
    • 三、二维评测框架(核心)
    • [第一维:Evaluation Objectives(评什么)](#第一维:Evaluation Objectives(评什么))
      • [1️⃣ Agent Behavior(外在行为表现)](#1️⃣ Agent Behavior(外在行为表现))
      • [2️⃣ Agent Capabilities(内部能力)](#2️⃣ Agent Capabilities(内部能力))
        • [• Tool Use(工具调用)](#• Tool Use(工具调用))
        • [• Planning & Reasoning(规划与推理)](#• Planning & Reasoning(规划与推理))
        • [• Memory & Context(记忆与上下文)](#• Memory & Context(记忆与上下文))
        • [• Multi-Agent Collaboration(多 Agent 协作)](#• Multi-Agent Collaboration(多 Agent 协作))
      • [3️⃣ Reliability(可靠性)](#3️⃣ Reliability(可靠性))
      • [4️⃣ Safety & Alignment(安全与对齐)](#4️⃣ Safety & Alignment(安全与对齐))
    • [第二维:Evaluation Process(怎么评)](#第二维:Evaluation Process(怎么评))
      • [1️⃣ Interaction Mode(交互模式)](#1️⃣ Interaction Mode(交互模式))
      • [2️⃣ Evaluation Data(评测数据)](#2️⃣ Evaluation Data(评测数据))
      • [3️⃣ Metrics Computation(怎么算分)](#3️⃣ Metrics Computation(怎么算分))
      • [4️⃣ Tooling(工具)](#4️⃣ Tooling(工具))
      • [5️⃣ Context(评测环境)](#5️⃣ Context(评测环境))
  • Reference

一、论文想解决什么问题?(Why)

核心问题

  • 现在 LLM Agent 越来越复杂

    会规划、用工具、有记忆、能多轮互动、能协作

  • 评测方法仍停留在 LLM 级别

    • 单轮 QA
    • accuracy / BLEU / pass@k
  • 👉 这些方法已经不足以评测 Agent

论文用一个很形象的比喻(在 Introduction):

评测 LLM ≈ 测发动机
评测 Agent ≈ 测整辆车在不同路况下的表现


二、论文的核心贡献(What)

论文做了三件非常重要的事:

1️⃣ 提出一个 二维评测分类体系(Taxonomy)

  • 不是堆 benchmark
  • 而是抽象出 评测的"空间坐标系"

2️⃣ 系统梳理已有工作

  • 把零散的 benchmark、指标、工具
  • 放进统一框架里对齐

3️⃣ 明确指出 企业级 Agent 评测的缺口

  • 可靠性
  • 合规
  • 长时交互
  • 权限与审计

三、二维评测框架(核心)

第一维:Evaluation Objectives(评什么)

👉 Agent 本身哪些"能力 / 属性"需要被评测

1️⃣ Agent Behavior(外在行为表现)

黑盒视角,像用户一样看 Agent

  • ✅ 任务是否完成(Task Completion)
  • ✅ 输出质量(质量、可读性、准确性)
  • ✅ 延迟 & 成本(Latency & Cost)

📌 典型指标:

  • Success Rate
  • pass@k
  • TTFT
  • Token cost

2️⃣ Agent Capabilities(内部能力)

白盒 / 过程导向,Agent 是怎么做到的

• Tool Use(工具调用)
  • 会不会调用
  • 选没选对
  • 参数对不对
  • 是否能执行成功
• Planning & Reasoning(规划与推理)
  • 工具序列是否合理
  • 中间决策是否正确
  • 是否能动态调整(ReAct)
• Memory & Context(记忆与上下文)
  • 多轮对话是否记得关键信息
  • 长时任务是否一致
• Multi-Agent Collaboration(多 Agent 协作)
  • 是否能分工
  • 是否有效沟通
  • 是否同步目标

👉 这是 Agent 和普通 LLM 最大的分水岭


3️⃣ Reliability(可靠性)

企业和生产最关心的,但研究里最容易忽略的

  • 一致性(同样输入是否稳定)
  • 鲁棒性(输入扰动、工具失败)

📌 重点提出:

  • pass@k 不够
  • pass^k(每次都成功) 才是生产级要求

4️⃣ Safety & Alignment(安全与对齐)

不只是"有没有骂人",而是:

  • 公平性
  • 有害内容
  • 合规 & 隐私
  • 企业政策遵循

第二维:Evaluation Process(怎么评)

1️⃣ Interaction Mode(交互模式)

  • Static / Offline(离线)
  • Dynamic / Online(交互式)

👉 论文强调:
Agent 必须大量用动态评测


2️⃣ Evaluation Data(评测数据)

  • 人工标注
  • 合成数据
  • 模拟环境
  • 真实日志

3️⃣ Metrics Computation(怎么算分)

三大类:

  • Code-based(规则/执行)
  • LLM-as-a-Judge
  • Human-in-the-loop

👉 强调 没有银弹,需要组合


4️⃣ Tooling(工具)

  • LangSmith
  • DeepEval
  • OpenAI Evals
  • AgentOps

提出一个概念:

Evaluation-driven Development(EDD)

评测不是收尾,而是开发过程的一部分


5️⃣ Context(评测环境)

  • Mock API
  • Sandbox
  • Web Simulator
  • 真实系统

Reference

1\] Evaluation and Benchmarking of LLM Agents: A Survey

相关推荐
Haooog9 分钟前
RAG医疗问答系统
java·大模型·项目·rag
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-1-9)
开源·大模型·llm·github·ai教程
大模型真好玩2 小时前
LangGraph智能体开发设计模式(四)——LangGraph多智能体设计模式:网络架构
人工智能·langchain·agent
明月(Alioo)3 小时前
AIGC入门,在Mac上基于Ollama和phi3:mini的完整Agent/Subagent例子
机器学习·aigc·agent·subagent
喜欢吃豆3 小时前
深度解析:FFmpeg 远程流式解复用原理与工程实践
人工智能·架构·ffmpeg·大模型·音视频·多模态
视觉&物联智能4 小时前
【杂谈】-多智能体系统的效能悖论:协作优势的认知边界
ai·llm·agent·智能体·人工 智能
爱吃泡芙的小白白6 小时前
Agent学习——反思模式
学习·agent·学习记录
_OP_CHEN6 小时前
【Coze智能体开发】(二)从 0 到 1 精通 Coze 智能体开发:基础到实战全攻略,新手也能快速上手!
人工智能·大模型·大语言模型·模型优化·扣子平台·智能体开发·智能体调试
Haooog7 小时前
Spring AI 与 LangChain4j 对比
人工智能·大模型·springai·langchain4j
沈询-阿里15 小时前
Skills vs MCP:竞合关系还是互补?深入解析Function Calling、MCP和Skills的本质差异
人工智能·ai·agent·ai编程