怎么量化一个Agent的性能？

📊 怎么量化一个Agent的性能？别只盯着"任务成功率"

当被问到"怎么量化一个Agent的性能"时，很多人下意识的回答是："看任务有没有完成。"😯

这个回答不能说错，只能说太浅了。

Agent和普通大模型（LLM）有着本质的区别。普通大模型主要评估生成质量（比如回答准不准、文笔好不好），而Agent是用来"干活"的💼。它会规划任务、进行多轮交互、调用工具，还会根据环境反馈不断调整策略。

因此，评估Agent不能只看最后一句话漂不漂亮，而要看它到底有没有把事办成、过程是否可靠、成本是否可控✔️。

一个成熟的Agent评估体系，应该包含以下三个层级：

第一层：看结果（任务级成功率）

你可以把Agent理解成一个"数字员工"👩‍💻。你交给它一个任务，最基本的问题是：它有没有完成？

文档生成📄：让它写周报，最后有没有生成格式正确的文件？
数据库操作🗂️：让它修改订单状态，数据库里的状态是否真的从"待处理"变成了"已完成"？
代码执行💻：让它跑一段代码，最终有没有通过测试用例？

这就是 Task-level Success（任务级成功率）。这是底线，但光看结果远远不够。如果两个Agent都完成了任务，一个用了3步，另一个绕了30步还调错了好几个接口，你能说它们一样优秀吗？显然不能。

第二层：看过程（轨迹评估）

Agent的每一步规划、每一次工具调用、每一次重试，都应该被记录下来📋。在过程层面，我们重点看三个指标：

工具调用是否准确 ⚙️：该查数据库的时候，它有没有错误地去调用搜索工具？该传 user_id 的地方，有没有传成 order_id？工具选错、参数传错，是Agent落地中最常见的问题。
执行路径是否高效⚡：它有没有反复查询同一个信息？有没有明明一步能解决，结果拆成了十几步？这直接影响延迟和用户体验。
自我纠错能力🔧：真正成熟的Agent不是永远不出错，而是出错后能否识别问题、重新规划并再次尝试。比如接口报错，它能否根据报错信息修正参数，而不是直接两手一摊说"我失败了"。

第三层：看系统（工程化指标）

Agent不仅是算法问题，更是工程问题。你需要关注：

端到端延迟⏳：用户发起任务到拿到结果要等多久？
Token消耗与成本💰：调用外部API和模型推理花了多少钱？
稳定性🛡️：连续跑100次，有多少次能稳定完成？

如果一个Agent每次都能完成任务，但每次都要跑一分钟、消耗几万Token，那在真实业务中也是很难上线的。

🛠️ 有了指标，怎么做自动化评测？

1. 代码断言（最客观）

适合有明确标准答案的任务，如代码生成、SQL生成、数学计算、配置修改等。

方法：直接跑单元测试🧪。测试通过就是成功，失败就是失败。

2. 环境状态变化（最真实）

适合RPA、数据分析Agent、运维Agent等。

方法：评测时不只看Agent"怎么说"，而是看数据库记录有没有变、文件有没有生成、页面状态有没有更新🔎。

3. LLM-as-Judge（模型当裁判）

适合开放式任务，比如"写一封客户安抚邮件"✉️。

方法：让一个更强的模型按照规则（语气是否合适、信息是否完整、有无安全风险）进行打分。
注意：模型裁判只是辅助，不能完全迷信。

🧐 进阶追问：评测Agent最难的地方是什么？

如果面试官继续追问，一定要提到这三个"深坑"🕳️：

1. 错误传递（Error Propagation）

Agent第一步规划错了，后面可能全盘皆输。最后失败了，你很难判断是规划能力差、工具接口不好用，还是环境反馈不清楚。

解法：模块化评估。比如把工具接口Mock掉，固定环境反馈，单独压测规划能力；或者固定规划路径，单独测工具调用。这样才能精准归因📍。

2. 结果不稳定（Non-determinism）

同一个任务，今天成功明天失败。可能是模型采样不同，也可能是网络波动或环境状态变化。

解法：沙盒化评测🏖️。每次测试前恢复同一份环境快照，让数据库、文件、账号状态都回到同一个起点。否则你测出来的不是Agent的能力，而是"环境运气"。

3. 裁判也会出错（Judge Hallucination）

Agent可能只是嘴上说"完成了"，实际没做；或者模型裁判被Agent的文字忽悠，给了高分。

解法：多路验证✅。能用规则断言就别只用模型裁判；能查环境状态就别只看文字描述；模型裁判也可以用多个模型交叉评估，再配合人工抽检校准。

📝 总结

评估Agent不能只看任务成功率，而要建立一套立体化指标体系📈：

结果层：任务有没有做成？
过程层：规划是否合理？工具调用是否准确？能否自我纠错？
系统层：延迟、成本、稳定性是否支撑真实上线？

在工程实现上，确定性任务优先用代码断言 和状态对比 ，开放式任务再引入模型裁判 。真正难的不是定义指标，而是处理真实环境里的错误传递、非确定性和裁判幻觉。配合Mock工具、沙盒快照、多路裁判和人工抽检，形成一套可复现、可归因、可持续迭代的评测闭环，才是Agent落地的关键🎯。