📊 怎么量化一个Agent的性能?别只盯着"任务成功率"
当被问到"怎么量化一个Agent的性能"时,很多人下意识的回答是:"看任务有没有完成。"😯
这个回答不能说错,只能说太浅了。
Agent和普通大模型(LLM)有着本质的区别。普通大模型主要评估生成质量(比如回答准不准、文笔好不好),而Agent是用来"干活"的💼。它会规划任务、进行多轮交互、调用工具,还会根据环境反馈不断调整策略。
因此,评估Agent不能只看最后一句话漂不漂亮,而要看它到底有没有把事办成、过程是否可靠、成本是否可控✔️。
一个成熟的Agent评估体系,应该包含以下三个层级:
第一层:看结果(任务级成功率)
你可以把Agent理解成一个"数字员工"👩💻。你交给它一个任务,最基本的问题是:它有没有完成?
- 文档生成📄:让它写周报,最后有没有生成格式正确的文件?
- 数据库操作🗂️:让它修改订单状态,数据库里的状态是否真的从"待处理"变成了"已完成"?
- 代码执行💻:让它跑一段代码,最终有没有通过测试用例?
这就是 Task-level Success(任务级成功率)。这是底线,但光看结果远远不够。如果两个Agent都完成了任务,一个用了3步,另一个绕了30步还调错了好几个接口,你能说它们一样优秀吗?显然不能。
第二层:看过程(轨迹评估)
Agent的每一步规划、每一次工具调用、每一次重试,都应该被记录下来📋。在过程层面,我们重点看三个指标:
- 工具调用是否准确 ⚙️:该查数据库的时候,它有没有错误地去调用搜索工具?该传
user_id的地方,有没有传成order_id?工具选错、参数传错,是Agent落地中最常见的问题。 - 执行路径是否高效⚡:它有没有反复查询同一个信息?有没有明明一步能解决,结果拆成了十几步?这直接影响延迟和用户体验。
- 自我纠错能力🔧:真正成熟的Agent不是永远不出错,而是出错后能否识别问题、重新规划并再次尝试。比如接口报错,它能否根据报错信息修正参数,而不是直接两手一摊说"我失败了"。
第三层:看系统(工程化指标)
Agent不仅是算法问题,更是工程问题。你需要关注:
- 端到端延迟⏳:用户发起任务到拿到结果要等多久?
- Token消耗与成本💰:调用外部API和模型推理花了多少钱?
- 稳定性🛡️:连续跑100次,有多少次能稳定完成?
如果一个Agent每次都能完成任务,但每次都要跑一分钟、消耗几万Token,那在真实业务中也是很难上线的。
🛠️ 有了指标,怎么做自动化评测?
1. 代码断言(最客观)
适合有明确标准答案的任务,如代码生成、SQL生成、数学计算、配置修改等。
- 方法:直接跑单元测试🧪。测试通过就是成功,失败就是失败。
2. 环境状态变化(最真实)
适合RPA、数据分析Agent、运维Agent等。
- 方法:评测时不只看Agent"怎么说",而是看数据库记录有没有变、文件有没有生成、页面状态有没有更新🔎。
3. LLM-as-Judge(模型当裁判)
适合开放式任务,比如"写一封客户安抚邮件"✉️。
- 方法:让一个更强的模型按照规则(语气是否合适、信息是否完整、有无安全风险)进行打分。
- 注意:模型裁判只是辅助,不能完全迷信。
🧐 进阶追问:评测Agent最难的地方是什么?
如果面试官继续追问,一定要提到这三个"深坑"🕳️:
1. 错误传递(Error Propagation)
Agent第一步规划错了,后面可能全盘皆输。最后失败了,你很难判断是规划能力差、工具接口不好用,还是环境反馈不清楚。
- 解法 :模块化评估。比如把工具接口Mock掉,固定环境反馈,单独压测规划能力;或者固定规划路径,单独测工具调用。这样才能精准归因📍。
2. 结果不稳定(Non-determinism)
同一个任务,今天成功明天失败。可能是模型采样不同,也可能是网络波动或环境状态变化。
- 解法 :沙盒化评测🏖️。每次测试前恢复同一份环境快照,让数据库、文件、账号状态都回到同一个起点。否则你测出来的不是Agent的能力,而是"环境运气"。
3. 裁判也会出错(Judge Hallucination)
Agent可能只是嘴上说"完成了",实际没做;或者模型裁判被Agent的文字忽悠,给了高分。
- 解法 :多路验证✅。能用规则断言就别只用模型裁判;能查环境状态就别只看文字描述;模型裁判也可以用多个模型交叉评估,再配合人工抽检校准。
📝 总结
评估Agent不能只看任务成功率,而要建立一套立体化指标体系📈:
- 结果层:任务有没有做成?
- 过程层:规划是否合理?工具调用是否准确?能否自我纠错?
- 系统层:延迟、成本、稳定性是否支撑真实上线?
在工程实现上,确定性任务优先用代码断言 和状态对比 ,开放式任务再引入模型裁判 。真正难的不是定义指标,而是处理真实环境里的错误传递、非确定性和裁判幻觉。配合Mock工具、沙盒快照、多路裁判和人工抽检,形成一套可复现、可归因、可持续迭代的评测闭环,才是Agent落地的关键🎯。