评估 Agent 在长周期、多技能、高风控场景下的确定性问题。
基于 Anthropic 的"评估前置"理念和字节的 AgentOps 实践。
采用 "金字塔"评估模型(字节 AgentOps 方案),底层是 Skills 的单元测试,中层是工作流集成测试,顶层是线上监控。
"Skills 边界测试 + 长程一致性压测 + 状态回溯审计"
-
能力边界验证(防越界):验证 Agent 是否在 Skills 元数据定义的范围内行动,不该用的工具坚决不调用(P0 级安全)。
-
长程一致性(防失忆):在跨窗口、多轮压缩后,验证 Agent 是否仍记得核心约束与任务目标(P1 级稳定性)。
-
技能调度效率(降本):评估 Skills 的"按需加载"机制是否真正降低了 Token 消耗,而非引入额外开销(P1 级优化)。
-
状态可回溯性(审计):验证 Checkpoint 和 Snapshot 机制是否完整,能否精准复现任意历史决策节点(P2 级合规)。
-
多模态工具确定性:验证 Shell 工具调用是否 100% 可重复,输出是否结构化(P2 级工程化)。
P0 级:生存验证(防崩 & 防篡改)
目标:确保 Agent 不越权、不崩溃。
》》 边界验证 Skills 元数据校验:在 CI 阶段,使用 "SKILL.md" 的 frontmatter 自动生成测试用例。利用 OpenAI Evals 或 Claude Bench 验证 Agent 在边界场景下是否拒绝调用未授权工具,测试其是否会误用技能处理请求。
》》 基础健壮性 会话恢复测试:利用 LangGraph Checkpointer 的
"thread_id",模拟中断后恢复,验证状态是否丢失。
P1 级:性能与稳定性(降本 & 防失忆)
目标:验证压缩机制的有效性,防止长对话"失忆"。
》》 长程一致性 对抗性压力测试:使用 Anthropic 的 Harness 框架,构造超长对话链(>100 轮),在 95% 窗口容量时注入关键指令,验证自动压缩后是否仍能正确响应。
》》 技能效率 Token 消耗 A/B Test:对比"全量 Prompt"与"Skills 按需加载"在相同任务下的 Token 消耗。参考 OpenAI Responses API 的 Compaction 日志进行监控。
P2 级:风控(审计 & 确定性)
》》 状态回溯 DAG 路径回放:利用 LangGraph + MLflow 或 Arize 的 Trace 功能,记录每个节点的输入/输出。评估时随机回放历史 "state",验证结果一致性。
》》 工具确定性 Shell 输出校验:对 Shell 工具(如 PDF 解析脚本)进行 Golden Dataset 回归测试,确保相同的输入永远产生相同的结构化 JSON 输出。