Agent评估（4/4）笔记

评估 Agent 在长周期、多技能、高风控场景下的确定性问题。

基于 Anthropic 的"评估前置"理念和字节的 AgentOps 实践。

采用 "金字塔"评估模型（字节 AgentOps 方案），底层是 Skills 的单元测试，中层是工作流集成测试，顶层是线上监控。

"Skills 边界测试 + 长程一致性压测 + 状态回溯审计"

P0 级：生存验证（防崩 & 防篡改）

目标：确保 Agent 不越权、不崩溃。

》》边界验证 Skills 元数据校验：在 CI 阶段，使用 "SKILL.md" 的 frontmatter 自动生成测试用例。利用 OpenAI Evals 或 Claude Bench 验证 Agent 在边界场景下是否拒绝调用未授权工具，测试其是否会误用技能处理请求。

》》基础健壮性会话恢复测试：利用 LangGraph Checkpointer 的

"thread_id"，模拟中断后恢复，验证状态是否丢失。

P1 级：性能与稳定性（降本 & 防失忆）

目标：验证压缩机制的有效性，防止长对话"失忆"。

》》长程一致性对抗性压力测试：使用 Anthropic 的 Harness 框架，构造超长对话链（>100 轮），在 95% 窗口容量时注入关键指令，验证自动压缩后是否仍能正确响应。

》》技能效率 Token 消耗 A/B Test：对比"全量 Prompt"与"Skills 按需加载"在相同任务下的 Token 消耗。参考 OpenAI Responses API 的 Compaction 日志进行监控。

P2 级：风控（审计 & 确定性）

》》状态回溯 DAG 路径回放：利用 LangGraph + MLflow 或 Arize 的 Trace 功能，记录每个节点的输入/输出。评估时随机回放历史 "state"，验证结果一致性。

》》工具确定性 Shell 输出校验：对 Shell 工具（如 PDF 解析脚本）进行 Golden Dataset 回归测试，确保相同的输入永远产生相同的结构化 JSON 输出。