Workflow Refactor(SkillHub)
Workflow Refactor(ClawHub)
T·R·ACE评测框架重构文档
本文档记录了对 Skillhub Skill 质量评测框架的工作流重构全过程。
原框架名称:TRACE(Trust / Reliability / Adaptability / Convention / Effectiveness)
重构后框架名称:T·R·ACE(名字即流程)
一、重构背景
1.1 原框架概述
TRACE 评测框架覆盖 Skill 全生命周期质量评估,定义了五个维度:
| 维度 | 中文 | 核心问题 |
|---|---|---|
| T --- Trust | 信任 | 用着放心吗? |
| R --- Reliability | 可靠性 | 每次都稳吗? |
| A --- Adaptability | 适用性 | 该出手时出得来吗? |
| C --- Convention | 规范性 | 写得清楚、改得动吗? |
| E --- Effectiveness | 有效性 | 最终交付的结果好用吗? |
五个维度从左到右是一条因果依赖链:安全是地基,稳定是承重墙,适配是水电通路,规范是施工图纸,有效是最终交付给住户的居住体验。
1.2 重构触发原因
TRACE 定义了评什么 (五个维度),但没有定义怎么评(评测引擎的执行流程)。作为 AI 自动检测框架,它需要一套可执行的评测工作流,而非并列罗列的评测标准。
二、重构判断
| 条件 | 阈值 | 本案情况 | 是否触发 |
|---|---|---|---|
| 角色接力数 | ≥3 | 1 个角色(AI 评测引擎) | ❌ |
| 中间文档流转数 | ≥3 | 12+ 份中间报告 | ✅ |
| 协调沟通耗时占比 | ≥30% | 无协作 | ❌ |
| 返工率 | ≥30% | 维度间存在隐含依赖,无序评测导致重复工作 | ✅ |
结论:触发重构。
三、重构过程
Step 1:传统工作流识别(R0-01)
目标领域:AI 自动评测引擎(对单个 Skill 执行质量评测)
TRACE 框架隐含的评测执行流程共 17 个环节:
| # | 环节 | 归属维度 | 做什么 | 中间产物 |
|---|---|---|---|---|
| 1 | 文件解析 | --- | 读取 Skill 全部文件 | 文件清单 + 内容索引 |
| 2 | 安全扫描 | T | 静态代码扫描、敏感信息检测、可疑注入检查 | 安全报告 |
| 3 | 国内适配检测 | T | 检查外部依赖可达性、中文交互完整性 | 适配报告 |
| 4 | 文档质量评估 | C | 评估 README 完整性、使用案例、输入输出样例 | 文档评分 |
| 5 | 结构规范评估 | C | 检查目录规范、模块划分、命名一致性 | 结构评分 |
| 6 | 渐进式披露评估 | C | 检查信息分层、首次接触体验 | 披露评分 |
| 7 | 功能声明提取 | R(前提) | 从文档中提取 Skill 声明的所有功能点 | 功能清单 |
| 8 | 功能完整性验证 | R | 对照功能清单逐项验证是否可用 | 功能验证报告 |
| 9 | 运行稳定性测试 | R | 同一任务反复执行,检查结果一致性 | 稳定性报告 |
| 10 | 异常处理测试 | R | 输入空值/超长/特殊字符,检查容错 | 异常处理报告 |
| 11 | 触发精度评估 | A | 评估触发条件是否清晰、无歧义 | 触发评分 |
| 12 | 能力边界评估 | A | 评估适用范围描述是否清晰 | 边界评分 |
| 13 | 输出准确性评估 | E | 检查输出结果正确性、逻辑自洽性 | 准确性评分 |
| 14 | 内容完整性评估 | E | 检查复杂场景下是否覆盖全面 | 完整性评分 |
| 15 | 开箱即用度评估 | E | 检查输出能否直接使用 | 即用度评分 |
| 16 | 创造力评估 | E | 评估是否提供额外洞察和增值 | 增值评分 |
| 17 | 综合评分 | 全部 | 汇总各维度得分,生成评测报告 | 评测报告 |
汇总:17 个环节 / 1 个角色(AI 评测引擎) / 12 份中间报告
Step 2:环节存在理由分析(R0-02)
追问准则:如果评测者是一个拥有全量知识和零损耗的 AI,这个环节还需要吗?
| # | 环节 | 存在理由 | 类型标记 | 标记理由 |
|---|---|---|---|---|
| 1 | 文件解析 | 事情本身需要 | ✅核心 | 评测的输入,任何评测都从读文件开始 |
| 2 | 安全扫描 | 事情本身需要 | ⚡校验 | 合规硬约束,不可跳过 |
| 3 | 国内适配检测 | 事情本身需要 | ⚡校验 | 合规硬约束,不可跳过 |
| 4 | 文档质量评估 | 人的局限需要 | ❌传递 | 人需要读文档才能判断质量,AI 可直接从文件结构和内容密度量化 |
| 5 | 结构规范评估 | 人的局限需要 | ❌传递 | 人需要浏览目录才能判断,AI 可直接解析文件树 |
| 6 | 渐进式披露评估 | 人的局限需要 | ❌传递 | 人需要翻阅才能判断分层,AI 可直接解析信息架构 |
| 7 | 功能声明提取 | 事情本身需要 | 🔶校准 | 提取出的功能清单是后续验证的校准锚点------没有清单就不知道验什么 |
| 8 | 功能完整性验证 | 事情本身需要 | ✅核心 | R 维度的核心------声明的功能是否真能跑 |
| 9 | 运行稳定性测试 | 事情本身需要 | ✅核心 | R 维度的核心------重复执行是否一致 |
| 10 | 异常处理测试 | 事情本身需要 | ✅核心 | R 维度的核心------边界输入是否容错 |
| 11 | 触发精度评估 | 事情本身需要 | ✅核心 | A 维度的核心 |
| 12 | 能力边界评估 | 事情本身需要 | ✅核心 | A 维度的核心 |
| 13 | 输出准确性评估 | 事情本身需要 | ✅核心 | E 维度的核心 |
| 14 | 内容完整性评估 | 事情本身需要 | ✅核心 | E 维度的核心 |
| 15 | 开箱即用度评估 | 事情本身需要 | ✅核心 | E 维度的核心 |
| 16 | 创造力评估 | 事情本身需要 | ✅核心 | E 维度的核心 |
| 17 | 综合评分 | 事情本身需要 | ✅核心 | 评测的最终输出 |
统计:✅核心 11 个 / 🔶校准 1 个 / ❌消除 3 个 / ⚡精简 2 个
Step 3:人的局限补偿层消除(R0-03)
消除清单
| # | 被消除环节 | 原类型 | 消除理由 |
|---|---|---|---|
| 4 | 文档质量评估(独立环节) | 传递 | C 维度的文档/结构/披露三项本质上都是对文件结构和内容的静态解析,不需要分三步独立评估 |
| 5 | 结构规范评估(独立环节) | 传递 | 同上,合并到文件解析阶段 |
| 6 | 渐进式披露评估(独立环节) | 传递 | 同上,合并到文件解析阶段 |
保留清单
| # | 保留环节 | 保留理由 | 类型 | 重组位置 |
|---|---|---|---|---|
| 1 | 文件解析(扩展) | 合并原 4/5/6,一次解析产出全部静态信息 | ✅核心 | T 阶段 |
| 2 | 安全扫描 | 合规硬约束 | ⚡校验 | T 阶段 |
| 3 | 国内适配检测 | 合规硬约束 | ⚡校验 | T 阶段 |
| 7 | 功能声明提取 | 后续验证的校准锚点 | 🔶校准 | T→R 传递 |
| 8-10 | 运行测试群组 | R 维度核心 | ✅核心 | R 阶段 |
| 11-12 | 适配评估群组 | A 维度核心 | ✅核心 | ACE 阶段 |
| 13-16 | 输出评估群组 | E 维度核心 | ✅核心 | ACE 阶段 |
| 17 | 综合评分 | 最终输出 | ✅核心 | ACE 阶段 |
Step 4:重整为 IPO 基元链(R0-04)
4.1 命名决策
原框架名称 TRACE(T→R→A→C→E)的精妙之处在于名字本身就是执行顺序。重构后五个维度被重组到三个阶段中,原字母顺序不再对应执行流。因此:
- 新框架名称 :T·R·ACE
- 命名逻辑 :三个阶段的首字母/首字母组 = T → R → ACE
- T(Phase 1)= Trust --- 静态解析阶段
- R(Phase 2)= Reliability --- 动态验证阶段
- ACE(Phase 3)= Adaptability + Convention + Effectiveness --- 综合判定阶段
- 名字即流程:T·R·ACE 不仅是五个维度的缩写,更是评测引擎的三阶段流水线
4.2 重构后工作流
形态:简短基元链(3 个基元,基元内并行子步骤)
T(静态解析)──校准点──→ R(动态验证)──校准点──→ ACE(综合判定)──校准点──→ 报告
4.3 五维度 → 三阶段映射
| 原维度 | 归入阶段 | 具体子步骤 |
|---|---|---|
| T(Trust) | T 阶段 | 安全扫描 + 国内适配检测 |
| R(Reliability) | R 阶段 | 功能完整性 + 稳定性 + 异常处理 |
| A(Adaptability) | T 阶段(提取) + ACE 阶段(评分) | 触发条件提取 → 适配评估 |
| C(Convention) | T 阶段(解析) + ACE 阶段(评分) | 文件结构解析 → 规范评估 |
| E(Effectiveness) | R 阶段(采集) + ACE 阶段(评分) | 输出样本采集 → 效果评估 |
4.4 基元详细定义
基元 T:静态解析(Phase 1)
I:Skill 全部文件(SKILL.md、scripts/、references/、assets/)
P(6 个子步骤,可并行执行):
| 子步骤 | 做什么 | 产出 | AI 自治度 |
|---|---|---|---|
| T.1 文件树解析 | 解析目录结构、模块划分、命名规范 | 结构评分 → C | ⬛ 全自动 |
| T.2 内容密度分析 | 评估文档分层、首次接触体验、详细参考资料组织 | 披露评分 → C | ⬛ 全自动 |
| T.3 文档覆盖度检查 | 检查使用案例、输入输出样例、最佳实践、反模式、FAQ | 文档评分 → C | ⬛ 全自动 |
| T.4 安全扫描 | 静态代码扫描、敏感信息检测、可疑注入检查 | 安全报告 → T 硬门槛 | ⬛ 全自动 |
| T.5 国内适配检测 | 外部依赖可达性、中文交互完整性 | 适配报告 → T 硬门槛 | ⬛ 全自动 |
| T.6 功能声明提取 | 从文档提取 Skill 声明的所有功能点和触发条件 | 功能清单 + 触发条件 → R 输入 + A 输入 | ⬛ 全自动 |
O:T 阶段报告 = {结构评分, 披露评分, 文档评分, 安全报告, 适配报告, 功能清单, 触发条件}
🔶 校准点 1:T.6 功能声明提取完成后------功能清单是 R 阶段动态验证的"靶子",提取不准确则后续全部白验。人工确认功能清单覆盖度。
T 阶段硬门槛:T.4 安全扫描或 T.5 国内适配检测任一不通过 → 终止评测,不再进入 R 阶段。
基元 R:动态验证(Phase 2)
I:T.O(功能清单 + 触发条件)
P(5 个子步骤,可并行执行):
| 子步骤 | 做什么 | 产出 | AI 自治度 |
|---|---|---|---|
| R.1 测试用例生成 | 基于功能清单自动生成标准测试用例 + 边界用例 + 异常用例 | 测试用例集 | ⬛ 全自动 |
| R.2 功能完整性执行 | 对照功能清单逐项执行,记录通过/失败 | 功能验证报告 | ⬛ 全自动 |
| R.3 稳定性执行 | 同一任务反复执行 N 次,检查结果一致性 | 稳定性报告 | ⬛ 全自动 |
| R.4 异常处理执行 | 输入空值/超长/特殊字符,记录容错行为 | 异常处理报告 | ⬛ 全自动 |
| R.5 输出质量采集 | 收集各测试轮次的输出,供后续评分使用 | 输出样本集 → ACE 输入 | ⬛ 全自动 |
O:R 阶段报告 = {功能验证报告, 稳定性报告, 异常处理报告, 输出样本集}
🔶 校准点 2:R.1 测试用例生成完成后------用例集是否覆盖了功能清单的所有关键场景。人工确认覆盖度。
基元 ACE:综合判定(Phase 3)
I:T.O(结构评分, 披露评分, 文档评分, 触发条件) + R.O(功能验证报告, 稳定性报告, 异常处理报告, 输出样本集)
P(4 个子步骤,可并行执行):
| 子步骤 | 做什么 | 产出 | AI 自治度 |
|---|---|---|---|
| ACE.1 R 维度评分 | 基于功能验证 + 稳定性 + 异常处理,计算 Reliability 得分 | R 分 | 🟨 半自动 |
| ACE.2 A 维度评分 | 基于触发条件清晰度 + 能力边界描述完整度,计算 Adaptability 得分 | A 分 | 🟨 半自动 |
| ACE.3 C 维度评分 | 基于 T 阶段的结构 + 披露 + 文档评分,计算 Convention 得分 | C 分 | 🟨 半自动 |
| ACE.4 E 维度评分 | 基于输出样本集,评估准确性 / 完整性 / 开箱即用度 / 创造力 | E 分 | 🟨 半自动 |
| ACE.5 综合评分 | T(准入) + R + A + C + E → T·R·ACE 总分 | T·R·ACE 评测报告 | ⬛ 全自动 |
O:T·R·ACE 评测报告 = {T 安全报告, R 分, A 分, C 分, E 分, 总分, 维度明细, 改进建议}
🔶 校准点 3:ACE.5 综合评分生成后------评分权重是否合理、各维度得分是否与直觉一致。人工确认评分结果。
4.5 基元间传递关系
T.O ──→ R.I(功能清单作为验证靶子)
T.O + R.O ──→ ACE.I(静态解析结果 + 动态验证结果作为评分输入)
ACE.O ──→ T·R·ACE 评测报告(最终交付物)
无需中间文档,无需协调会议。每个基元的输出直接作为下一个基元的输入。
Step 5:重构验证(R0-05)
| # | 验证项 | 通过? | 说明 |
|---|---|---|---|
| 1 | 事情完整性 | ✅ | T/R/A/C/E 五维度全部覆盖,无遗漏 |
| 2 | 补偿层消除 | ✅ | C 维度三个独立评估环节合并为 T 阶段三个并行子步骤 |
| 3 | 校准不丢失 | ✅ | 3 个校准点:功能清单确认(T→R)、测试用例覆盖度确认(R 内)、评分结果确认(ACE 内) |
| 4 | 端到端可执行 | ✅ | AI 评测引擎从输入 Skill 文件到输出 T·R·ACE 报告全程可自动化 |
| 5 | 复杂度回归 | ✅ | 17 环节 → 3 基元 15 子步骤(基元内并行),执行时间从 17 步串行降至 3 轮 |
| 6 | 质量守恒 | ✅ | 五维度评估内容无丢失,C 维度从 3 个串行环节变为 3 个并行子步骤,评估深度不变 |
| 7 | 合规不跳过 | ✅ | T 维度(安全 + 适配)在 Phase 1 作为硬门槛执行,不通过则终止 |
Step 6:执行形态选择(R0-06)
选定形态:简短基元链(3 基元串行 + 基元内并行子步骤)
| 形态 | 适配? | 理由 |
|---|---|---|
| 单步 IPO | ❌ | 评测有明确的静态 → 动态 → 判定三阶段依赖 |
| 简短基元链 | ✅ | 3 基元,每个基元内部子步骤可并行执行 |
| IPO+人工决策 | ❌ | 校准点已嵌入基元内,不需要独立的人工决策基元 |
执行优化:
- T 阶段 6 个子步骤互不依赖 → 并行执行
- R 阶段 4 组测试互不依赖 → 并行执行(R.1 生成用例后 R.2/R.3/R.4 可并行)
- ACE 阶段 4 个维度评分互不依赖 → 并行执行
- 实际执行时间 ≈ max(最慢子步骤时间) × 3 轮
四、重构前后对比
| 维度 | 重构前(TRACE) | 重构后(T·R·ACE) | 改善 |
|---|---|---|---|
| 框架名称 | TRACE(纯缩写) | T·R·ACE(名字即流程) | 语义升级 |
| 环节数 | 17 个串行环节 | 3 基元 15 子步骤(基元内并行) | -82% 串行步数 |
| 执行顺序 | 无序 / 并列 | T → R → ACE 因果链 | 结构化 |
| C 维度评估 | 3 个独立串行环节 | 3 个并行子步骤(T.1/T.2/T.3) | 串行 → 并行 |
| 功能声明 → 验证 | 无显式依赖 | T.6 → R 显式传递 | 校准锚点明确 |
| 输出采集 → 评分 | 隐含在各 E 子环节 | R.5 采集 → ACE.4 评分 | 数据流清晰 |
| 测试用例 | 未定义怎么生成 | R.1 自动生成,基于 T.6 功能清单 | 自动化 |
| 校准机制 | 无 | 3 个显式校准点 | 质量可控 |
| 硬门槛 | 无明确终止条件 | T 阶段安全/适配不通过则终止 | 风险前置 |
| 执行模式 | 17 步串行 | 3 轮并行 | 效率提升 |
五、T·R·ACE 框架总结
5.1 一句话定义
T·R·ACE 是 Skillhub 的 Skill 质量自动评测框架------Pass the T · Run the R · Deliver the ACE。
5.2 三阶段流水线
| 阶段 | 字母 | 含义 | 执行内容 | 产出 | 硬门槛 |
|---|---|---|---|---|---|
| Phase 1 | T | Trust | 静态解析:安全扫描 + 国内适配 + 文件结构 + 功能提取 | T 阶段报告 | 安全/适配不通过 → 终止 |
| Phase 2 | R | Reliability | 动态验证:功能完整性 + 稳定性 + 异常处理 + 输出采集 | R 阶段报告 | --- |
| Phase 3 | ACE | A+C+E | 综合判定:适配评估 + 规范评估 + 效果评估 + 综合评分 | T·R·ACE 评测报告 | --- |
5.3 三个校准点
| 校准点 | 位置 | 校准内容 |
|---|---|---|
| #1 | T → R 交接 | 功能清单覆盖度确认 |
| #2 | R 内部 | 测试用例覆盖度确认 |
| #3 | ACE 内部 | 综合评分合理性确认 |
5.4 原 TRACE 用户担忧 → T·R·ACE 评测阶段对应
| 用户担忧 | 原维度 | T·R·ACE 阶段 | 评测方式 |
|---|---|---|---|
| "不敢用" | T --- Trust | Phase 1:T 静态解析 | 自动化安全扫描 + 网络适配检测 |
| "不稳定" | R --- Reliability | Phase 2:R 动态验证 | 自动化多组测试 + 边界用例 |
| "找不到/用错了" | A --- Adaptability | Phase 3:ACE 综合判定 | 触发条件解析 + 场景匹配分析 |
| "看不懂" | C --- Convention | Phase 3:ACE 综合判定 | 文件结构 + 文档覆盖度量化 |
| "没用" | E --- Effectiveness | Phase 3:ACE 综合判定 | 输出质量评估 + 增值创造力分析 |
Leave a T·R·ACE --- Pass the T · Run the R · Deliver the ACE.