T·R·ACE评测框架重构文档

Workflow Refactor（SkillHub）
Workflow Refactor（ClawHub）

T·R·ACE评测框架重构文档

本文档记录了对 Skillhub Skill 质量评测框架的工作流重构全过程。

原框架名称：TRACE（Trust / Reliability / Adaptability / Convention / Effectiveness）

重构后框架名称：T·R·ACE（名字即流程）

一、重构背景

1.1 原框架概述

TRACE 评测框架覆盖 Skill 全生命周期质量评估，定义了五个维度：

维度	中文	核心问题
T --- Trust	信任	用着放心吗？
R --- Reliability	可靠性	每次都稳吗？
A --- Adaptability	适用性	该出手时出得来吗？
C --- Convention	规范性	写得清楚、改得动吗？
E --- Effectiveness	有效性	最终交付的结果好用吗？

五个维度从左到右是一条因果依赖链：安全是地基，稳定是承重墙，适配是水电通路，规范是施工图纸，有效是最终交付给住户的居住体验。

1.2 重构触发原因

TRACE 定义了评什么 （五个维度），但没有定义怎么评（评测引擎的执行流程）。作为 AI 自动检测框架，它需要一套可执行的评测工作流，而非并列罗列的评测标准。

二、重构判断

条件	阈值	本案情况	是否触发
角色接力数	≥3	1 个角色（AI 评测引擎）	❌
中间文档流转数	≥3	12+ 份中间报告	✅
协调沟通耗时占比	≥30%	无协作	❌
返工率	≥30%	维度间存在隐含依赖，无序评测导致重复工作	✅

结论：触发重构。

三、重构过程

Step 1：传统工作流识别（R0-01）

目标领域：AI 自动评测引擎（对单个 Skill 执行质量评测）

TRACE 框架隐含的评测执行流程共 17 个环节：

#	环节	归属维度	做什么	中间产物
1	文件解析	---	读取 Skill 全部文件	文件清单 + 内容索引
2	安全扫描	T	静态代码扫描、敏感信息检测、可疑注入检查	安全报告
3	国内适配检测	T	检查外部依赖可达性、中文交互完整性	适配报告
4	文档质量评估	C	评估 README 完整性、使用案例、输入输出样例	文档评分
5	结构规范评估	C	检查目录规范、模块划分、命名一致性	结构评分
6	渐进式披露评估	C	检查信息分层、首次接触体验	披露评分
7	功能声明提取	R(前提)	从文档中提取 Skill 声明的所有功能点	功能清单
8	功能完整性验证	R	对照功能清单逐项验证是否可用	功能验证报告
9	运行稳定性测试	R	同一任务反复执行，检查结果一致性	稳定性报告
10	异常处理测试	R	输入空值/超长/特殊字符，检查容错	异常处理报告
11	触发精度评估	A	评估触发条件是否清晰、无歧义	触发评分
12	能力边界评估	A	评估适用范围描述是否清晰	边界评分
13	输出准确性评估	E	检查输出结果正确性、逻辑自洽性	准确性评分
14	内容完整性评估	E	检查复杂场景下是否覆盖全面	完整性评分
15	开箱即用度评估	E	检查输出能否直接使用	即用度评分
16	创造力评估	E	评估是否提供额外洞察和增值	增值评分
17	综合评分	全部	汇总各维度得分，生成评测报告	评测报告

汇总：17 个环节 / 1 个角色（AI 评测引擎） / 12 份中间报告

Step 2：环节存在理由分析（R0-02）

追问准则：如果评测者是一个拥有全量知识和零损耗的 AI，这个环节还需要吗？

#	环节	存在理由	类型标记	标记理由
1	文件解析	事情本身需要	✅核心	评测的输入，任何评测都从读文件开始
2	安全扫描	事情本身需要	⚡校验	合规硬约束，不可跳过
3	国内适配检测	事情本身需要	⚡校验	合规硬约束，不可跳过
4	文档质量评估	人的局限需要	❌传递	人需要读文档才能判断质量，AI 可直接从文件结构和内容密度量化
5	结构规范评估	人的局限需要	❌传递	人需要浏览目录才能判断，AI 可直接解析文件树
6	渐进式披露评估	人的局限需要	❌传递	人需要翻阅才能判断分层，AI 可直接解析信息架构
7	功能声明提取	事情本身需要	🔶校准	提取出的功能清单是后续验证的校准锚点------没有清单就不知道验什么
8	功能完整性验证	事情本身需要	✅核心	R 维度的核心------声明的功能是否真能跑
9	运行稳定性测试	事情本身需要	✅核心	R 维度的核心------重复执行是否一致
10	异常处理测试	事情本身需要	✅核心	R 维度的核心------边界输入是否容错
11	触发精度评估	事情本身需要	✅核心	A 维度的核心
12	能力边界评估	事情本身需要	✅核心	A 维度的核心
13	输出准确性评估	事情本身需要	✅核心	E 维度的核心
14	内容完整性评估	事情本身需要	✅核心	E 维度的核心
15	开箱即用度评估	事情本身需要	✅核心	E 维度的核心
16	创造力评估	事情本身需要	✅核心	E 维度的核心
17	综合评分	事情本身需要	✅核心	评测的最终输出

统计：✅核心 11 个 / 🔶校准 1 个 / ❌消除 3 个 / ⚡精简 2 个

Step 3：人的局限补偿层消除（R0-03）

消除清单

#	被消除环节	原类型	消除理由
4	文档质量评估（独立环节）	传递	C 维度的文档/结构/披露三项本质上都是对文件结构和内容的静态解析，不需要分三步独立评估
5	结构规范评估（独立环节）	传递	同上，合并到文件解析阶段
6	渐进式披露评估（独立环节）	传递	同上，合并到文件解析阶段

保留清单

#	保留环节	保留理由	类型	重组位置
1	文件解析（扩展）	合并原 4/5/6，一次解析产出全部静态信息	✅核心	T 阶段
2	安全扫描	合规硬约束	⚡校验	T 阶段
3	国内适配检测	合规硬约束	⚡校验	T 阶段
7	功能声明提取	后续验证的校准锚点	🔶校准	T→R 传递
8-10	运行测试群组	R 维度核心	✅核心	R 阶段
11-12	适配评估群组	A 维度核心	✅核心	ACE 阶段
13-16	输出评估群组	E 维度核心	✅核心	ACE 阶段
17	综合评分	最终输出	✅核心	ACE 阶段

Step 4：重整为 IPO 基元链（R0-04）

4.1 命名决策

原框架名称 TRACE（T→R→A→C→E）的精妙之处在于名字本身就是执行顺序。重构后五个维度被重组到三个阶段中，原字母顺序不再对应执行流。因此：

新框架名称 ：T·R·ACE
命名逻辑 ：三个阶段的首字母/首字母组 = T → R → ACE
- T（Phase 1）= Trust --- 静态解析阶段
- R（Phase 2）= Reliability --- 动态验证阶段
- ACE（Phase 3）= Adaptability + Convention + Effectiveness --- 综合判定阶段
名字即流程：T·R·ACE 不仅是五个维度的缩写，更是评测引擎的三阶段流水线

4.2 重构后工作流

形态：简短基元链（3 个基元，基元内并行子步骤）

复制代码

T（静态解析）──校准点──→ R（动态验证）──校准点──→ ACE（综合判定）──校准点──→ 报告

4.3 五维度 → 三阶段映射

原维度	归入阶段	具体子步骤
T（Trust）	T 阶段	安全扫描 + 国内适配检测
R（Reliability）	R 阶段	功能完整性 + 稳定性 + 异常处理
A（Adaptability）	T 阶段（提取） + ACE 阶段（评分）	触发条件提取 → 适配评估
C（Convention）	T 阶段（解析） + ACE 阶段（评分）	文件结构解析 → 规范评估
E（Effectiveness）	R 阶段（采集） + ACE 阶段（评分）	输出样本采集 → 效果评估

4.4 基元详细定义

基元 T：静态解析（Phase 1）

I：Skill 全部文件（SKILL.md、scripts/、references/、assets/）

P（6 个子步骤，可并行执行）：

子步骤	做什么	产出	AI 自治度
T.1 文件树解析	解析目录结构、模块划分、命名规范	结构评分 → C	⬛ 全自动
T.2 内容密度分析	评估文档分层、首次接触体验、详细参考资料组织	披露评分 → C	⬛ 全自动
T.3 文档覆盖度检查	检查使用案例、输入输出样例、最佳实践、反模式、FAQ	文档评分 → C	⬛ 全自动
T.4 安全扫描	静态代码扫描、敏感信息检测、可疑注入检查	安全报告 → T 硬门槛	⬛ 全自动
T.5 国内适配检测	外部依赖可达性、中文交互完整性	适配报告 → T 硬门槛	⬛ 全自动
T.6 功能声明提取	从文档提取 Skill 声明的所有功能点和触发条件	功能清单 + 触发条件 → R 输入 + A 输入	⬛ 全自动

O：T 阶段报告 = {结构评分, 披露评分, 文档评分, 安全报告, 适配报告, 功能清单, 触发条件}

🔶 校准点 1：T.6 功能声明提取完成后------功能清单是 R 阶段动态验证的"靶子"，提取不准确则后续全部白验。人工确认功能清单覆盖度。

T 阶段硬门槛：T.4 安全扫描或 T.5 国内适配检测任一不通过 → 终止评测，不再进入 R 阶段。

基元 R：动态验证（Phase 2）

I：T.O（功能清单 + 触发条件）

P（5 个子步骤，可并行执行）：

子步骤	做什么	产出	AI 自治度
R.1 测试用例生成	基于功能清单自动生成标准测试用例 + 边界用例 + 异常用例	测试用例集	⬛ 全自动
R.2 功能完整性执行	对照功能清单逐项执行，记录通过/失败	功能验证报告	⬛ 全自动
R.3 稳定性执行	同一任务反复执行 N 次，检查结果一致性	稳定性报告	⬛ 全自动
R.4 异常处理执行	输入空值/超长/特殊字符，记录容错行为	异常处理报告	⬛ 全自动
R.5 输出质量采集	收集各测试轮次的输出，供后续评分使用	输出样本集 → ACE 输入	⬛ 全自动

O：R 阶段报告 = {功能验证报告, 稳定性报告, 异常处理报告, 输出样本集}

🔶 校准点 2：R.1 测试用例生成完成后------用例集是否覆盖了功能清单的所有关键场景。人工确认覆盖度。

基元 ACE：综合判定（Phase 3）

I：T.O（结构评分, 披露评分, 文档评分, 触发条件） + R.O（功能验证报告, 稳定性报告, 异常处理报告, 输出样本集）

P（4 个子步骤，可并行执行）：

子步骤	做什么	产出	AI 自治度
ACE.1 R 维度评分	基于功能验证 + 稳定性 + 异常处理，计算 Reliability 得分	R 分	🟨 半自动
ACE.2 A 维度评分	基于触发条件清晰度 + 能力边界描述完整度，计算 Adaptability 得分	A 分	🟨 半自动
ACE.3 C 维度评分	基于 T 阶段的结构 + 披露 + 文档评分，计算 Convention 得分	C 分	🟨 半自动
ACE.4 E 维度评分	基于输出样本集，评估准确性 / 完整性 / 开箱即用度 / 创造力	E 分	🟨 半自动
ACE.5 综合评分	T(准入) + R + A + C + E → T·R·ACE 总分	T·R·ACE 评测报告	⬛ 全自动

O：T·R·ACE 评测报告 = {T 安全报告, R 分, A 分, C 分, E 分, 总分, 维度明细, 改进建议}

🔶 校准点 3：ACE.5 综合评分生成后------评分权重是否合理、各维度得分是否与直觉一致。人工确认评分结果。

4.5 基元间传递关系

复制代码

T.O ──→ R.I（功能清单作为验证靶子）
T.O + R.O ──→ ACE.I（静态解析结果 + 动态验证结果作为评分输入）
ACE.O ──→ T·R·ACE 评测报告（最终交付物）

无需中间文档，无需协调会议。每个基元的输出直接作为下一个基元的输入。

Step 5：重构验证（R0-05）

#	验证项	通过？	说明
1	事情完整性	✅	T/R/A/C/E 五维度全部覆盖，无遗漏
2	补偿层消除	✅	C 维度三个独立评估环节合并为 T 阶段三个并行子步骤
3	校准不丢失	✅	3 个校准点：功能清单确认（T→R）、测试用例覆盖度确认（R 内）、评分结果确认（ACE 内）
4	端到端可执行	✅	AI 评测引擎从输入 Skill 文件到输出 T·R·ACE 报告全程可自动化
5	复杂度回归	✅	17 环节 → 3 基元 15 子步骤（基元内并行），执行时间从 17 步串行降至 3 轮
6	质量守恒	✅	五维度评估内容无丢失，C 维度从 3 个串行环节变为 3 个并行子步骤，评估深度不变
7	合规不跳过	✅	T 维度（安全 + 适配）在 Phase 1 作为硬门槛执行，不通过则终止

Step 6：执行形态选择（R0-06）

选定形态：简短基元链（3 基元串行 + 基元内并行子步骤）

形态	适配？	理由
单步 IPO	❌	评测有明确的静态 → 动态 → 判定三阶段依赖
简短基元链	✅	3 基元，每个基元内部子步骤可并行执行
IPO+人工决策	❌	校准点已嵌入基元内，不需要独立的人工决策基元

执行优化：

T 阶段 6 个子步骤互不依赖 → 并行执行
R 阶段 4 组测试互不依赖 → 并行执行（R.1 生成用例后 R.2/R.3/R.4 可并行）
ACE 阶段 4 个维度评分互不依赖 → 并行执行
实际执行时间 ≈ max(最慢子步骤时间) × 3 轮

四、重构前后对比

维度	重构前（TRACE）	重构后（T·R·ACE）	改善
框架名称	TRACE（纯缩写）	T·R·ACE（名字即流程）	语义升级
环节数	17 个串行环节	3 基元 15 子步骤（基元内并行）	-82% 串行步数
执行顺序	无序 / 并列	T → R → ACE 因果链	结构化
C 维度评估	3 个独立串行环节	3 个并行子步骤（T.1/T.2/T.3）	串行 → 并行
功能声明 → 验证	无显式依赖	T.6 → R 显式传递	校准锚点明确
输出采集 → 评分	隐含在各 E 子环节	R.5 采集 → ACE.4 评分	数据流清晰
测试用例	未定义怎么生成	R.1 自动生成，基于 T.6 功能清单	自动化
校准机制	无	3 个显式校准点	质量可控
硬门槛	无明确终止条件	T 阶段安全/适配不通过则终止	风险前置
执行模式	17 步串行	3 轮并行	效率提升

五、T·R·ACE 框架总结

5.1 一句话定义

T·R·ACE 是 Skillhub 的 Skill 质量自动评测框架------Pass the T · Run the R · Deliver the ACE。

5.2 三阶段流水线

阶段	字母	含义	执行内容	产出	硬门槛
Phase 1	T	Trust	静态解析：安全扫描 + 国内适配 + 文件结构 + 功能提取	T 阶段报告	安全/适配不通过 → 终止
Phase 2	R	Reliability	动态验证：功能完整性 + 稳定性 + 异常处理 + 输出采集	R 阶段报告	---
Phase 3	ACE	A+C+E	综合判定：适配评估 + 规范评估 + 效果评估 + 综合评分	T·R·ACE 评测报告	---

5.3 三个校准点

校准点	位置	校准内容
#1	T → R 交接	功能清单覆盖度确认
#2	R 内部	测试用例覆盖度确认
#3	ACE 内部	综合评分合理性确认

5.4 原 TRACE 用户担忧 → T·R·ACE 评测阶段对应

用户担忧	原维度	T·R·ACE 阶段	评测方式
"不敢用"	T --- Trust	Phase 1：T 静态解析	自动化安全扫描 + 网络适配检测
"不稳定"	R --- Reliability	Phase 2：R 动态验证	自动化多组测试 + 边界用例
"找不到/用错了"	A --- Adaptability	Phase 3：ACE 综合判定	触发条件解析 + 场景匹配分析
"看不懂"	C --- Convention	Phase 3：ACE 综合判定	文件结构 + 文档覆盖度量化
"没用"	E --- Effectiveness	Phase 3：ACE 综合判定	输出质量评估 + 增值创造力分析

Leave a T·R·ACE --- Pass the T · Run the R · Deliver the ACE.