今天skill-creator进行了一次大更新,基本上是进行了一次重构,使得 skill 的创建流程更加严谨和完整。
主要更新内容
SKILL.md 文档大幅重构
描述更新:
- 旧版:Guide for creating effective skills. This skill should be used when
users want to create a new skill... - 新版:Create new skills, modify and improve existing skills, and measure
skill performance. Use when users want to create a skill from scratch,
update or optimize an existing skill, run evals to test a skill, benchmark
skill performance with variance analysis, or optimize a skill's description
for better triggering accuracy.
新增核心功能:
- 完整的评估和迭代循环 - 现在支持定量基准测试和定性评估
- 描述优化 - 自动优化技能描述以提高触发准确度
- 盲比较系统 - 用于严格评估两个技能版本的质量
- 平台特定指令 - 针对 Claude.ai、Claude Code 和 Cowork 的不同适配
新增脚本工具
| 新增脚本 | 功能 |
|---|---|
| aggregate_benchmark.py | 聚合基准测试数据,计算 mean/stddev/min/max |
| generate_report.py | 生成 HTML 报告 |
| improve_description.py | 使用 Claude 扩展思考优化技能描述 |
| run_eval.py | 运行评估测试 |
| run_loop.py | 运行评估+改进循环,支持 train/test split 防止过拟合 |
| utils.py | 工具函数 |
新增 Agent 指令文件
- agents/analyzer.md - 如何分析为什么一个版本胜过另一个
- agents/comparator.md - 如何进行盲 A/B 比较
- agents/grader.md - 如何评估断言与输出
新增评估查看器
- eval-viewer/generate_review.py - 生成交互式评估查看器
- eval-viewer/viewer.html - 查看器前端
- assets/eval_review.html - 用于描述优化的评估审查模板
删除的文件
- scripts/init_skill.py - 初始化脚本被移除
- references/workflows.md - 工作流参考被移除
- references/output-patterns.md - 输出模式参考被移除
新增参考文件
- references/schemas.md - JSON 结构文档(evals.json, grading.json 等)
核心改进总结
这次更新将 skill-creator 从一个简单的技能创建指南转变为一个完整的技能开发和评估框架,包含:
- 自动化测试和评估流程 - 支持并行运行测试、基准测试、盲比较
- 描述自动优化 - 使用 Claude 扩展思考自动优化技能描述
- 交互式查看器 - 浏览器内审查测试结果和反馈
- 防过拟合机制 - train/test split 确保描述优化不只在测试集上有效
- 从一个指令式的"如何创建技能"文档,变成了一个完整的"创建、测试、评估、优化"循环框架