skill-creator 大更新

今天skill-creator进行了一次大更新,基本上是进行了一次重构,使得 skill 的创建流程更加严谨和完整。

主要更新内容

SKILL.md 文档大幅重构

描述更新:

  • 旧版:Guide for creating effective skills. This skill should be used when
    users want to create a new skill...
  • 新版:Create new skills, modify and improve existing skills, and measure
    skill performance. Use when users want to create a skill from scratch,
    update or optimize an existing skill, run evals to test a skill, benchmark
    skill performance with variance analysis, or optimize a skill's description
    for better triggering accuracy.

新增核心功能:

  • 完整的评估和迭代循环 - 现在支持定量基准测试和定性评估
  • 描述优化 - 自动优化技能描述以提高触发准确度
  • 盲比较系统 - 用于严格评估两个技能版本的质量
  • 平台特定指令 - 针对 Claude.ai、Claude Code 和 Cowork 的不同适配

新增脚本工具

新增脚本 功能
aggregate_benchmark.py 聚合基准测试数据,计算 mean/stddev/min/max
generate_report.py 生成 HTML 报告
improve_description.py 使用 Claude 扩展思考优化技能描述
run_eval.py 运行评估测试
run_loop.py 运行评估+改进循环,支持 train/test split 防止过拟合
utils.py 工具函数

新增 Agent 指令文件

  • agents/analyzer.md - 如何分析为什么一个版本胜过另一个
  • agents/comparator.md - 如何进行盲 A/B 比较
  • agents/grader.md - 如何评估断言与输出

新增评估查看器

  • eval-viewer/generate_review.py - 生成交互式评估查看器
  • eval-viewer/viewer.html - 查看器前端
  • assets/eval_review.html - 用于描述优化的评估审查模板

删除的文件

  • scripts/init_skill.py - 初始化脚本被移除
  • references/workflows.md - 工作流参考被移除
  • references/output-patterns.md - 输出模式参考被移除

新增参考文件

  • references/schemas.md - JSON 结构文档(evals.json, grading.json 等)

核心改进总结

这次更新将 skill-creator 从一个简单的技能创建指南转变为一个完整的技能开发和评估框架,包含:

  1. 自动化测试和评估流程 - 支持并行运行测试、基准测试、盲比较
  2. 描述自动优化 - 使用 Claude 扩展思考自动优化技能描述
  3. 交互式查看器 - 浏览器内审查测试结果和反馈
  4. 防过拟合机制 - train/test split 确保描述优化不只在测试集上有效
  5. 从一个指令式的"如何创建技能"文档,变成了一个完整的"创建、测试、评估、优化"循环框架
相关推荐
花千树-0101 天前
SubAgent 基础:拥有自主工具的子代理
java·langchain·llm·agent·langgraph·subagent·harness
qcx231 天前
【AI Daily】每日AI日报
人工智能·llm·agent·daily
Artech1 天前
[对比学习LangChain和MAF-01]基本编程模式的差异(上篇)
ai·langchain·agent·maf
Swift社区1 天前
当 Agent 可以自主协作:系统如何避免彻底混乱?
人工智能·agent·多智能体
Joseph Cooper1 天前
Claude Code 与 Codex Harness 设计对比:一种加法,一种减法
agent·codex·claudecode·harness
人工智能培训1 天前
解码大语言模型LLM:定义与核心原理解析
大数据·人工智能·机器学习·prompt·agent
悟空码字1 天前
腾讯QClaw 实战:从需求文档到微信小程序代备案网站的完整开发记录
ai·agent·腾讯技术创作特训营s18
BestOrNothing_20151 天前
VS Code 中 Codex 功能详解:登录、IDE上下文、Token窗口、使用额度与重连问题说明
ide·agent·token·vs code·codex·reconnection
七夜zippoe1 天前
JiuwenSwarm30分钟从零创建Swarm skill并发布到Swarm Skills Hub
ai·skill·openjiuwen·jiuwenswarm·swarm skills
Mininglamp_27181 天前
开源端侧 AI Agent 全栈架构解析:Mano-P 模型 + Cider 推理加速 + AFK 自动构建
人工智能·架构·开源·agent·mac·apple silicon·gui agent