主要参考资料:
SKILL.md: https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md
Claude悄悄更新了Skills生成器,这绝对是一次史诗级升级。 https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA
目录
- [skill-creator SKILL.md文档解读](#skill-creator SKILL.md文档解读)
-
- [1. 核心流程概述](#1. 核心流程概述)
- [2. 与用户的沟通原则](#2. 与用户的沟通原则)
- [3. 编写技能的具体指南](#3. 编写技能的具体指南)
- [4. 测试与定量评估(核心步骤)](#4. 测试与定量评估(核心步骤))
- [5. 描述项触发优化(Advanced)](#5. 描述项触发优化(Advanced))
- [6. 特殊环境适配说明](#6. 特殊环境适配说明)
- [7. 打包与交付](#7. 打包与交付)
skill-creator SKILL.md文档解读
skill-creator的核心功能是引导 AI 如何从零开始创建、修改、测试、优化并打包 Claude 的"技能(Skill)"。
1. 核心流程概述
创建和优化技能遵循一个渐进迭代的闭环流程:
- 明确目标:决定技能要做什么以及大致如何实现。
- 编写草稿:撰写技能的初版内容。
- 运行测试:创建几个测试提示词(Prompts),让带有该技能的 Claude 运行这些测试。
- 评估结果:结合定性(人工查看)与定量(指标评估)方法,并使用内置的 generate_review.py
脚本生成可视化评估页面供用户查看。 - 迭代重写:根据用户反馈和定量基准测试中暴露的缺陷,重写并改进技能。
- 扩大规模:满意后,扩大测试集进行更大规模的验证。
2. 与用户的沟通原则
因材施教:使用该技能的用户群体广泛,从初学终端操作的普通人到资深程序员都有。AI 需要根据上下文的线索调整语言风格。
术语解释:默认情况下,"评估(evaluation)"和"基准(benchmark)"可以直接使用;但遇到 "JSON" 或 "断言(assertion)" 等技术词汇时,除非用户表现出极高的专业度,否则需要先进行简短解释。
3. 编写技能的具体指南
捕获意图与调研
- 在动手前,先明确 4 个问题:技能要能做什么?什么时候触发?预期的输出格式是什么?是否需要设置测试用例?
- 针对有客观标准(如文件转换、数据提取)的技能推荐设置测试用例,主观技能(如写作风格、艺术)则通常不需要。
技能文件的结构与规范 (SKILL.md)
-
name:技能的唯一标识符(小写,用连字符隔开)。
-
description:触发机制的核心。需要写得带有一定的"强迫性"或"推力",以防止 Claude
在实际使用中出现"触发不足"(该用的时候不用)的问题。
-
字数与分层(Progressive Disclosure):
元数据(名称+描述)保持在 ~100 字左右(始终在上下文中)。
技能正文控制在 500 行以内。
超长文档或确定性脚本应放入专门的资源文件夹(references/, scripts/),在正文中做好引导和索引。
-
写作风格
避免使用生硬、机械的指令(如大写的 MUST 或 NEVER)。 多解释"为什么(Why)"。现在的 LLM
足够聪明,理解了意图和背后的逻辑后,比单纯死板地执行命令效果更好。
4. 测试与定量评估(核心步骤)
当生成测试用例后,必须严格执行以下步骤(在同一次对话中连续完成):
- 第一步:并发运行:同时派生两个子 Agent
运行测试,一个是"带有新技能的(With-skill)",另一个是基线对照组(Baseline,无技能或旧技能),以便公平对比。 - 第二步:撰写断言:在等待运行期间,提炼出客观可验证的量化断言(Assertions),用于后续自动评分。
- 第三步:记录数据:捕捉任务完成时的 Token 消耗和耗时(Duration)并保存至 timing.json。
- 第四步:生成评审报告:通过脚本聚合数据,并启动 Web 评审工具(Eval-viewer)。强调:必须在 AI自己评估输入之前,先把评审页面生成出来让用户看。
- 第五步:读取用户反馈:当用户在网页端点击"提交所有评审"后,AI 读取生成的
feedback.json,针对用户不满意的地方进行专项优化。
5. 描述项触发优化(Advanced)
为了让技能的触发更精准,提供了一个描述优化闭环:
- 生成 20 个高质、具象、贴近真实用户的查询作为测试集(10个应该触发,10个作为"近实误导项"不应该触发)。
- 导出 HTML 供用户微调并确认这 20 个测试集。
- 在后台运行自动化训练循环(60% 训练集,40% 测试集),迭代 proposing 并挑选在测试集上表现最好的描述(Best Description),更新至 SKILL.md 中。
6. 特殊环境适配说明
-
Claude.ai 环境
没有子 Agent(无法并行)和浏览器展示环境。
调整:AI 需要自己手动依次执行测试,跳过量化基准测试,并将测试的输出结果、文件下载链接及对比直接在对话框内展示,采用内联(Inline)方式向用户要反馈。跳过描述优化步骤。
-
Cowork 环境
拥有子 Agent,可以并行测试,但没有浏览器显示输出。
调整:生成评估网页时使用 --static 参数输出为静态 HTML 文件,提供链接供用户下载查看。用户提交后会下载一个 feedback.json,AI 需要读取该文件进行下一轮迭代。
7. 打包与交付
如果系统支持 present_files 工具,在技能完全开发好并获得用户认可后,运行打包脚本将整个文件夹打包为 .skill 后缀的文件,交付给用户进行安装。