anthropics skill-creator入门

主要参考资料：

SKILL.md: https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md

Claude悄悄更新了Skills生成器，这绝对是一次史诗级升级。 https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA

[skill-creator SKILL.md文档解读](#skill-creator SKILL.md文档解读)
- [1. 核心流程概述](#1. 核心流程概述)
- [2. 与用户的沟通原则](#2. 与用户的沟通原则)
- [3. 编写技能的具体指南](#3. 编写技能的具体指南)
- [4. 测试与定量评估（核心步骤）](#4. 测试与定量评估（核心步骤）)
- [5. 描述项触发优化（Advanced）](#5. 描述项触发优化（Advanced）)
- [6. 特殊环境适配说明](#6. 特殊环境适配说明)
- [7. 打包与交付](#7. 打包与交付)

skill-creator SKILL.md文档解读

skill-creator的核心功能是引导 AI 如何从零开始创建、修改、测试、优化并打包 Claude 的"技能（Skill）"。

1. 核心流程概述

创建和优化技能遵循一个渐进迭代的闭环流程：

明确目标：决定技能要做什么以及大致如何实现。
编写草稿：撰写技能的初版内容。
运行测试：创建几个测试提示词（Prompts），让带有该技能的 Claude 运行这些测试。
评估结果：结合定性（人工查看）与定量（指标评估）方法，并使用内置的 generate_review.py
脚本生成可视化评估页面供用户查看。
迭代重写：根据用户反馈和定量基准测试中暴露的缺陷，重写并改进技能。
扩大规模：满意后，扩大测试集进行更大规模的验证。

2. 与用户的沟通原则

因材施教：使用该技能的用户群体广泛，从初学终端操作的普通人到资深程序员都有。AI 需要根据上下文的线索调整语言风格。

术语解释：默认情况下，"评估（evaluation）"和"基准（benchmark）"可以直接使用；但遇到 "JSON" 或 "断言（assertion）" 等技术词汇时，除非用户表现出极高的专业度，否则需要先进行简短解释。

3. 编写技能的具体指南

捕获意图与调研

在动手前，先明确 4 个问题：技能要能做什么？什么时候触发？预期的输出格式是什么？是否需要设置测试用例？
针对有客观标准（如文件转换、数据提取）的技能推荐设置测试用例，主观技能（如写作风格、艺术）则通常不需要。

技能文件的结构与规范 (SKILL.md)

name：技能的唯一标识符（小写，用连字符隔开）。
description：触发机制的核心。需要写得带有一定的"强迫性"或"推力"，以防止 Claude

在实际使用中出现"触发不足"（该用的时候不用）的问题。
字数与分层（Progressive Disclosure）：

元数据（名称+描述）保持在 ~100 字左右（始终在上下文中）。

技能正文控制在 500 行以内。

超长文档或确定性脚本应放入专门的资源文件夹（references/, scripts/），在正文中做好引导和索引。
写作风格

避免使用生硬、机械的指令（如大写的 MUST 或 NEVER）。多解释"为什么（Why）"。现在的 LLM

足够聪明，理解了意图和背后的逻辑后，比单纯死板地执行命令效果更好。

4. 测试与定量评估（核心步骤）

当生成测试用例后，必须严格执行以下步骤（在同一次对话中连续完成）：

第一步：并发运行：同时派生两个子 Agent
运行测试，一个是"带有新技能的（With-skill）"，另一个是基线对照组（Baseline，无技能或旧技能），以便公平对比。
第二步：撰写断言：在等待运行期间，提炼出客观可验证的量化断言（Assertions），用于后续自动评分。
第三步：记录数据：捕捉任务完成时的 Token 消耗和耗时（Duration）并保存至 timing.json。
第四步：生成评审报告：通过脚本聚合数据，并启动 Web 评审工具（Eval-viewer）。强调：必须在 AI自己评估输入之前，先把评审页面生成出来让用户看。
第五步：读取用户反馈：当用户在网页端点击"提交所有评审"后，AI 读取生成的
feedback.json，针对用户不满意的地方进行专项优化。

5. 描述项触发优化（Advanced）

为了让技能的触发更精准，提供了一个描述优化闭环：

生成 20 个高质、具象、贴近真实用户的查询作为测试集（10个应该触发，10个作为"近实误导项"不应该触发）。
导出 HTML 供用户微调并确认这 20 个测试集。
在后台运行自动化训练循环（60% 训练集，40% 测试集），迭代 proposing 并挑选在测试集上表现最好的描述（Best Description），更新至 SKILL.md 中。

6. 特殊环境适配说明

Claude.ai 环境

没有子 Agent（无法并行）和浏览器展示环境。

调整：AI 需要自己手动依次执行测试，跳过量化基准测试，并将测试的输出结果、文件下载链接及对比直接在对话框内展示，采用内联（Inline）方式向用户要反馈。跳过描述优化步骤。
Cowork 环境

拥有子 Agent，可以并行测试，但没有浏览器显示输出。

调整：生成评估网页时使用 --static 参数输出为静态 HTML 文件，提供链接供用户下载查看。用户提交后会下载一个 feedback.json，AI 需要读取该文件进行下一轮迭代。

7. 打包与交付

如果系统支持 present_files 工具，在技能完全开发好并获得用户认可后，运行打包脚本将整个文件夹打包为 .skill 后缀的文件，交付给用户进行安装。