anthropics skill-creator入门

主要参考资料:

SKILL.md: https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md

Claude悄悄更新了Skills生成器,这绝对是一次史诗级升级。 https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA

目录

  • [skill-creator SKILL.md文档解读](#skill-creator SKILL.md文档解读)
    • [1. 核心流程概述](#1. 核心流程概述)
    • [2. 与用户的沟通原则](#2. 与用户的沟通原则)
    • [3. 编写技能的具体指南](#3. 编写技能的具体指南)
    • [4. 测试与定量评估(核心步骤)](#4. 测试与定量评估(核心步骤))
    • [5. 描述项触发优化(Advanced)](#5. 描述项触发优化(Advanced))
    • [6. 特殊环境适配说明](#6. 特殊环境适配说明)
    • [7. 打包与交付](#7. 打包与交付)

skill-creator SKILL.md文档解读

skill-creator的核心功能是引导 AI 如何从零开始创建、修改、测试、优化并打包 Claude 的"技能(Skill)"。

1. 核心流程概述

创建和优化技能遵循一个渐进迭代的闭环流程:

  • 明确目标:决定技能要做什么以及大致如何实现。
  • 编写草稿:撰写技能的初版内容。
  • 运行测试:创建几个测试提示词(Prompts),让带有该技能的 Claude 运行这些测试。
  • 评估结果:结合定性(人工查看)与定量(指标评估)方法,并使用内置的 generate_review.py
    脚本生成可视化评估页面供用户查看。
  • 迭代重写:根据用户反馈和定量基准测试中暴露的缺陷,重写并改进技能。
  • 扩大规模:满意后,扩大测试集进行更大规模的验证。

2. 与用户的沟通原则

因材施教:使用该技能的用户群体广泛,从初学终端操作的普通人到资深程序员都有。AI 需要根据上下文的线索调整语言风格。

术语解释:默认情况下,"评估(evaluation)"和"基准(benchmark)"可以直接使用;但遇到 "JSON" 或 "断言(assertion)" 等技术词汇时,除非用户表现出极高的专业度,否则需要先进行简短解释。

3. 编写技能的具体指南

捕获意图与调研

  • 在动手前,先明确 4 个问题:技能要能做什么?什么时候触发?预期的输出格式是什么?是否需要设置测试用例?
  • 针对有客观标准(如文件转换、数据提取)的技能推荐设置测试用例,主观技能(如写作风格、艺术)则通常不需要。

技能文件的结构与规范 (SKILL.md)

  • name:技能的唯一标识符(小写,用连字符隔开)。

  • description:触发机制的核心。需要写得带有一定的"强迫性"或"推力",以防止 Claude

    在实际使用中出现"触发不足"(该用的时候不用)的问题。

  • 字数与分层(Progressive Disclosure):

    元数据(名称+描述)保持在 ~100 字左右(始终在上下文中)。

    技能正文控制在 500 行以内。

    超长文档或确定性脚本应放入专门的资源文件夹(references/, scripts/),在正文中做好引导和索引。

  • 写作风格

    避免使用生硬、机械的指令(如大写的 MUST 或 NEVER)。 多解释"为什么(Why)"。现在的 LLM

    足够聪明,理解了意图和背后的逻辑后,比单纯死板地执行命令效果更好。

4. 测试与定量评估(核心步骤)

当生成测试用例后,必须严格执行以下步骤(在同一次对话中连续完成):

  • 第一步:并发运行:同时派生两个子 Agent
    运行测试,一个是"带有新技能的(With-skill)",另一个是基线对照组(Baseline,无技能或旧技能),以便公平对比。
  • 第二步:撰写断言:在等待运行期间,提炼出客观可验证的量化断言(Assertions),用于后续自动评分。
  • 第三步:记录数据:捕捉任务完成时的 Token 消耗和耗时(Duration)并保存至 timing.json。
  • 第四步:生成评审报告:通过脚本聚合数据,并启动 Web 评审工具(Eval-viewer)。强调:必须在 AI自己评估输入之前,先把评审页面生成出来让用户看。
  • 第五步:读取用户反馈:当用户在网页端点击"提交所有评审"后,AI 读取生成的
    feedback.json,针对用户不满意的地方进行专项优化。

5. 描述项触发优化(Advanced)

为了让技能的触发更精准,提供了一个描述优化闭环:

  1. 生成 20 个高质、具象、贴近真实用户的查询作为测试集(10个应该触发,10个作为"近实误导项"不应该触发)。
  2. 导出 HTML 供用户微调并确认这 20 个测试集。
  3. 在后台运行自动化训练循环(60% 训练集,40% 测试集),迭代 proposing 并挑选在测试集上表现最好的描述(Best Description),更新至 SKILL.md 中。

6. 特殊环境适配说明

  • Claude.ai 环境

    没有子 Agent(无法并行)和浏览器展示环境。

    调整:AI 需要自己手动依次执行测试,跳过量化基准测试,并将测试的输出结果、文件下载链接及对比直接在对话框内展示,采用内联(Inline)方式向用户要反馈。跳过描述优化步骤。

  • Cowork 环境

    拥有子 Agent,可以并行测试,但没有浏览器显示输出。

    调整:生成评估网页时使用 --static 参数输出为静态 HTML 文件,提供链接供用户下载查看。用户提交后会下载一个 feedback.json,AI 需要读取该文件进行下一轮迭代。

7. 打包与交付

如果系统支持 present_files 工具,在技能完全开发好并获得用户认可后,运行打包脚本将整个文件夹打包为 .skill 后缀的文件,交付给用户进行安装。

相关推荐
攻城狮7号1 小时前
ChatGPT 全新 Dreaming 记忆系统详解
人工智能·chatgpt·dreaming 记忆系统·dreaming v3
m0_571186601 小时前
第四十九周周报
人工智能
腾讯云开发者1 小时前
从低谷到暴增 312.8%,增长背后的算法革命|专访中顺洁柔杨森林
人工智能
千云2 小时前
ClaudeCode Skill生成教学培训文档,助力新人快速学习项目
人工智能·后端·ai编程
不爱土豆唯爱马铃薯2 小时前
MC-026 | 实战·用MonkeyCode开发论文辅助工具
人工智能
程序员cxuan2 小时前
姚顺雨这次访谈,腾讯终于把 AI 下半场讲明白了
人工智能·后端·程序员
甲维斯3 小时前
Claude Code中文界面版更一波!又改了5000+行!
人工智能·ai编程
腾讯云开发者3 小时前
从前沿洞见到落地实践:腾讯云TVP布道澳门,燃动AI Agent新思潮
人工智能
雪隐3 小时前
个人电脑玩AI-02让5060 Ti给你打工——Whisper语音识别篇(下)
人工智能·后端