anthropics skill-creator入门

主要参考资料:

SKILL.md: https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md

Claude悄悄更新了Skills生成器,这绝对是一次史诗级升级。 https://mp.weixin.qq.com/s/vjMG8i7DwQ7R2B1C4AVQdA

目录

  • [skill-creator SKILL.md文档解读](#skill-creator SKILL.md文档解读)
    • [1. 核心流程概述](#1. 核心流程概述)
    • [2. 与用户的沟通原则](#2. 与用户的沟通原则)
    • [3. 编写技能的具体指南](#3. 编写技能的具体指南)
    • [4. 测试与定量评估(核心步骤)](#4. 测试与定量评估(核心步骤))
    • [5. 描述项触发优化(Advanced)](#5. 描述项触发优化(Advanced))
    • [6. 特殊环境适配说明](#6. 特殊环境适配说明)
    • [7. 打包与交付](#7. 打包与交付)

skill-creator SKILL.md文档解读

skill-creator的核心功能是引导 AI 如何从零开始创建、修改、测试、优化并打包 Claude 的"技能(Skill)"。

1. 核心流程概述

创建和优化技能遵循一个渐进迭代的闭环流程:

  • 明确目标:决定技能要做什么以及大致如何实现。
  • 编写草稿:撰写技能的初版内容。
  • 运行测试:创建几个测试提示词(Prompts),让带有该技能的 Claude 运行这些测试。
  • 评估结果:结合定性(人工查看)与定量(指标评估)方法,并使用内置的 generate_review.py
    脚本生成可视化评估页面供用户查看。
  • 迭代重写:根据用户反馈和定量基准测试中暴露的缺陷,重写并改进技能。
  • 扩大规模:满意后,扩大测试集进行更大规模的验证。

2. 与用户的沟通原则

因材施教:使用该技能的用户群体广泛,从初学终端操作的普通人到资深程序员都有。AI 需要根据上下文的线索调整语言风格。

术语解释:默认情况下,"评估(evaluation)"和"基准(benchmark)"可以直接使用;但遇到 "JSON" 或 "断言(assertion)" 等技术词汇时,除非用户表现出极高的专业度,否则需要先进行简短解释。

3. 编写技能的具体指南

捕获意图与调研

  • 在动手前,先明确 4 个问题:技能要能做什么?什么时候触发?预期的输出格式是什么?是否需要设置测试用例?
  • 针对有客观标准(如文件转换、数据提取)的技能推荐设置测试用例,主观技能(如写作风格、艺术)则通常不需要。

技能文件的结构与规范 (SKILL.md)

  • name:技能的唯一标识符(小写,用连字符隔开)。

  • description:触发机制的核心。需要写得带有一定的"强迫性"或"推力",以防止 Claude

    在实际使用中出现"触发不足"(该用的时候不用)的问题。

  • 字数与分层(Progressive Disclosure):

    元数据(名称+描述)保持在 ~100 字左右(始终在上下文中)。

    技能正文控制在 500 行以内。

    超长文档或确定性脚本应放入专门的资源文件夹(references/, scripts/),在正文中做好引导和索引。

  • 写作风格

    避免使用生硬、机械的指令(如大写的 MUST 或 NEVER)。 多解释"为什么(Why)"。现在的 LLM

    足够聪明,理解了意图和背后的逻辑后,比单纯死板地执行命令效果更好。

4. 测试与定量评估(核心步骤)

当生成测试用例后,必须严格执行以下步骤(在同一次对话中连续完成):

  • 第一步:并发运行:同时派生两个子 Agent
    运行测试,一个是"带有新技能的(With-skill)",另一个是基线对照组(Baseline,无技能或旧技能),以便公平对比。
  • 第二步:撰写断言:在等待运行期间,提炼出客观可验证的量化断言(Assertions),用于后续自动评分。
  • 第三步:记录数据:捕捉任务完成时的 Token 消耗和耗时(Duration)并保存至 timing.json。
  • 第四步:生成评审报告:通过脚本聚合数据,并启动 Web 评审工具(Eval-viewer)。强调:必须在 AI自己评估输入之前,先把评审页面生成出来让用户看。
  • 第五步:读取用户反馈:当用户在网页端点击"提交所有评审"后,AI 读取生成的
    feedback.json,针对用户不满意的地方进行专项优化。

5. 描述项触发优化(Advanced)

为了让技能的触发更精准,提供了一个描述优化闭环:

  1. 生成 20 个高质、具象、贴近真实用户的查询作为测试集(10个应该触发,10个作为"近实误导项"不应该触发)。
  2. 导出 HTML 供用户微调并确认这 20 个测试集。
  3. 在后台运行自动化训练循环(60% 训练集,40% 测试集),迭代 proposing 并挑选在测试集上表现最好的描述(Best Description),更新至 SKILL.md 中。

6. 特殊环境适配说明

  • Claude.ai 环境

    没有子 Agent(无法并行)和浏览器展示环境。

    调整:AI 需要自己手动依次执行测试,跳过量化基准测试,并将测试的输出结果、文件下载链接及对比直接在对话框内展示,采用内联(Inline)方式向用户要反馈。跳过描述优化步骤。

  • Cowork 环境

    拥有子 Agent,可以并行测试,但没有浏览器显示输出。

    调整:生成评估网页时使用 --static 参数输出为静态 HTML 文件,提供链接供用户下载查看。用户提交后会下载一个 feedback.json,AI 需要读取该文件进行下一轮迭代。

7. 打包与交付

如果系统支持 present_files 工具,在技能完全开发好并获得用户认可后,运行打包脚本将整个文件夹打包为 .skill 后缀的文件,交付给用户进行安装。

相关推荐
石小石Orz1 小时前
AI具身交互:实现一个会说话的3D虚拟伴侣
前端·人工智能·后端
恋猫de小郭2 小时前
如何让 AI 快速搭建一套生产 Agent ?全面理解 Agent 架构。
前端·人工智能·ai编程
aneasystone本尊3 小时前
学习 turbovec 的量化算法
人工智能
九酒13 小时前
AI Agent 开发踩坑记:口播功能非得用 APP 原生实现吗?
前端·人工智能·agent
蝎子莱莱爱打怪13 小时前
DSpark 讲透:DeepSeek 不换模型,硬把 V4 提速 85%,是怎么做到的?
人工智能·面试·程序员
巫山老妖14 小时前
置身AI内
人工智能
IT_陈寒16 小时前
JavaScript项目实战经验分享
前端·人工智能·后端
vanuan17 小时前
两个AI智能体第一次对话-A2A双Agent协作实战
人工智能
kfaino19 小时前
码农的AI翻身(四)你好,我叫 Attention
人工智能·后端