龙虾装了几百Skill搜不到还冲突?Claude Code官方新版 Skill Creator一键优化!

OpenClaw这只小龙虾火了,在各个大厂推广自家小龙虾产品之后,简直火出天际。

ClawHub上万个Skill随便装,看着好就往下灌。 老金我看群里聊天,用了一段时间的人,Skill数量轻松大几百,卷的直接上千。

Claude Code这边也一样。 Anthropic(就是做Claude的那家公司)官方Skill仓库在涨。 社区造的Skill也在爆发,装Skill的门槛已经低到一句话的事了。

但老金我想问你一个问题。

这几百上千个Skill里面,你测过哪个是真有用的吗?

没测过。你也不知道怎么测。

装了一个代码审查Skill,Review出来的结果跟不装比到底差多少? 装了一个写作辅助Skill,写出来的东西跟裸写比到底强在哪?

没有对比数据,全凭 我觉得好像好了一点。

这不是工程,这是玄学。 还有一个更头疼的问题------触发词打架。

10个Skill的时候偶尔碰到。 100个的时候天天碰到。 800个的时候,每条指令都在碰。

你说"帮我看看这段代码"。 代码审查Skill跳出来,调试Skill也跳出来,安全审查Skill也想插一脚。 到底谁接?看运气。

"帮我优化一下"。 重构Skill、性能Skill、代码审查Skill三个抢。 你说的优化到底是哪种优化? AI猜不准,你也没法指定。

Skill装得越多,这两个问题越严重。 这不是偶发情况,是必然。

这周发现Skill Creator更新了。 跑了一轮,这两个问题都解决了。

先说新老版本差在哪,再说具体怎么用。

新老版本对比:从手工作坊到质量工程

先列清楚。

旧版Skill Creator能干什么? 你描述需求,它帮你生成SKILL.md。 就这样。 没了。

生成完之后好不好用?它不管。 触发词准不准?它不管。 Skill有没有起到实际作用?它也不管。

相当于给了你一把刀,至于切菜还是切手,自求多福。

新版加了什么?

一句话总结:旧版帮你造Skill,新版帮你造+测+改Skill。

Skill越多,这个测+改的能力就越值钱。 10个Skill的时候你还能手动调,800个的时候你调得过来吗?

Skill能自测了,这是最大的变化

这个功能让老金我跑完之后直接拍大腿。

以前怎么测Skill? 打开Claude Code,输入一个测试指令,看看输出像不像回事。 测了觉得还行,换个指令再试。

一轮下来花半小时,结论是感觉还可以。。。

但问题来了。 第一次跑得好,你以为是Skill的功劳。 第二次换个场景就拉了。

后来才发现,第一次之所以好,是 前面的对话给了太多上下文提示。 Skill本身没起多大作用。

你甚至不知道自己被骗了。

新版Skill Creator的评估机制是这样的。

首先它读你的SKILL.md,理解核心功能。 然后自动设计测试场景。 不是一个,是多个,覆盖各种使用情况。

每个场景都配了量化验收标准。 不是看起来不错,是硬指标。

然后关键的来了。 它启动多个独立子代理(就是独立运行的AI分身),每个在干净环境里跑。

装了Skill跑一遍,不装Skill跑一遍。 两组数据放一起看。

干净环境意味着白纸一张,没有历史对话的污染。 结果是Skill的功劳,就是功劳;不是,就是不是。

跑完直接出量化报告。

老金我跑完一轮,发现了一个之前完全没注意的问题。 在特定场景下,Skill里有个环节偶尔会被跳过。 这种bug靠人工测根本找不到。

评估系统帮我揪出来了。 改完再跑一遍,通过率从85%直接飙到97%!!

你装了几百个Skill? 一个一个跑一遍,心里就有数了。 哪些是真有用,哪些是心理安慰,数据说了算。

触发词不打架了

回到第二个问题。 Skill多了,触发词必然打架。

想象一下你装了三个相关Skill:

arduino 复制代码
代码审查、安全审查、调试修复。

"帮我看看这段代码"触发谁?
三个都觉得是自己的活。

再比如写作类的几个Skill:

arduino 复制代码
内容生成、文案润色、翻译改写。

"帮我改一下这段话"------谁接?
都能接,但结果完全不一样。

以前怎么调? 凭感觉改 description (Skill的功能描述文字)里的措辞。 改完手动测几条,觉得好像对了,上线。

过两天又碰到一个边界情况翻车了。 再改,再测,再翻车。。。 循环往复。

Skill越多,这个循环越痛苦。 10个的时候还能忍,几百个的时候直接摆烂。

新版的触发优化流程完全不一样。

第一步,自动生成20条测试指令。 一半是应该触发你这个Skill的,一半是不应该触发的。 重点是那些模棱两可的边界情况。

比如"帮我分析一下这段代码的问题"------到底该不该触发?

第二步,弹出一个HTML页面让你逐条确认。 觉得它判断错了直接改。 这一步保证了评测数据的质量------你说了算,不是AI猜。

第三步,数据集按60/40拆成训练集和测试集。 用训练集跑优化,用测试集验证效果。 最多5轮迭代,每轮自动微调description措辞。

为什么要拆训练集和测试集? 防止过拟合(在已知数据上表现好,遇到新数据就翻车)。

用全部数据优化,结果可能只在这20条上好看。 拆开验证才能保证效果是真的泛化了,不是背答案。

跑了一次(Skill Creator评估报告数据)。 优化前边界场景触发准确率70%。 优化后92%。

跑完直接把最优版本覆盖回你的SKILL.md。 全程不碰一行代码。

Skill越多的人,这个功能越救命。

如果对你有帮助,记得关注一波~

Claude Code怎么用

分两步:更新Skill Creator,然后跑评估。

第一步:安装/更新Skill Creator 打开Claude Code,说一句:

ruby 复制代码
从 https://github.com/anthropics/skills/tree/main/skills/skill-creator 拉取最新版skill-creator,覆盖本地 .claude/skills/skill-creator/ 目录,完成后确认版本信息。

它自己去GitHub拉最新代码,30秒搞定。

一个细节: 最新版跑触发词优化时不再需要单独配ANTHROPIC_API_KEY了。 以前你得去Anthropic官网申请API Key才能用这个功能。 现在直接用Claude Code自带的就行。

第二步:跑Skill评估 安装完之后,对着Claude Code说:

复制代码
用Skill Creator评估一下我的xxx Skill

它会自动读你的SKILL.md,设计测试场景。 启动子代理跑装了Skill和没装Skill的对比测试。 跑完给你量化报告+盲比较打分。

这是他的判断标准。

结果如下,我找了个一直没咋关注的数据分析技能:

不看不知道,一看吓一跳,居然问题还不少:

完成后的修复报告:

然后如果你想优化触发词,说:

复制代码
用Skill Creator优化xxx Skill的触发词

它会生成测试指令,弹出HTML页面让你确认。 然后自动跑60/40训练测试集迭代。 跑完把最优版本直接覆盖回SKILL.md

全程不碰一行代码。 等着完成就行了,啥也不用管。

OpenClaw用户怎么办

先说清楚一个事实。

OpenClaw的ClawHub上有skill-test和skill-evaluator。 名字看着像,但跟Skill Creator不是一回事。

skill-test能在沙盒里隔离跑一遍你的Skill,确认它能不能正常工作。 skill-evaluator能从25个维度检查你的Skill格式有没有问题。

但它们都做不到最关键的一件事:装了Skill和没装Skill两组对比跑。

Skill Creator测的是疗效------这个Skill到底让输出变好了多少。 OpenClaw那边测的是出厂检验------格式对不对、能不能跑。

一个回答有没有用,一个回答能不能用。 完全不是一个层级的问题。

触发词自动优化?OpenClaw目前没有 = =

所以老金我的建议是:直接从Claude Code学。 好消息是两边的SKILL.md格式通用,格式相同。

具体路径: 第一步,装Claude Code和Skill Creator。 前面写了怎么装,30秒的事。

第二步,把你想测的OpenClaw Skill的SKILL.md复制到Claude Code。 放在 .claude/skills/ 目录下就行。 格式兼容,直接能认。

第三步,用Skill Creator跑评估和触发优化。

第四步,把优化好的SKILL.md复制回OpenClaw那边。 注意一个细节。

OpenClaw的Skill是会话启动时加载的,改了之后得重启会话才生效。 这点跟Claude Code的热重载不一样。

一份Skill两边跑,评估优化在Claude Code做,日常使用哪边顺手用哪边。

说几个限制

Skill Creator不是万能的,有几个边界要说清楚。

评估依赖测试场景的设计质量。 场景设计得太简单,好Skill和差Skill的差距就测不出来。

触发优化有上限。 如果两个Skill的功能本身就高度重叠,再怎么调description也分不开。 这种情况该合并就合并,别硬分。

另外,评估跑一次要消耗不少token。 几百个Skill逐个跑一遍,成本不低。 建议先挑最常用的20个跑,不用一口气全上。

老金的建议

如果你Skill不多,十几二十个 先跑一遍评估。 看看通过率多少、跟不装Skill比差距多大。 数据不好看就让Skill Creator帮你迭代改进。

如果你Skill几百上千个 优先跑触发优化。 Skill多了触发冲突是最致命的问题。 自动优化+train/test拆分,比手动调靠谱太多。

如果你主要用OpenClaw Skill Creator目前是Claude Code独有的。 但SKILL.md格式通用,可以在Claude Code里跑完优化再同步回去。 多一步操作,但效果差距是质变级别的。

两组数据放在这(均来自Skill Creator评估报告): 触发准确率从70%到92%,通过率从85%到97%。

Skill这个生态在爆发。 OpenClaw的ClawHub,Claude Code的官方仓库,社区第三方。

Skill越来越多,但好不好用、该不该用,以前没有工具能告诉你。

现在有了。

以前写代码靠手感,后来有了单元测试,没人再敢裸奔上线。 现在造Skill也一样。 Skill Creator这次更新,本质上就是给Skill开发加了一套单元测试。

装Skill的人多的是。 但测过Skill到底有没有用的人,不多。


往期推荐:

AI编程教程列表 提示词工工程(Prompt Engineering) LLMOPS(大语言模运维平台) AI绘画教程列表 WX机器人教程列表

开源知识库地址(实时更新交流群): tffyvtlai4.feishu.cn/wiki/OhQ8wq...

Claude Code & Openclaw 双顶流全中文从零开始的教程:不懂代码照样造网站,老金15万字Claude Code+OpenClaw教程免费开源

我的小破站(含我开源的项目):www.aiking.dev/


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。 我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。 我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。 如果觉得不错,随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

相关推荐
执行部之龙2 小时前
AI检索工具项目话术
人工智能
沪漂阿龙2 小时前
词向量做句子相似度已经落伍?深度解析词移距离(WMD)为何能成为语义匹配新宠!
人工智能
程序猫A建仔2 小时前
【AI智能体】——OpenClaw(龙虾)深度研究分享(一)功能架构解读+部署全流程
人工智能·al
敲敲敲敲暴你脑袋2 小时前
穷鬼快乐AI工具Ollama
javascript·人工智能·ollama
Struart_R2 小时前
Spann3R、MUSt3R、CUT3R、TTT3R论文解读
人工智能·计算机视觉·3d·三维重建·前馈模型
大鹏的NLP博客2 小时前
工业级时间序列利器之一:深入解析 TCN 及其注意力增强实现
人工智能·深度学习
xier_ran2 小时前
【第二周】 RAG与Agent实战16:ChatPromptTemplate的使用 —— 打造有记忆的AI
人工智能·langchain·rag
测试_AI_一辰2 小时前
AI系统测试:LLM 在系统中负责什么,怎么测试?
人工智能·功能测试·ai·ai编程
软件资深者2 小时前
Coze自动化工作流+Agent智能体实战教程(0基础入门,附多场景实操)
运维·人工智能·ai·自动化·工作流·扣子·课程