Claude Skills:被过度吹嘘的的概念翻新!

原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。

要论写代码最能打的模型,非claude家的莫属。但论其他的,可能就一般了。

10月16日,Anthropic 又开始讲故事了。这次的名字叫 Claude Skills,宣传语是"可定制的专业能力",听起来挺唬人。发布会搞得很隆重,PPT 做得精美,演示流畅,案例动人,仿佛 AI 要上天了。这明显是尝到了MCP当年推出的甜头,想要再复制一波流量。

结果呢?

作为一个写了十几年代码的老油条,我看完之后笑了:Cursor 的 cursorrules 早在一年前就这么玩了,RAG的 Retrieval 早就做了无数实践,你现在告诉我这是创新和颠覆?

说穿了,这就是 RAG(检索增强生成)的一种增强版本。Anthropic 给它包装了个"渐进式披露"的名字,听起来很高级,实际上还是在做检索、匹配、加载这套流程。

本质上,不管是 Tools、MCP、cursorrules 还是 Skills,干的都是同一件事:给模型补充必要的上下文信息。只不过形式不同、名字不同罢了。

大模型优化的三板斧

在揭穿 Claude Skills 之前,咱们先聊聊大模型优化这件事。现在市面上,无非就三招。

第一招是砸钱练模型。说人话就是:烧钱、烧数据、烧算力,让模型天生聪明。好处是一次训练到处能用,推理快。但问题是贵到离谱啊,GPT-4 训练成本超过 1 亿美元,你以为在开玩笑?而且迭代慢,3-6 个月才能更新一次,等得花儿都谢了。知识烙进模型里了,想更新?重新训练吧。这是 GPT-4、Claude 3.5 这些家里有矿的主儿才玩得起的。

第二招是硬塞长上下文。管它三七二十一,把所有信息都塞进去,让模型自己找。这招简单粗暴,工程师喜欢,信息也不会漏掉。这次还是烧钱,不过这次是烧客户的钱了。

第三招是管理上下文。说白了,就是给模型补充必要的上下文信息。不管你叫它 RAG、Tools、MCP、cursorrules 还是 Skills,本质都一样。区别只是管理方式:是全量加载?还是检索匹配?还是智能筛选?

处理这些额外规则和上下文的方式,无外乎两种:元数据管理 (打标签、分类,然后匹配)和检索(语义搜索或数据库查询)。你把 Skills 存在 Markdown 文件里,还是存在数据库里,还是存在向量库里,只不过是换了个形式而已。

说到这你就明白了,第三招的各种变体(RAG、Skills 等),本质上都在做同一件事,只是包装不同。每种方案都有坑,都有问题。

本质上都是在管理上下文

好,现在我们来扒一扒 Claude Skills 到底干了什么,以及它和其他方案的区别在哪。

先说结论:**不管是 Tools、MCP、cursorrules 还是 Skills,本质上都是在给模型补充上下文信息。**区别只是形式和管理方式不同。

当这些额外的规则和上下文信息太多时,能够处理它的技术其实只有一种:先语义化处理前置信息,然后有选择地使用

具体怎么做?处理方式无外乎两种:

第一种:元数据管理。给每个 Skill、Rule、Tool 打上标签、分类、描述,然后根据任务特征去匹配。这就是 Claude Skills 宣称的"渐进式披露"------扫描技能库、自动匹配相关技能、按需加载。听起来高级,但本质就是元数据匹配。当然你也可以分层,把描述越来越细(注意,你的工作量也会越来越多)。

第二种:检索。可以是语义搜索(向量相似度匹配),也可以是精确的数据库搜索(关键词、标签查询)。不管你的 Skills 是存在 Markdown 文件里,还是存在数据库里,还是存在向量库里,只不过是换了个形式而已。底层逻辑都是检索。

所以你看:

  • 传统 RAG:检索(语义搜索或关键词匹配)→ 注入 Context → 调用模型
  • Cursor Rules:元数据管理(全量加载所有规则)→ 塞进 System Prompt → 调用模型
  • Claude Skills:元数据管理(智能匹配)+ 检索(按需加载)→ 注入 Context → 调用模型

看出来了吗?Claude Skills 只是把元数据管理和检索结合了一下,给它起了个新名字叫"渐进式披露"。技术上有优化吗?有一点,比如可以包含可执行代码,减少了一些 token 浪费。算颠覆性创新吗?对不起,谈不上。

那问题来了:既然只是把现有技术组合了一下,为啥要包装成 "Skills"?

答案很简单:为了好卖!

"Custom Instructions" 听起来就是个配置项,没意思。"Rules" 听起来像是在约束我,不爽。但 "Skills"?哇,听起来像我变强了!

你看,技术组合包装成革命性功能,换个名字感觉立马不一样。这是产品经理的胜利,是营销的胜利。

换汤不换药,该踩的坑一个都没少

别以为换了个管理方式就能逃脱,不管你用元数据管理还是检索,核心问题一个都没解决。

先说召回率和精准度的问题。这是所有上下文管理方案的死穴:

  • 全量加载(Cursor Rules):信息完整,但稀释效应严重,模型容易懵
  • 检索匹配(传统 RAG):检索太少漏关键信息,检索太多噪音一堆
  • 智能匹配(Claude Skills):听起来美好,但匹配不准怎么办?该匹配的没匹配上,不该匹配的塞进来了

而且"稀释效应"无论如何都存在。不管你是全量加载,还是智能筛选,只要上下文信息多了,模型表现就会下降。多个 Skills 互相冲突?模型就像精神分裂一样,行为不一致。

这不叫"解决问题",这叫"换个方式踩坑"。

Claude Skills 的按需加载不算创新。而且,这个"按需"到底有多准?如果匹配算法不够聪明,该加载的没加载,不该加载的加载了一堆,那成本优势就没了。而且"扫描技能库 + 自动匹配"本身也要消耗计算资源。

你说 Anthropic 不是有 Prompt Caching 吗,缓存命中便宜 10 倍?首先,其他模型也有。其次,本质上是把 Token 成本转嫁给了计算成本(缓存要钱的,只是你看不见),把成本转嫁给了用户(订阅制你看不到单次账单,但 Anthropic 心里门儿清)。而且缓存策略还得精心设计,不然命中率上不去,钱照样烧。

天下没有免费的午餐,该付的钱一分都少不了。

人家要赚钱,你别当傻子

说实话,从商业角度看,Anthropic 这波操作没毛病。竞争这么激烈,不搞点新名词怎么活?"Skills" 听着就比 "Custom Instructions" 好懂,让用户觉得"只有 Claude 有 Skills",这就成了。"Skills 功能仅限 Pro 用户"------要用?掏钱!OpenAI 也这么干(GPTs)、Google 也这么干(Gems)、微软也这么干(Copilot GPT)。这是行业常规操作,不寒碜。

但作为技术人,咱得保持清醒。

Low 的表现是什么?"卧槽,Claude Skills 太牛了!这是颠覆性的创新啊!我要赶紧把所有项目迁移到 Claude!"看到这种发言,我只能说:兄弟,你该醒醒了。

专业的态度应该是:"哦,又是一个上下文管理的变体。把元数据管理和检索结合了一下,加了智能匹配和渐进式披露。本质上还是在做 RAG 那一套,只是工程上优化了一点。先看看实际效果和成本,测测匹配准确率,再决定用不用。

技术圈最怕什么?概念通货膨胀。明明都是在做上下文管理,非要起一堆新名字;明明是工程优化,包装成"架构革新";明明是参数调整,包装成"算法突破"。

保持独立思考,是技术人的底线。看穿本质,别被营销牵着鼻子走。

曾经的MCP,想绑你上贼船

Anthropic 曾经出了个玩意儿------MCP(Model Context Protocol),配合 Skills 和 Tools,说是要构建"完整的生态"。听起来很美好?咱们看看本质是什么。

MCP 干的事儿就是提供标准化接口,让 Claude 能访问外部资源:数据库、API、文件系统、其他服务。等等,这不就是任何一个 REST API 服务器干的事儿吗?不就是 OpenAI Function Calling 吗?换汤不换药,又是旧酒装新瓶。

Cursor 告诉我们,事情本可以不用这么复杂。Cursor 也能读写文件系统、执行终端命令、调用 LSP、集成 Git、支持多种模型(Claude、GPT-4、Gemini)。重点来了:Cursor 不绑定任何一个模型。它提供了一个完整的 IDE 环境,模型只是其中一个可替换的组件。今天用 Claude,明天换 GPT-4,后天上 Gemini,随便换。这才是健康的架构。

很多公司看到 MCP 后,眼睛都亮了,赶紧开发 MCP Gateway(把其他协议转成 MCP)、MCP Proxy(统一管理 MCP 连接)、MCP Hub(MCP 服务市场)。

6 个月后的真实情况:使用量远低于预期,甚至有点惨淡;Claude 新版本一出,协议又改了,你的代码白写了;OpenAI 的 Function Calling 生态已经很成熟了,用户不愿意换;应用场景有限,看起来像个大型玩具,生产上不可控;公司悄悄把 MCP 相关项目标记为"维护模式"(其实就是放弃了)。

历史总是惊人的相似。还记得 Google Wave 吗?协议设计得多好啊,结果没人用。还记得 SOAP vs REST 吗?复杂的最终输给了简单的。还记得各种区块链联盟链吗?热度过后一地鸡毛,现在连提都不提了。

技术圈最不缺的就是"下一个大事件",但大部分都是昙花一现。工程师的时间很宝贵,别浪费在追风口上。

xjjdog的思考:大模型的未来:别再把它当工具了

现在所有人都在搞 RAG、Skills、MCP,但说白了,都是把大模型当成工具:我有数据 → 喂给模型 → 模型吐结果。工具归工具,数据归数据,两回事。

问题在哪?LLM 对你的数据没有记忆,每次对话都像第一次见面。每次都在"重新认识你",上次说过的事,这次还要再说一遍。知识永远是"外挂"的,不是模型的一部分,只是临时喂进去的。无法真正个性化,你用的和别人用的本质上是同一个模型。

我有个想法,估计厂商们都没想过,或者想过但很难做:大模型应该能实时训练,随着你的使用不断进化。

现在的玩法是:模型(固化死的) + 数据(外挂临时喂)。我说的玩法是:模型(持续进化) = 基座智能(IQ)+ 你的个人知识(数据)。听起来很科幻?其实不是。

具体怎么搞?不是共享一个大模型,而是每个用户有一个独立的模型副本,连LoRA都不是。你用得越多,模型就越懂你。不是靠什么 RAG 检索,而是真正"记住"你。

每次你和模型对话,对话内容被编码,微调你的个人权重,重要知识直接写入神经元,模型逐渐"理解"你的思维方式和工作习惯。用一个月后,模型记住你的项目结构(不用每次都加载进 Context),知道你的编码风格(不用写 .cursorrules),懂你的专业术语(不用每次解释),能预测你的意图(甚至主动给建议)。这才是真正的"个人助理",不是那种每次对话都失忆的傻瓜机器人。

关键问题是怎么把"智力"和"知识"分离开?Base Model 是共享的"智商":推理能力、语言理解、代码生成、通用常识。Personal Layer 是你的专属"知识":你的项目代码和架构、你的工作文档和笔记、你的编码偏好和习惯、你的历史对话和经验。

怎么实现?可能的技术路径有:Mixture of Experts(基座模型 + 你的个人 Expert 模块)、Adapter Layers(基座模型冻结不动,只训练你的 Adapter)、Memory Networks(显式的记忆存储层)、Neural Compression(把你的知识压缩到少量参数里)。

为什么这是通向 AGI 的必经之路?因为 RAG 是死胡同。知识永远在"外面",不是模型的一部分;模型无法对知识进行深度推理,只能表面理解;检索到的知识是"死"的文本,不是"活"的理解。

举个例子你就明白了。RAG 模式下,你问:"项目中 UserService 的设计有问题吗?"AI 检索 UserService 代码,然后分析:"可能有并发问题"。个人化模型呢?你问:"UserService 有问题吗?"AI 说:"你上周提到的并发问题还没解决吧?我注意到你在 OrderService 里也用了类似的模式,建议一起重构。根据你的编码习惯,我已经生成了一个方案,你看看..."

看出区别了吗?RAG 每次对话都像"初次见面",需要重新介绍自己。个人化模型真正"认识你",知道你的过去,理解你的习惯。

技术上能做到吗?现在的障碍是:训练成本高,每个用户都训练一个模型?疯了吧?隐私问题,个人模型怎么管理?放哪?存储问题,几千万用户 × 每人一个模型 = 爆炸。

听起来不可能?其实有办法。现在也有一些尝试,比如 LoRA + 量化,个人层其实只有几 MB,不是整个模型都要存。联邦学习,本地训练你的个人层,云端只管基座模型。边缘计算,个人模型跑在你本地,隐私也解决了。增量学习,不是全量训练,而是持续微调,成本可控。

清醒点,别被忽悠了

回到最开始的问题:Claude Skills 是不是创新?

商业角度:是的,营销很成功,包装很漂亮。

技术角度:算不上颠覆性创新。本质上,Claude Skills 只是 RAG 的一种增强版本,把元数据管理和检索结合了一下。它确实在工程上做了些优化------渐进式披露、智能匹配、可执行代码,这些都是实实在在的改进。

但说到底,不管是 Tools、MCP、cursorrules 还是 Skills,都没有跳出"上下文管理"这个框架。处理方式无外乎两种:元数据管理和检索(不管是语义搜索还是数据库查询,不管存在 Markdown 还是向量库,只是换了个形式)。

核心问题(召回率、精准度、稀释效应、成本)依然存在,只是换了种方式存在。和 Cursor Rules 相比,Claude Skills 更智能了一点,但没有质的飞跃。

给技术人的几句话:

别被营销话术忽悠瘸了,但也别一棒子打死。透过现象看技术原理,认清它们本质上都是在做上下文管理。根据实际需求选工具,别追概念追风口。别把基础设施绑在单一厂商上,哪天坑你你都不知道。真正的创新在"个人化模型",不在上下文管理的第 N 次优化。

大模型的终极形态,不应该是我们不断"喂数据"的工具,而应该是一个真正"理解我们"、随我们一起进化的智能伙伴。

在那一天到来之前,保持清醒,别为每个新概念买单。技术人的价值,在于看穿迷雾,认清本质。


防忽悠检验清单

下次看到新的 AI 功能发布时,先别激动,问自己几个问题:

  • 这是新技术,还是旧技术换了个马甲?
  • 核心问题解决了吗,还是换个形式依然踩坑?
  • 我现有的工具能不能干同样的事儿?
  • 用了这东西会不会被厂商绑死?
  • 6 个月后,还会有人提起它吗?
  • 去掉那些营销话术,真正的技术创新在哪?

如果答案都不理想,那么:恭喜你,又识破了一次"新瓶装旧酒"的骗局。

保持清醒,是技术人的底线。

作者简介:小姐姐味道 (xjjdog),一个不允许程序员走弯路的公众号。聚焦基础架构和AI应用。十年架构,日百亿流量,与你探讨高并发AI世界,给你不一样的味道。我的个人微信xjjdog0,欢迎添加好友,进一步交流。

相关推荐
新青年5795 小时前
Go语言项目打包上线流程
开发语言·后端·golang
陈随易5 小时前
PaddleOCR-VL可太强了,图片识别转文字的巅峰之作
前端·后端·程序员
Ray665 小时前
Delete vs Truncate vs Drop
后端
oak隔壁找我5 小时前
IntelliJ IDEA 超详细使用教程
后端
用户68545375977695 小时前
🚀 设计一个每秒生成百万ID的分布式ID生成器
后端
知其然亦知其所以然5 小时前
一次JPA联表查询,竟让我服务器无限循环崩溃?!
java·后端·spring
我命由我123455 小时前
Spring Cloud - Spring Cloud 负载均衡(Ribbon 负载均衡概述、Ribbon 使用)
java·后端·spring·spring cloud·ribbon·java-ee·负载均衡
xyy1235 小时前
使用 SQLite 实现 CacheHelper
后端
Lear5 小时前
SpringBoot启动流程分析
后端