你知道不,你现在给 AI 用的 Agent Skills 可能毫无作用,甚至还拖后腿?

最近,一篇名为 《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》 的论文提出了一个很有意思的观点:自生成的 Agnet Skills 毫无用处

要知道 2025 年底到 2026,在 AI 领域 Skills 自从被提出来后可以说是风头无二,大量 Skills 开始充斥社区,Skills 的低门槛也让它快速发展 ,特别是在 OpenClaw 领域,单是官方注册的 ClawHub 的 Skills 就已经有 7800+ ,但是它们真的有用吗?

这篇论文(arXiv:2602.12670,SkillsBench)在一个专门为「技能是否真的有用」设计的基准上,得到了一个系统性结论:让模型自己写一套"技能/流程指南",平均并不能提高成功率,甚至略微下降

首先我们要明确一个基础点,那么就是 Agent Skill 是什么?这里他们把 Agent Skill 定义成一种结构化的"程序性知识包" ,用于在推理/执行时增强 Agent:

通常是一个文件夹,里面有 SKILL.md(流程/操作步骤) ,以及可选的脚本、模板、参考资料、示例等,核心特征是「怎么做」,而不是「是什么」。

同时论文也明确区分:Skill 不等于普通系统提示词、不等于 few-shot、不等于 RAG 检索、不等于纯工具文档,Skill 更强调可复用的工作流/SOP + 结构化资源,而针对测试场景,论文也区分了 Curated Skills 和 Self-generated Skills:

  • Curated Skills : 提前设计好的、结构化的"操作指南 + 资源包","能落地执行"的 SOP
  • Self-generated Skills :模型自己写的技能,比如给模型一个任务,要求它先"写一个技能文件",然后再用自己写的技能去做任务

而 SkillsBench 这个 benchmark 做了一个基准:84 个任务、11 个领域 ,每个任务都有确定性验证场景(跑脚本/单测,给出 pass/fail),并且同一个任务在三种条件下对比:

  • No Skills :只有任务说明 instruction.md,环境里没有 skills
  • With Skills(Curated Skills) :提供专业写好的完整详细技能包(包含步骤、示例、脚本等)
  • Self-Generated Skills :不给技能包,但要求模型先自己生成"技能文件" 再做任务,用来隔离"模型自身潜在知识"能不能替代人类技能。

整个 Benchmark 它分成三大阶段:Benchmark Construction 、 Quality Filtering、 Evaluation。

其中 Benchmark Construction 的核心是 Skill 生态收集 ,包括:

  • 开源仓库 12,847
  • Claude Code 生态 28,412
  • 企业伙伴 5,891

总计汇聚后,通过去重得到 47,150 unique skills ,有 322 位贡献者 提交 105 个候选任务

而 Quality Filtering 是把 105 个候选任务筛成最终基准任务,包括:

  • 自动化检查

    • Structure(结构有效性)
    • Oracle 100%(验证器能稳定得到 100% 正确结果)
    • AI Detection(检测任务是不是 AI 生成的水任务)
    • Leakage Audit(泄漏审计:防止 skills 里直接塞答案/作弊路径)
  • 人工审查

    • Data Validity(数据有效)
    • Task Realism(任务真实)
    • Oracle Quality(验证器质量)
    • Skill Quality(配套技能质量)
    • Anti-Cheating(防作弊)

最终产出:84 个任务,覆盖 11 个领域

在 Evaluation 阶段的同一批任务,会在三种场景下运行,同时用三套商业 harness 执行(Claude Code / Gemini CLI / Codex CLI),结果用 pytest 等确定性验证器给出 Pass/Fail

  • 总共跑了 7 个 agent-model 配置 ,得到 7,308 条轨迹

而对于任务,是用人类完成时间作为难度来变为:

  • Core :17 个任务(19.8%),人类完成时间 < 60 min
  • Extended :43 个任务(50.0%),人类完成时间 1--4 hours
  • Extreme :26 个任务(30.2%),人类完成时间 > 4 hours

所以从整个配置可以看出来:

  • 这个测试不是"手工写了几十个 demo",而是从真实生态里抽样出一个很大的技能池 + 真实贡献者任务池
  • 这个 benchmark 的难点不在「写题」,而在「确保题靠谱、可验证、不可投机取巧」
  • 测的是「能不能真的做对并通过测试」,不是主观打分,也不是看起来像对

所以整个论文测试,不是只测「加一点上下文有没有用」,而是测「真实世界里那种 skill 」到底能不能稳定带来收益,根据测试结果:

  • No Skills : 平均通过率:24.3%
  • Curated Skills :平均通过率:40.6%,g 的均值 21.5
  • Self-generated Skills:平均通过率:21.0%,对应 g 的均值是 -1.8

可以看到,在 Self-generated Skills 场景,除了 Claude Code Opus 4.6 有略微作用,其他都普遍下降

另外论文作者也总结了,对比 no-Skills :

  • Self-generated Skills 的平均收益是 --1.3pp ,除了 Opus 4.6 有 +1.4pp ,Codex + GPT-5.2 甚至出现了 --5.6pp
  • 而 Curated Skills 的平均收益则是 +16.2pp,但效果差异很大, 84 个任务里有 16 个任务出现负向 delta

论文把 Self-generated Skills 失败总结为:模型不能可靠地"写出"自己在执行时真正会受益的程序性知识,因此"自生成"平均没有收益,这也是可以理解,目前的 AI 存在概率支持,效果和产出都看它当时的"心情",论文把 self-generated 失败归因到一个很现实的点:

模型不能可靠地"写出"自己在执行时真正会受益的程序性知识

说人话就是:模型「会做」但「不会写出可复用的程序性知识」,更具体,论文通过轨迹分析提了两个典型失败模式:

  • 知道需要领域知识,但写出来太泛/不完整,比如只写「用 pandas 处理数据」,却不给关键 API 模式、坑点、验证方法、边界条件,导致对实际任务没有可执行指导意义。
  • 高领域知识任务里,干脆没意识到需要专门技能,在制造、金融等任务上,模型常用"通用解法"硬莽,错过了需要 SOP/行业流程的关键步骤。

总结起来就是: self-gen 往往生成的是"看起来像指南的废话",或者压根没抓住应该写什么。

到这里,可能有人会好奇,为什么会有 self-generated 这种用法?什么场景会有人让 AI 自己写 Skills ?实际上这种场景还很多,现在很多 Skills 就是懒人直接让 AI 写的,而更典型的代表,是 Claudeception 这种:

Claudeception 类似于让 Skills 自进化,它会让大模型在使用 Skills 的过程中,把你的踩坑经验自动又变成Skills ,把解决过程里真正有价值的经验,自动提炼成一条可复用的Skill 。

所以 Claudeception 的使用场景就无比贴合这个 SkillsBench ,也就是让 AI 长时间维护和迭代 Skill 是否可靠?目前这篇论文给出的结论是:并不可靠

而对于专业人士写出来的 Curated Skills,通常包括:

  • 明确步骤顺序
  • 工具/命令模板
  • 数据格式约束
  • 验证检查点
  • 常见错误与修复路径

特别是 Curated Skills 包含有领域特定知识,比如在 failure analysis 里作者就说过 Self-generated 常见问题是:

  • 没意识到某些任务需要专门领域流程
  • 写出的步骤过于通用

另外,除了"self-gen 不行",论文还做了技能设计因素分析:

  • 技能数量 2--3 个模块最好 ,太多反而拖累,按任务提供的 skill 数量分组 2--3 skills 的提升最大(+18.6pp) ,4 个以上提升很小,甚至可能带来认知负担/冲突

  • 技能"文档复杂度"上,聚焦型胜过"大全型" ,论文把把 Skills 文档分成 detailed/compact/standard/comprehensive,结果是:

    • detailed、compact 提升更大
    • comprehensive("把所有东西都塞进去"那种)平均还降低了(-2.9pp)

所以技能不是越长越好,而是要把 agent 下一步要做什么写清楚(含检查点、命令模板、失败回滚),否则就是噪声。

所以,通过这篇论文可以总结,Agnet Skills 不是几句简单的提示词,系统的的技能包确实能增强 Agent,但是目前 AI 自己维护的 Self-generated Skills 几乎没用,甚至还会拉低效果 ,关键原因是模型很难稳定写出真正可执行、降低搜索空间的程序性知识,同时技能设计比数量也狠重要,技能不是越多越好,也不是越详细越好。

总的来就是,高质量技能 = 搜索空间压缩器 ,它可以限定决策路径、减少无效探索、提供验证锚点和显式化领域隐性流程,这才是 Skills 能推高 Pareto frontier 的原因,所以,你需要避免百科式技能,它可能带来的更多的噪音。

所以,如果你发现 Skill 用多了,Agent 反而傻了,不要怀疑,是你的 Skill 给你的 Agent 掺了屎。

相关推荐
Zzz 小生2 小时前
LangChain models:模型使用完全指南
人工智能·深度学习·机器学习
大力财经2 小时前
京东“月黑风高”超级盛典开放预约
人工智能
programhelp_2 小时前
特斯拉 MLE 超详细面经 + 避坑
数据结构·人工智能·算法·面试·职场和发展
用户600071819103 小时前
【翻译】用生成器实现可续充队列
前端
少云清3 小时前
【UI自动化测试】4_web自动化测试 _元素定位(重点)
前端·web前端自动化
躺柒3 小时前
读人工智能全球格局:未来趋势与中国位势06人类的未来(下)
大数据·人工智能·算法·ai·智能
若丶相见3 小时前
腾讯云完整部署方案:CODING + CI/CD + Docker + Nginx + K8s 扩展
前端·后端
gorgeous(๑>؂<๑)3 小时前
【ICLR26-Oral Paper-Meta】DepthLM:基于视觉语言模型的度量深度
人工智能·计算机视觉·语言模型·自然语言处理
Dev7z3 小时前
当AI学会“听诊”:心肺听诊分析系统,正在悄悄改变医疗
人工智能