摘要
2025 年 10 月,Anthropic 在 Claude Code 中引入 Agent Skills 概念,以 SKILL.md 为载体的模块化能力包迅速成为 AI agent 生态的基础设施。截至 2026 年 2 月,公开 Skill 数量已突破 28 万个 2,被 20+ 平台采纳 8。与此同时,MetaSKILL ------即关于 Skill 的 Skill------已发展出三个层次的含义:Skill 的生成(如 Anthropic 的 skill-creator 15)、Skill 的编排(如 AgentSkillOS 的 DAG 编排 2)、以及 OpenClaw.NET 中精确定义的生产级多步 DAG 工作流 181920------将多个 Skill 组合为依赖感知、可暂停、可降级、可审计的执行计划。本综述从定义、架构、安全、生态、学术与工程六个角度,对 SKILL 与 MetaSKILL 的现状与未来做系统性梳理。核心争议集中在三个问题上:SKILL 是否真正带来了可量化的能力提升、自生成 Skill 能否替代人工创作、以及如何在生态爆炸式增长中守住安全底线。
目录
- 定义与边界
- [MetaSKILL 解决的六个真问题](#MetaSKILL 解决的六个真问题)
- 架构与技术实现
- 安全:快速膨胀的生态系统面临严峻挑战
- 生态与产业图景
- 学术研究前沿
- 矛盾分析
- 参考来源
- 自查报告
1 定义与边界:什么是 SKILL,什么是 MetaSKILL
1.1 SKILL:AI Agent 的模块化能力单元
Agent Skill 是一种轻量级、开放格式的 AI agent 能力扩展机制 8。它的物理形态是一个包含 SKILL.md 的目录:
- YAML 前置元数据 定义
name、description、triggers等字段,用于 agent 的自动发现 19; - Markdown 指令体描述何时以及如何使用工具、执行何种工作流;
- 可选资源包括脚本、模板、参考数据 9。
Skill 与 Tool 有本质区别:Tool 是单一函数调用,Skill 是结构化的多文件能力包,封装了工作流指令、可执行脚本与领域知识参考 16。Tool 是"锤子",Skill 是"装修手册"。
1.2 MetaSKILL:三个层次的精确定义
"MetaSKILL"在实践与学术中已形成三个清晰的含义层次:
层次一:Skill 生成器 ------能够自动创建、编辑、优化 SKILL.md 的 Skill。Anthropic 发布了官方 skill-creator 15,OpenClaw.NET 内置了 meta-skill-creator 支持三种 DAG 模式:p1_sequential、p2_fan_out_merge、p3_condition_gated 18。
层次二:Skill 编排器------在众多 Skill 中选择、组合、编排以完成复杂任务。AgentSkillOS 2 将 Skill 组织为能力树,用 DAG 编排多 Skill 流水线。
层次三:生产级多步 DAG 工作流(OpenClaw.NET 定义)------这是 MetaSKILL 最工程化的定义 1819:
MetaSkill 将重复的多步工作封装为可复用、可审查的 DAG 工作流。当一个请求需要超过一个普通 Skill、工具、检查点或最终综合步骤时,使用 MetaSkill。
核心对比(OpenClaw.NET 精确区分 18):
| 能力 | 适用场景 |
|---|---|
Skill (kind: standard) |
一个聚焦任务------指令作为 system prompt 注入。1 步,无 DAG,无暂停,无降级。 |
MetaSkill (kind: meta) |
3-12 步可复用 DAG,带 depends_on、on_failure、user_input 暂停点,完整审计轨迹。 |
举例:"总结这份文档"是 Skill 形态。"将这份合同、报价和邮件转化为签/拒/谈决策建议,包含风险和后续行动"是 MetaSkill 形态 18。
从系统角度看,MetaSKILL 是 Skill 生态的"操作系统"------它负责 Skill 的发现、选择、组合、执行与演化。
2 MetaSKILL 解决的六个真问题
OpenClaw.NET 的设计文档精确定义了 MetaSKILL 要解决的单 Skill 无法应对的六个工程问题 20:
| # | 问题 | 单 Skill | MetaSKILL 方案 |
|---|---|---|---|
| 1 | 长任务卡死没法停 | ❌ | timeout_seconds + retry + 合约封顶(四层有界执行) |
| 2 | 多步任务需要人确认关键节点 | ❌ | user_input + clarify + checkpoint 暂停/恢复 |
| 3 | 复杂流程要可审计 + 可恢复 | ❌ | MetaRunHistory + replay + reconstruct + proposals |
| 4 | 不同 Skill 之间需要编排依赖 | ❌ | depends_on DAG + skill_exec/agent 委托 |
| 5 | 任务失败需要 fallback 降级路径 | ❌ | on_failure 5 条工程约束 + 输出镜像 |
| 6 | 多团队复用同一任务模板 | ❌ | Meta-skill 即模板 + Session 隔离 + catalog |
2.1 问题 1-2:执行期可靠性
长任务卡死 :四层超时保护------步骤级 timeout_seconds + CancellationToken → 步骤重试 retry.max_attempts + backoff_ms → 会话合约 ContractPolicy.MaxRuntimeSeconds → Agent 循环 maxIterations + 熔断器 1920。
人工确认节点 :user_input 步骤暂停 DAG 等待结构化人工输入。运行时保存完整 checkpoint(pending/blocked/outputs/stepResults)到 Session,用户输入后恢复。可配置 timeout_seconds + on_failure 降级防止无限等待 19。
2.2 问题 3:运维期可信度
每次执行自动记录 SessionMetaRunRecord,包含每步耗时、失败码和执行证据 19。运维人员可通过 CLI 查看、回放预览和审计重建:
sh
openclaw skills meta-runs <sid> --run <id> --verbose --json
openclaw skills meta-runs replay <sid> --run <id>
openclaw skills meta-runs reconstruct <sid> --run <id>
2.3 问题 4-5:编排期韧度
DAG 编排 :步骤通过 depends_on 声明形成有向无环图。独立步骤并行执行(波次调度)。DAG 引擎在 AgentRuntime(原生)和 MafAgentRuntime(Microsoft Agent Framework 适配器)之间共享,行为一致 19。
降级路径 :on_failure 声明替代步骤。当主步骤失败时,运行时激活 fallback 并将其输出镜像到主步骤 ID------下游步骤无感知。五条工程约束(parse-time + runtime 双重校验):fallback 目标必须存在、不能自引用、fallback 不能有 on_failure(禁止链式)、同一 fallback 只能被一个 primary 引用、fallback 不能有 depends_on 1920。
2.4 问题 6:协作期复用性
一份 SKILL.md 在所有团队共享,每次执行在独立 Session 上下文(outputs 字典、MetaExecutionCheckpoint、MetaRunHistory 均绑定 session.Id),模板通过 {{ input }}、{{ outputs.X }} 传递上下文参数化 20。
本质总结 20:
问题 1-2:执行期可靠性 (timeout + 暂停)
问题 3: 运维期可信度 (可审计 + 可恢复)
问题 4-5:编排期韧度 (DAG + fallback)
问题 6: 协作期复用性 (模板 + 隔离)
3 架构与技术实现
3.1 SKILL.md:一个事实上的开放标准
2025 年底 Anthropic 将 SKILL.md 格式发布为开放规范 9,迅速被 10+ 平台采纳 8。OpenClaw 和 Claude Code 使用完全相同的 SKILL.md 格式,一个为 Claude Code 编写的 Skill 无需修改即可在 OpenClaw 中使用 4。
OpenClaw 采用六级优先级覆盖设计 1:workspace skills > project agent skills > personal agent skills > managed skills > bundled skills > extra dirs。每个 agent 可通过 allowlist 独立控制可见的 Skill 集合。
3.2 MetaSKILL 的架构方案
方案 A:OpenClaw.NET MetaSkill 编排器(生产级 DAG 工作流)
这是目前工程化程度最高的 MetaSKILL 实现 19。核心组件:
解析管线 :SKILL.md YAML frontmatter → SkillLoader 解析 composition.steps → TryValidateMetaPlan DAG 结构校验(唯一 ID、Kind 有效性、依赖引用、无环校验、OnFailure 5 条约束、MetaSkill 嵌套禁止、Route 目标校验 8 项检查)→ 进入 ExecuteMetaSkillAsync 调度循环。
六种步骤类型 19:
| Kind | 执行方法 | 工具访问 | 成本 | 适用场景 |
|---|---|---|---|---|
agent |
委托到其他 Skill 指令 | ✅ 完整 | 最高 | 开放式推理与综合分析 |
llm_classify |
强制返回闭集合标签 | ❌ | 最低 | 路由分类器 |
llm_chat |
有界 LLM 生成 | ❌ | 低 | 有界综合 |
tool_call |
直接工具调用 | ✅ 直接 | 最低 | 确定性副作用 |
skill_exec |
子进程执行 | ✅ 子进程 | 低 | CLI 包装的 Skill 执行 |
user_input |
暂停等待人工输入 | ❌ | 暂停开销 | 人工介入澄清表单 |
双运行时架构 :DAG 引擎在 AgentRuntime(原生)和 MafAgentRuntime(Microsoft Agent Framework 适配器)之间共享。仅 LLM 调度路径不同------CallLlmWithResilienceAsync vs _chatClient.GetResponseAsync------等价测试保证行为一致 19。
失败处理 :on_failure 替代步骤 + continue_on_error 控制错误传播 + 输出镜像机制(fallback 输出写入主步骤 ID 的 outputs 槽位,下游无感知)19。
用户输入暂停/恢复 :skip_if Jinja 评估 → 可选 NL 预提取 → checkpoint 保存到 Session → 返回 waitingPrompt;恢复时 TryRestoreMetaExecutionCheckpoint 重建状态,已完成步骤不重新执行 19。
触发器匹配 :确定性子串匹配(不区分大小写,按 meta_priority + 触发短语长度排序)+ 路由提示注入(通过 BuildMetaRoutingSuffix 将路由提示注入 system prompt)19。
方案 B:AgentSkillOS 能力树 + DAG 编排
上海人工智能实验室提出 2,将 Skill 组织为能力树(根节点五个大类 → 递归细分 → 可达 20 万 Skill 规模),然后通过 DAG 编排多 Skill 执行。能力树检索在 20 万规模下近似 oracle 水平,DAG 编排显著优于原生扁平调用。
方案 C:EvoSkills 协同进化式 Skill 生成
Skill Generator 迭代生成与优化 + Surrogate Verifier(独立 LLM 会话)合成测试用例提供高保真反馈 16。5 轮进化内超越人工 Skill,且进化后的 Skill 可跨 6 个不同模型迁移。
方案 D:CASCADE 双重 Meta-Skill
给 agent 装上两个 meta-skill:持续学习(自行搜索文档和代码示例)+ Skill 自生成(在任务执行中自动捕捉可复用工作流并沉淀为 Skill)17。
4 安全:快速膨胀的生态系统面临严峻挑战
4.1 规模与风险并存
截至 2026 年 2 月,公开 Skill 数量超 28 万 2,社区贡献超 5,200 个 11。Snyk 的 ToxicSkills 研究 3 对 3,984 个 Skill 的全量安全审计:
- 13.4%(534 个)包含至少一个严重级安全问题;
- 36.82%(1,467 个)存在至少一个安全缺陷;
- 76 个恶意载荷被确认,8 个恶意 Skill 仍在 clawhub.ai 公开可用 3。
4.2 攻击面全景
学术界对 31,132 个 Skill 的系统性实证研究 12 建立了四大类脆弱性分类:
| 类别 | 代表性漏洞 | 受影响数 |
|---|---|---|
| 提示注入 | 指令覆写 23、隐藏指令 31、数据外泄命令 18 | ~98 |
| 数据外泄 | 外部数据传输 89、环境变量采集 127、文件系统枚举 68 | ~312 |
| 权限提升 | 过度权限请求 94、sudo/root 执行 41、凭证访问 52 | ~187 |
| 供应链 | 未锁定依赖 156、外部脚本拉取 67、混淆代码 55 | ~278 |
4.3 防御与治理
OpenClaw 的三层安全:ClawHub 安装前展示 VirusTotal + ClawScan 扫描状态、openclaw skills verify 验证信任信封、security.installPolicy 自定义安装前安全策略 1。OpenClaw.NET MetaSKILL 自身内置 tool_allowlist + metadata.capabilities + MetaSkill.Enabled 三重门控 19。
5 生态与产业图景
当前 SKILL 生态的分布渠道已形成多层级结构:官方注册表(ClawHub、Anthropic Skills)、社区集市(Agensi 商业化市场、ClaudeSkills.info)、代码托管(awesome-agent-skills 精选合集 10)、MCP 集成 11。Jonathan Gelin 将 Skill 定义为"AI 时代的 npm 包格式"------可复用的 Markdown 指令包 6。
6 学术研究前沿
6.1 SkillsBench:系统性基准
首个将 Agent Skill 作为一等工件评估的基准框架 514。核心发现:Skill 提供显著但非均匀的收益、2-3 个 Skill 是最优配置、中等长度 Skill 优于巨量 Skill、小模型+Skill 可超越大模型无 Skill、一次性自生成 Skill 几乎无效甚至有害。
6.2 EvoSkills:从无效到超越
针对 SkillsBench 中"自生成 Skill 无效"的结论,通过迭代进化 + Surrogate Verifier 验证机制,将自生成 Skill 质量提升至超越人工水平 16。
6.3 OpenClaw.NET:生产级的 MetaSKILL 工程方案
OpenClaw.NET 的 MetaSKILL 181920 代表了当前最完整的工程实现------不仅是学术概念,而是运行在 AgentRuntime 和 MafAgentRuntime 双运行时上的生产系统,包含完整的解析、校验、调度、执行、暂停/恢复、审计、持久化管线。
7 矛盾分析
7.1 自生成 Skill:冰火两重天
SkillsBench 5:一次性自生成 Skill 在所有条件下负收益。EvoSkills 16:迭代进化后可超越人工 Skill。矛盾核心在生成机制而非生成能力------一次性生成缺乏验证反馈循环,进化式生成补上了这个缺口。
7.2 生态增长 vs 安全治理
28 万+ Skill 2 vs 36% 存在安全缺陷 3。关键差异:Skill 本质是指令而非代码,传统代码安全工具无法完全覆盖 Skill 攻击面。
7.3 MetaSKILL 的定义之争
学术界的 MetaSKILL 定义偏向"Skill 生成 + 编排" 21617,而 OpenClaw.NET 的工程定义增加了执行可靠性、人工介入、审计追踪、多团队复用四个维度 20。这两种视角并非矛盾而是互补------学术界提供方法,工业界提供工程保障。
7.4 已知盲区
- 长期效果评估缺失:所有研究都是短期 benchmark;
- Skill 间交互的涌现行为:多 Skill 同时加载的非预期交互未系统研究;
- MetaSKILL 的递归安全性:谁保证 MetaSKILL 自身的安全性?EvoSkills 的 Surrogate Verifier 16 提供了内建验证,但验证器自身可靠性尚未充分研究;
- MetaSkill 嵌套问题 :OpenClaw.NET 明确禁止 MetaSkill 委托到另一个 MetaSkill(
TryValidateMetaPlan拒绝kind: meta的委托 Skill 19),但这限制了复杂场景的表达能力。
8 参考来源
1 OpenClaw Docs --- Skills System. https://docs.openclaw.ai/tools/skills
2 Li H. et al., "AgentSkillOS: Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale." ArXiv:2603.02176, Mar 2026.
3 Snyk Security Research, "ToxicSkills: Malicious AI Agent Skills Supply Chain Compromise." Feb 2026.
4 Agensi, "OpenClaw vs Claude Code: How Do Their Skill Systems Compare?" Apr 2026.
5 SkillsBench, "Benchmarking Agent Skills Across Diverse Tasks." ArXiv:2602.12670, Feb 2026.
6 Gelin J., "📦 Skill is the new package format for AI." Feb 2026.
7 Red Hat Developer, "Agent Skills: Explore security threats and controls." Mar 2026.
8 AgentSkills.io --- Open Standard. https://agentskills.io/home
9 Anthropic, "Agent Skills --- Claude API Docs."
10 VoltAgent, "awesome-agent-skills." GitHub.
11 AGNT.gg, "The 100 Best AI Agent Skills in 2026." Apr 2026.
12 "Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale." ArXiv:2601.10338, Jan 2026.
13 Anthropic, "Skills for Enterprise --- Claude API Docs."
14 SkillsBench, "Introducing SkillsBench." Feb 2026.
15 Agentman.ai, "skill-creator --- AI Skill for Agent Skills."
16 Zhang H. et al., "EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification." ArXiv:2604.01687, Apr 2026.
17 53AI / 腾讯科技, "什么时候Agent能自己写skill?" Mar 2026.
18 OpenClaw.NET, "MetaSkill 功能概览." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skills.md
19 OpenClaw.NET, "MetaSkill 编排架构." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-orchestration.md
20 OpenClaw.NET, "MetaSKILL 解决的 6 个真问题." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-six-problems.md