MetaSKILL 与 SKILL：多视角深度综述

摘要

2025 年 10 月，Anthropic 在 Claude Code 中引入 Agent Skills 概念，以 SKILL.md 为载体的模块化能力包迅速成为 AI agent 生态的基础设施。截至 2026 年 2 月，公开 Skill 数量已突破 28 万个 $2$ ，被 20+ 平台采纳 $8$ 。与此同时，MetaSKILL ------即关于 Skill 的 Skill------已发展出三个层次的含义：Skill 的生成（如 Anthropic 的 skill-creator $15$ ）、Skill 的编排（如 AgentSkillOS 的 DAG 编排 $2$ ）、以及 OpenClaw.NET 中精确定义的生产级多步 DAG 工作流 $18$ $19$ $20$ ------将多个 Skill 组合为依赖感知、可暂停、可降级、可审计的执行计划。本综述从定义、架构、安全、生态、学术与工程六个角度，对 SKILL 与 MetaSKILL 的现状与未来做系统性梳理。核心争议集中在三个问题上：SKILL 是否真正带来了可量化的能力提升、自生成 Skill 能否替代人工创作、以及如何在生态爆炸式增长中守住安全底线。

1 定义与边界：什么是 SKILL，什么是 MetaSKILL

1.1 SKILL：AI Agent 的模块化能力单元

Agent Skill 是一种轻量级、开放格式的 AI agent 能力扩展机制 $8$ 。它的物理形态是一个包含 SKILL.md 的目录：

YAML 前置元数据 定义 name、description、triggers 等字段，用于 agent 的自动发现 $1$ $9$ ；
Markdown 指令体描述何时以及如何使用工具、执行何种工作流；
可选资源包括脚本、模板、参考数据 $9$ 。

Skill 与 Tool 有本质区别：Tool 是单一函数调用，Skill 是结构化的多文件能力包，封装了工作流指令、可执行脚本与领域知识参考 $16$ 。Tool 是"锤子"，Skill 是"装修手册"。

1.2 MetaSKILL：三个层次的精确定义

"MetaSKILL"在实践与学术中已形成三个清晰的含义层次：

层次一：Skill 生成器 ------能够自动创建、编辑、优化 SKILL.md 的 Skill。Anthropic 发布了官方 skill-creator $15$ ，OpenClaw.NET 内置了 meta-skill-creator 支持三种 DAG 模式：p1_sequential、p2_fan_out_merge、p3_condition_gated $18$ 。

层次二：Skill 编排器------在众多 Skill 中选择、组合、编排以完成复杂任务。AgentSkillOS $2$ 将 Skill 组织为能力树，用 DAG 编排多 Skill 流水线。

层次三：生产级多步 DAG 工作流（OpenClaw.NET 定义）------这是 MetaSKILL 最工程化的定义 $18$ $19$ ：

MetaSkill 将重复的多步工作封装为可复用、可审查的 DAG 工作流。当一个请求需要超过一个普通 Skill、工具、检查点或最终综合步骤时，使用 MetaSkill。

核心对比（OpenClaw.NET 精确区分 $18$ ）：

能力	适用场景
Skill (`kind: standard`)	一个聚焦任务------指令作为 system prompt 注入。1 步，无 DAG，无暂停，无降级。
MetaSkill (`kind: meta`)	3-12 步可复用 DAG，带 `depends_on`、`on_failure`、`user_input` 暂停点，完整审计轨迹。

举例："总结这份文档"是 Skill 形态。"将这份合同、报价和邮件转化为签/拒/谈决策建议，包含风险和后续行动"是 MetaSkill 形态 $18$ 。

从系统角度看，MetaSKILL 是 Skill 生态的"操作系统"------它负责 Skill 的发现、选择、组合、执行与演化。

2 MetaSKILL 解决的六个真问题

OpenClaw.NET 的设计文档精确定义了 MetaSKILL 要解决的单 Skill 无法应对的六个工程问题 $20$ ：

#	问题	单 Skill	MetaSKILL 方案
1	长任务卡死没法停	❌	`timeout_seconds` + `retry` + 合约封顶（四层有界执行）
2	多步任务需要人确认关键节点	❌	`user_input` + `clarify` + checkpoint 暂停/恢复
3	复杂流程要可审计 + 可恢复	❌	`MetaRunHistory` + `replay` + `reconstruct` + `proposals`
4	不同 Skill 之间需要编排依赖	❌	`depends_on` DAG + `skill_exec`/`agent` 委托
5	任务失败需要 fallback 降级路径	❌	`on_failure` 5 条工程约束 + 输出镜像
6	多团队复用同一任务模板	❌	Meta-skill 即模板 + Session 隔离 + catalog

2.1 问题 1-2：执行期可靠性

长任务卡死 ：四层超时保护------步骤级 timeout_seconds + CancellationToken → 步骤重试 retry.max_attempts + backoff_ms → 会话合约 ContractPolicy.MaxRuntimeSeconds → Agent 循环 maxIterations + 熔断器 $19$ $20$ 。

人工确认节点 ：user_input 步骤暂停 DAG 等待结构化人工输入。运行时保存完整 checkpoint（pending/blocked/outputs/stepResults）到 Session，用户输入后恢复。可配置 timeout_seconds + on_failure 降级防止无限等待 $19$ 。

2.2 问题 3：运维期可信度

每次执行自动记录 SessionMetaRunRecord，包含每步耗时、失败码和执行证据 $19$ 。运维人员可通过 CLI 查看、回放预览和审计重建：

sh 复制代码

openclaw skills meta-runs <sid> --run <id> --verbose --json
openclaw skills meta-runs replay <sid> --run <id>
openclaw skills meta-runs reconstruct <sid> --run <id>

2.3 问题 4-5：编排期韧度

DAG 编排 ：步骤通过 depends_on 声明形成有向无环图。独立步骤并行执行（波次调度）。DAG 引擎在 AgentRuntime（原生）和 MafAgentRuntime（Microsoft Agent Framework 适配器）之间共享，行为一致 $19$ 。

降级路径 ：on_failure 声明替代步骤。当主步骤失败时，运行时激活 fallback 并将其输出镜像到主步骤 ID------下游步骤无感知。五条工程约束（parse-time + runtime 双重校验）：fallback 目标必须存在、不能自引用、fallback 不能有 on_failure（禁止链式）、同一 fallback 只能被一个 primary 引用、fallback 不能有 depends_on $19$ $20$ 。

2.4 问题 6：协作期复用性

一份 SKILL.md 在所有团队共享，每次执行在独立 Session 上下文（outputs 字典、MetaExecutionCheckpoint、MetaRunHistory 均绑定 session.Id），模板通过 {{ input }}、{{ outputs.X }} 传递上下文参数化 $20$ 。

本质总结 $20$ ：

复制代码

问题 1-2：执行期可靠性  (timeout + 暂停)
问题 3：   运维期可信度  (可审计 + 可恢复)
问题 4-5：编排期韧度    (DAG + fallback)
问题 6：   协作期复用性  (模板 + 隔离)

3 架构与技术实现

3.1 SKILL.md：一个事实上的开放标准

2025 年底 Anthropic 将 SKILL.md 格式发布为开放规范 $9$ ，迅速被 10+ 平台采纳 $8$ 。OpenClaw 和 Claude Code 使用完全相同的 SKILL.md 格式，一个为 Claude Code 编写的 Skill 无需修改即可在 OpenClaw 中使用 $4$ 。

OpenClaw 采用六级优先级覆盖设计 $1$ ：workspace skills > project agent skills > personal agent skills > managed skills > bundled skills > extra dirs。每个 agent 可通过 allowlist 独立控制可见的 Skill 集合。

3.2 MetaSKILL 的架构方案

方案 A：OpenClaw.NET MetaSkill 编排器（生产级 DAG 工作流）

这是目前工程化程度最高的 MetaSKILL 实现 $19$ 。核心组件：

解析管线 ：SKILL.md YAML frontmatter → SkillLoader 解析 composition.steps → TryValidateMetaPlan DAG 结构校验（唯一 ID、Kind 有效性、依赖引用、无环校验、OnFailure 5 条约束、MetaSkill 嵌套禁止、Route 目标校验 8 项检查）→ 进入 ExecuteMetaSkillAsync 调度循环。

六种步骤类型 $19$ ：

Kind	执行方法	工具访问	成本	适用场景
`agent`	委托到其他 Skill 指令	✅ 完整	最高	开放式推理与综合分析
`llm_classify`	强制返回闭集合标签	❌	最低	路由分类器
`llm_chat`	有界 LLM 生成	❌	低	有界综合
`tool_call`	直接工具调用	✅ 直接	最低	确定性副作用
`skill_exec`	子进程执行	✅ 子进程	低	CLI 包装的 Skill 执行
`user_input`	暂停等待人工输入	❌	暂停开销	人工介入澄清表单

双运行时架构 ：DAG 引擎在 AgentRuntime（原生）和 MafAgentRuntime（Microsoft Agent Framework 适配器）之间共享。仅 LLM 调度路径不同------CallLlmWithResilienceAsync vs _chatClient.GetResponseAsync------等价测试保证行为一致 $19$ 。

失败处理 ：on_failure 替代步骤 + continue_on_error 控制错误传播 + 输出镜像机制（fallback 输出写入主步骤 ID 的 outputs 槽位，下游无感知） $19$ 。

用户输入暂停/恢复 ：skip_if Jinja 评估 → 可选 NL 预提取 → checkpoint 保存到 Session → 返回 waitingPrompt；恢复时 TryRestoreMetaExecutionCheckpoint 重建状态，已完成步骤不重新执行 $19$ 。

触发器匹配 ：确定性子串匹配（不区分大小写，按 meta_priority + 触发短语长度排序）+ 路由提示注入（通过 BuildMetaRoutingSuffix 将路由提示注入 system prompt） $19$ 。

方案 B：AgentSkillOS 能力树 + DAG 编排

上海人工智能实验室提出 $2$ ，将 Skill 组织为能力树（根节点五个大类 → 递归细分 → 可达 20 万 Skill 规模），然后通过 DAG 编排多 Skill 执行。能力树检索在 20 万规模下近似 oracle 水平，DAG 编排显著优于原生扁平调用。

方案 C：EvoSkills 协同进化式 Skill 生成

Skill Generator 迭代生成与优化 + Surrogate Verifier（独立 LLM 会话）合成测试用例提供高保真反馈 $16$ 。5 轮进化内超越人工 Skill，且进化后的 Skill 可跨 6 个不同模型迁移。

方案 D：CASCADE 双重 Meta-Skill

给 agent 装上两个 meta-skill：持续学习（自行搜索文档和代码示例）+ Skill 自生成（在任务执行中自动捕捉可复用工作流并沉淀为 Skill） $17$ 。

4 安全：快速膨胀的生态系统面临严峻挑战

4.1 规模与风险并存

截至 2026 年 2 月，公开 Skill 数量超 28 万 $2$ ，社区贡献超 5,200 个 $11$ 。Snyk 的 ToxicSkills 研究 $3$ 对 3,984 个 Skill 的全量安全审计：

13.4%（534 个）包含至少一个严重级安全问题；
36.82%（1,467 个）存在至少一个安全缺陷；
76 个恶意载荷被确认，8 个恶意 Skill 仍在 clawhub.ai 公开可用 $3$ 。

4.2 攻击面全景

学术界对 31,132 个 Skill 的系统性实证研究 $12$ 建立了四大类脆弱性分类：

类别	代表性漏洞	受影响数
提示注入	指令覆写 23、隐藏指令 31、数据外泄命令 18	~98
数据外泄	外部数据传输 89、环境变量采集 127、文件系统枚举 68	~312
权限提升	过度权限请求 94、sudo/root 执行 41、凭证访问 52	~187
供应链	未锁定依赖 156、外部脚本拉取 67、混淆代码 55	~278

4.3 防御与治理

OpenClaw 的三层安全：ClawHub 安装前展示 VirusTotal + ClawScan 扫描状态、openclaw skills verify 验证信任信封、security.installPolicy 自定义安装前安全策略 $1$ 。OpenClaw.NET MetaSKILL 自身内置 tool_allowlist + metadata.capabilities + MetaSkill.Enabled 三重门控 $19$ 。

5 生态与产业图景

当前 SKILL 生态的分布渠道已形成多层级结构：官方注册表（ClawHub、Anthropic Skills）、社区集市（Agensi 商业化市场、ClaudeSkills.info）、代码托管（awesome-agent-skills 精选合集 $10$ ）、MCP 集成 $11$ 。Jonathan Gelin 将 Skill 定义为"AI 时代的 npm 包格式"------可复用的 Markdown 指令包 $6$ 。

6 学术研究前沿

6.1 SkillsBench：系统性基准

首个将 Agent Skill 作为一等工件评估的基准框架 $5$ $14$ 。核心发现：Skill 提供显著但非均匀的收益、2-3 个 Skill 是最优配置、中等长度 Skill 优于巨量 Skill、小模型+Skill 可超越大模型无 Skill、一次性自生成 Skill 几乎无效甚至有害。

6.2 EvoSkills：从无效到超越

针对 SkillsBench 中"自生成 Skill 无效"的结论，通过迭代进化 + Surrogate Verifier 验证机制，将自生成 Skill 质量提升至超越人工水平 $16$ 。

6.3 OpenClaw.NET：生产级的 MetaSKILL 工程方案

OpenClaw.NET 的 MetaSKILL $18$ $19$ $20$ 代表了当前最完整的工程实现------不仅是学术概念，而是运行在 AgentRuntime 和 MafAgentRuntime 双运行时上的生产系统，包含完整的解析、校验、调度、执行、暂停/恢复、审计、持久化管线。

7 矛盾分析

7.1 自生成 Skill：冰火两重天

SkillsBench $5$ ：一次性自生成 Skill 在所有条件下负收益。EvoSkills $16$ ：迭代进化后可超越人工 Skill。矛盾核心在生成机制而非生成能力------一次性生成缺乏验证反馈循环，进化式生成补上了这个缺口。

7.2 生态增长 vs 安全治理

28 万+ Skill $2$ vs 36% 存在安全缺陷 $3$ 。关键差异：Skill 本质是指令而非代码，传统代码安全工具无法完全覆盖 Skill 攻击面。

7.3 MetaSKILL 的定义之争

学术界的 MetaSKILL 定义偏向"Skill 生成 + 编排" $2$ $16$ $17$ ，而 OpenClaw.NET 的工程定义增加了执行可靠性、人工介入、审计追踪、多团队复用四个维度 $20$ 。这两种视角并非矛盾而是互补------学术界提供方法，工业界提供工程保障。

7.4 已知盲区

长期效果评估缺失：所有研究都是短期 benchmark；
Skill 间交互的涌现行为：多 Skill 同时加载的非预期交互未系统研究；
MetaSKILL 的递归安全性：谁保证 MetaSKILL 自身的安全性？EvoSkills 的 Surrogate Verifier $16$ 提供了内建验证，但验证器自身可靠性尚未充分研究；
MetaSkill 嵌套问题 ：OpenClaw.NET 明确禁止 MetaSkill 委托到另一个 MetaSkill（TryValidateMetaPlan 拒绝 kind: meta 的委托 Skill $19$ ），但这限制了复杂场景的表达能力。

8 参考来源

$1$ OpenClaw Docs --- Skills System. https://docs.openclaw.ai/tools/skills

$2$ Li H. et al., "AgentSkillOS: Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale." ArXiv:2603.02176, Mar 2026.

$3$ Snyk Security Research, "ToxicSkills: Malicious AI Agent Skills Supply Chain Compromise." Feb 2026.

$4$ Agensi, "OpenClaw vs Claude Code: How Do Their Skill Systems Compare?" Apr 2026.

$5$ SkillsBench, "Benchmarking Agent Skills Across Diverse Tasks." ArXiv:2602.12670, Feb 2026.

$6$ Gelin J., "📦 Skill is the new package format for AI." Feb 2026.

$7$ Red Hat Developer, "Agent Skills: Explore security threats and controls." Mar 2026.

$8$ AgentSkills.io --- Open Standard. https://agentskills.io/home

$9$ Anthropic, "Agent Skills --- Claude API Docs."

$10$ VoltAgent, "awesome-agent-skills." GitHub.

$11$ AGNT.gg, "The 100 Best AI Agent Skills in 2026." Apr 2026.

$12$ "Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale." ArXiv:2601.10338, Jan 2026.

$13$ Anthropic, "Skills for Enterprise --- Claude API Docs."

$14$ SkillsBench, "Introducing SkillsBench." Feb 2026.

$15$ Agentman.ai, "skill-creator --- AI Skill for Agent Skills."

$16$ Zhang H. et al., "EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification." ArXiv:2604.01687, Apr 2026.

$17$ 53AI / 腾讯科技, "什么时候Agent能自己写skill？" Mar 2026.

$18$ OpenClaw.NET, "MetaSkill 功能概览." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skills.md

$19$ OpenClaw.NET, "MetaSkill 编排架构." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-orchestration.md

$20$ OpenClaw.NET, "MetaSKILL 解决的 6 个真问题." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-six-problems.md