什么?有人手写 Skill?Agent Skill?Skill?

什么?有人手写 Skill?Agent Skill?Skill?

作者:吴佳浩

撰稿时间:2026-05-27


*** 为什么要写下面的内容呢?其实就是一些。。。算了你懂的。以下内容如果有疑议,就是你对👍 ***

引言

最近很多人在聊 Skill、Agent Skill、Workflow。

但你会发现,大多数人其实没搞清一件事:

text 复制代码
Skill 到底是什么?
Agent Skill 又是什么?

甚至还有人:

text 复制代码
把 Prompt 当 Skill
把 Tool 当 Agent
把 Workflow 当函数

结果就是:Agent 越做越乱。

下面把这两个概念说清楚,再给你一份今天就能落地的设计方法。


一、先看一个真实的 Agent Skill 长什么样

光说概念容易绕。先看具体的东西。

下面是一个双语技术报告生成的 Agent Skill 配置:

yaml 复制代码
# Agent Skill: 双语技术报告生成
# L1 层:仅加载以下元数据
name: bilingual_tech_report
description: 当用户上传技术文档并要求生成中英双语报告时触发
trigger:
  intent: generate_bilingual_report
  entities: [document, target_lang="zh-en"]

# L2 层:触发后加载完整 Workflow
workflow:
  step_1_ocr:
    name: ocr_extract
    tool: ocr_engine
    input: "{{ upload.document }}"
    output: raw_text
    fallback: "若 OCR 失败,提示用户更换清晰扫描件"

  step_2_parse:
    name: structure_analysis
    skill: doc_parser          # 调用另一个原子 Skill
    input: "{{ raw_text }}"
    output: sections[]

  step_3_translate:
    name: batch_translate
    tool: translate_api
    foreach: "{{ sections }}"
    retry: 2                   # 失败自动重试
    fallback: "保留原文并标记 [待人工翻译]"
    memory_read: [user_glossary] # 读取用户历史术语偏好

  step_4_report:
    name: generate_docx
    skill: report_formatter
    input: "{{ translated_sections }}"
    memory_read: [user_style_pref]
    output: final_docx

# L3 层:执行到对应步骤时才加载
resources:
  doc_parser: /skills/doc_parser/v2/
  report_formatter: /skills/report/v3/
  assets: /assets/templates/tech_report.docx

注意四个细节:

① fallback 在每一步都有。 不是全局兜底,是每个节点单独处理。OCR 挂了怎么办、翻译超时怎么办,各管各的。

② memory_read 是动态注入的。 用户的术语偏好、排版风格,在需要的那一步才读进来,不是一开始就塞进上下文。

③ 三层加载结构(L1/L2/L3)。 L1 只告诉模型"我有什么能力",L2 在真正触发时才加载完整 Workflow,L3 的资源文件在执行到对应步骤时才加载。

④ Agent Skill 编排原子 Skill,但不替代它们。 Workflow 里调用的 doc_parserreport_formatter 是独立的原子 Skill。Agent Skill 的核心不是"做翻译"或"做排版",而是"知道什么时候调用谁、调用后怎么处理结果"。它是编排者,不是执行者。

这四点,决定了这个配置不是一个 Prompt,而是一个可调度、可重试、可组合的执行系统


二、Skill 是什么?

一句话:

Skill 是"会做什么"。

Skill 本质
OCR Skill 识别图片文字
Translate Skill 翻译
SQL Skill 生成 SQL
Search Skill 搜索资料
Report Skill 生成报告

本质是原子能力。像一个函数:

graph LR A[输入] --> B[Skill] B --> C[输出]

在设计哲学上:无状态、单步骤、不具备调度能力、不具备自治能力。


选型参考:什么时候用什么?

不是所有场景都需要 Agent Skill。按复杂度选:

  • Prompt:一次性任务,不需要复用,没有失败处理需求
  • 原子 Skill:单步骤、无状态、输入输出明确,需要被多处复用
  • Agent Skill:多步骤编排、需要调度 Tool、有失败处理、需要记忆上下文

不要过度设计。 能用一个 Prompt 解决的,不要硬拆成 Workflow。


三、Agent Skill 是什么?

一句话:

Agent Skill 是"什么时候做、怎么做、调用什么做、最后怎么收尾"。

它不只是:

text 复制代码
会翻译

而是:

text 复制代码
什么时候翻译
怎么翻译
调用什么工具
分几步执行
失败怎么处理
最后输出什么

四、最核心的区别

对比 Skill Agent Skill
本质 单能力 行为系统
结构 Prompt Workflow
是否有调度 没有
是否有 Tool 不一定 基本都有
是否有状态 通常没有 经常有
是否自治 很弱 较强
是否支持多步骤 很少 核心能力
是否可组合 一般 非常强

五、最直观的理解

普通 Skill

text 复制代码
一个员工会翻译

Agent Skill

text 复制代码
一整套部门流程:

接需求
↓
OCR
↓
结构分析
↓
翻译
↓
生成双语报告
↓
导出 DOCX

已经不是一个 Prompt 了。


六、为什么大家开始放弃手写 Prompt

传统 Prompt 有一个根本问题:

Context Explosion

text 复制代码
所有规则一次性塞进上下文

会导致:

  • Token 爆炸
  • 注意力分散
  • Tool 选择混乱
  • 长任务崩溃

七、为什么渐进式加载能解决 Context Explosion

传统 Prompt 的崩溃根源在于:上下文长度和系统复杂度成正比

系统里有 20 个 Skill、50 个 Tool、几百条规则,全塞进一条 Prompt,Token 随规模线性膨胀,模型注意力被稀释,Tool 选择准确率下降,长任务直接崩溃。

L1/L2/L3 的解法是:上下文长度只和"当前激活的步骤"相关,和整个系统的复杂度无关

graph TD A[L1 目录层] --> B[L2 Skill 层] B --> C[L3 资源层]

无论你的 Agent 系统有多少个 Skill,当前这一步只需要加载当前这一步的 Prompt、Tool 描述和必要资源。其他 Skill 的名字只在 L1 目录里占一行 YAML,不进入上下文。

Token 成本大幅下降,注意力集中在当前步骤。


八、 一个常见的错误

"我写了一个超长 Prompt,里面告诉模型'你要先搜索,再总结,最后生成报告',这就是我的 Search-Agent-Skill。"

这只是一个 Prompt

真正的 Search Agent Skill 应该包含:

  • 意图识别:判断当前请求是否需要搜索
  • 搜索策略:用 Google?用内部知识库?用 SQL?
  • 结果评估:搜到的内容是否足够、是否可信
  • 循环控制:不够就换关键词再搜,或换数据源
  • 输出格式化:按用户偏好输出表格/段落/报告

九、真正高级的 Agent Skill 已经拥有什么

一个高阶 Agent Skill 的执行闭环:

graph TD A[Goal] --> B[Planning] B --> C[Tool Use] C --> D[Reflection] D --> E[Retry] E --> F[Final Result]

支撑这个闭环的模块包括:Tool Runtime、Memory、Workflow、Planning、Reflection、Evaluation、Retry、Context Management。

这时候它已经越来越接近小型自治 Agent


十、行业演化方向

graph LR A[Prompt] --> B[Skill] B --> C[Agent Skill] C --> D[Workflow] D --> E[Agent Runtime] D --> F[Agent OS]

现代 AI 工程的完整路径:

graph TD A[Prompt Engineering] --> B[Skill Engineering] B --> C[Workflow Engineering] C --> D[Agent Engineering] D --> E[Agent OS]

主流厂商的方向对比:

公司 方向 典型特征
OpenAI GPTs / Tool Runtime 低代码配置即 Skill,强调 Tool 调用生态
Anthropic Claude Skills / Computer Use 运行时自治,强调模型自主规划
Google ADK Skills 与 Google 生态深度集成,多 Agent 协作
Microsoft Copilot Extensions 企业场景优先,与 Office/Teams 结合
阿里 Agent Skill 电商与办公场景落地,强调业务闭环

方向不同,但底层逻辑一致:都在做 Agent Capability Runtime。


十一、今天就能用的设计清单(说一万遍不如自己试一遍,动手试试看童鞋门,筒子门)

如果你现在要设计一个 Agent Skill,按这六步走:

** 先画边界** 这个 Skill 解决什么问题?不解决什么问题?防止能力膨胀。

** 再拆步骤** 把流程拆成不可再分的原子动作,每一个对应一个 Skill 层。

** 设计触发器** 什么用户意图、什么上下文、什么前置条件,才激活这个 Skill?

** 预留逃生舱** 每一步都问自己:Tool 挂了怎么办?LLM 胡说了怎么办?超时了怎么办?

** 渐进加载** 把 Prompt、资源、工具说明拆成 L1/L2/L3,不要一次性塞进上下文。

** 先跑起来,再抽象** 先用硬编码 Workflow 跑通,再考虑是否提炼为通用 Agent Skill。

总结

Skill 是"会做什么"

Agent Skill 是"什么时候做、怎么做、调用什么做、最后怎么收尾"

未来真正重要的,不是你会不会写 Prompt,而是你是否理解 Agent Runtime 的运行本质。


相关推荐
用户47949283569154 小时前
把 Claude Code、Codex、Gemini 放进同一个浏览器工作台:Hive 开源了
openai·agent·claude
Lei活在当下5 小时前
【AI手记系列】2026.05.26 一周AI小结
llm·openai·ai编程
俊哥V5 小时前
每日 AI 研究简报 · 2026-05-21
人工智能·ai
2601_957884846 小时前
深度拆解:大模型RAG架构下,GEO优化的技术实现路径
人工智能·架构
这个DBA有点耶6 小时前
DBA的AI助手:向量检索与NL2SQL入门
数据库·人工智能·postgresql·学习方法·dba
YOLO数据集集合6 小时前
无人机航拍林业树种分割|单木树冠检测|三维点云|遥感影像数据集10059期
人工智能·yolo·目标检测·无人机
Pocker_Spades_A6 小时前
工业智能化的时序选型指南:当数据底座遇见机器学习
人工智能·机器学习
2601_955781986 小时前
飞书远程控机:OpenClaw配置全攻略
人工智能·开源·github·飞书·open claw安装·open claw部署
Inhand陈工6 小时前
游轮WiFi覆盖方案复盘:6台5G CPE + AP实现全船高速上网
人工智能·物联网·网络协议·网络安全·信息与通信·iot