Ai-Agent学习历程(插播内容)------ 基于现在最新的Skills、MCP、Rules等进行详细拆解,并列举出使用场景
- 前言
- Ai发展历程
-
- [第一阶段:单体模型与纯文本觉醒期(2022.11 - 2023.中旬)](#第一阶段:单体模型与纯文本觉醒期(2022.11 - 2023.中旬))
- [第二阶段:多模态爆发与工具外挂期(2023.下半年 - 2024.年初)](#第二阶段:多模态爆发与工具外挂期(2023.下半年 - 2024.年初))
- [第三阶段:Agent 工作流与深度思考期(2024.中旬 - 2025.中旬)](#第三阶段:Agent 工作流与深度思考期(2024.中旬 - 2025.中旬))
- [第四阶段:标准化连接与端侧自动执行期(2025.下半年 - 至今/2026年)](#第四阶段:标准化连接与端侧自动执行期(2025.下半年 - 至今/2026年))
- [📊 演进路线总结:](#📊 演进路线总结:)
- [💡 真实感触](#💡 真实感触)
- 当前Ai发展最新趋势
-
- 近期刷屏的几个关键词
- 不同关键词的详细解释
-
- [1. Rules(长期约束)](#1. Rules(长期约束))
- [2. Skills(可复用的单步能力)](#2. Skills(可复用的单步能力))
- [3. Subagents(复杂任务拆分与并行处理)](#3. Subagents(复杂任务拆分与并行处理))
- [4. Tools(Agent 可用的基础能力集合)](#4. Tools(Agent 可用的基础能力集合))
- [5. MCP(接外部系统和数据源)](#5. MCP(接外部系统和数据源))
- [6. Hooks(过程自动化和安全拦截)](#6. Hooks(过程自动化和安全拦截))
- [7. Plugins(把上面这些能力打包分发)](#7. Plugins(把上面这些能力打包分发))
- [💡 总结:如何协同工作](#💡 总结:如何协同工作)
- 个人在不同场景下,这些技术应该怎么使用?
- [💡 核心总结](#💡 核心总结)
- 注意点(重点)
前言
📝 现在Ai发展势不可挡,我们已经从最开始的简单使用Ai提问过渡到了用Ai完成复杂任务的阶段,而且已经趋于成熟,发展历程可以说是非常精彩。
📝 如果要解析当前最新的Skills、MCP、Rules等技术,最好还是了解最Ai的发展历程,方才能真实的感觉到他们的出现是因为什么。
Ai发展历程
实际上我们要注意,以下的发展主要是根据全球的局势进行说明,国内关注Ai其实是在deepseek全方位崛起的时候才被大众所熟知,即使国际的模型已经发布了,但因为使用限制的问题受众群体不多。Deepseek正式发布且被大众所熟知的时间节点在2024年。
第一阶段:单体模型与纯文本觉醒期(2022.11 - 2023.中旬)
"全网震惊的对话机器人"
- 主要表现形式:纯文本(Text-to-Text)。一个极简的聊天框界面。
- 核心能力:信息检索、文本润色、写请假条/邮件、简单的代码片段生成、多轮对话保持上下文。
- 应用场景:主要是替代部分 Google 搜索,以及作为"文案生成器"或"初级编程助手"。
- 用户群体与范围 :
- 规模 :呈爆发式增长(ChatGPT 两个月破亿用户),但留存率和日活波动较大。
- 画像:极客、大学生、文字工作者、程序员。普通大众更多是抱着"猎奇"和"调戏AI"的心态在使用。
- 核心限制与痛点 :
- 严重幻觉(Hallucinations):经常一本正经地胡说八道。
- "知识孤岛":没有联网能力,数据停留在训练截止日期前。
- 记忆极短:上下文窗口(Context Window)仅有 4K-8K,聊着聊着就忘了前面说的要求。
- 无执行力:只能"说",不能"做"。需要人手动复制粘贴它的回答去执行。
第二阶段:多模态爆发与工具外挂期(2023.下半年 - 2024.年初)
"长出眼睛、耳朵和基础手脚的超级助理"
- 主要表现形式 :多模态交互(文本 + 图片 + 语音 + 初级视频)+ 插件(Plugins/GPTs)。
- 代表作:GPT-4V(视觉)、Midjourney v5/v6、Sora发布、OpenAI Advanced Data Analysis (原代码解释器)。
- 核心能力 :
- 看图说话、处理 Excel 表格并画图表。
- 联网搜索(Web Browsing),打破了知识断层。
- Function Calling:AI 开始能调用外部 API(如查天气、订机票)。
- 应用场景:数据分析师用它洗数据画图;设计师用 AI 出灵感图/电商图;开发者开始套壳做各种"细分领域 AI 工具"(如 AI 简历修改器)。
- 用户群体与范围 :
- 规模:用户量极大稳固,AI 真正渗透进白领的日常工作流。
- 画像:数据分析师、插画师、电商从业者、企划。
- 核心限制与痛点 :
- 多模态割裂:虽然能看图生文,但底层模型往往是拼接的,跨模态推理能力弱。
- 复杂任务易崩溃:让它写一个 500 行以上的完整项目,代码必然报错,它无法自行修复。
- GPTs 生态未达预期:虽然推出了 GPT Store,但大部分插件只是简单的 Prompt 封装,缺乏真正的商业壁垒,用户粘性低。
第三阶段:Agent 工作流与深度思考期(2024.中旬 - 2025.中旬)
"从'单轮对话'走向'系统级编排与深度推理'"
- 主要表现形式 :Artifacts(可交互UI界面生成)、Multi-Agent 系统(多智能体协作)、深度思考大模型。
- 代表作:Claude 3.5 Sonnet (Artifacts 引领交互革命)、OpenAI o1 / DeepSeek-R1 (强化学习下的深度推理/CoT)、Cursor (改变程序员生态)。
- 核心能力 :
- 复杂逻辑推理:AI 在回答前会"Thinking(思考)"几十秒,自我纠错,数学和代码逻辑能力产生质变。
- 全栈项目生成:不再是生成代码片段,而是直接生成可运行的网页、小游戏或完整工程。
- 工作流编排:Coze、Dify、LangGraph 普及,用户可以像画流程图一样,把多个 AI 和外部工具串联起来(Subagents 概念爆发)。
- 应用场景:一人公司/独立开发者的崛起。普通产品经理用 Cursor 或 Claude 直接写出带后端的 App;企业内部开始搭建"自动客服审核系统"、"自动研报生成系统"。
- 用户群体与范围 :
- 规模:硬核高频用户急剧增加,企业级(ToB)付费大规模落地。
- 画像:全栈开发者、架构师、企业 IT 部门、科研人员、金融分析师。
- 核心限制与痛点 :
- 鲁棒性差:多 Agent 工作流虽然美好,但在真实业务中,某个节点失败就全盘崩溃,缺乏异常处理的"工程化兜底"。
- 上下文拼接成本高:为了让 AI 懂业务,需要把企业文档疯狂喂给它,导致 Token 成本极高且容易超载。
第四阶段:标准化连接与端侧自动执行期(2025.下半年 - 至今/2026年)
"OS 级别的渗透、标准化总线与 Computer Use 时代"
- 主要表现形式 :不可见的后台运行、MCP(模型上下文协议)、Computer Use(计算机控制)、端侧原生 AI。
- 代表作:Anthropic MCP 生态普及、AI 代理直接接管鼠标键盘执行任务(Operator)、Apple/Windows 操作系统底层的原生 AI 融合。
- 核心能力 :
- 环境无缝接入(MCP):AI 不再需要繁琐地配置 API 密钥,通过 MCP 直接连通你本地的 Github、数据库、Slack 聊天记录。
- 长程自主执行(Long-horizon tasks):你可以下一条指令:"去把上个月报销单里的发票整理好,对比公司报销规则,然后自动在内网 OA 提交"。AI 会自己在后台开浏览器、查文档、填表单。
- Hooks 与底层防御:加入了强硬的安全拦截和执行权限审核。
- 应用场景:系统级自动化运维、极度个性化的个人全天候助理、B2B 的全自动流水线(如 AI 销售接单、发货、对账一条龙)。
- 用户群体与范围 :
- 规模:真正意义上的"全民化"。很多普通用户并不知道自己在使用大模型,因为 AI 已经被整合进了手机系统内核、各种 SaaS 软件内部。
- 核心限制与痛点(当前面临的挑战) :
- 责任界定(Accountability):AI 如果自己操作填错了财务报表,或者发错了商业合同,谁来负责?
- 安全与隐私攻防:AI 拥有了操作权限后,Prompt Injection(提示词注入攻击)变成了致命威胁(比如通过一张藏有恶意指令的图片,让 AI 删掉你电脑里的文件)。
- 计算能耗与时延:让 AI 像人一样操纵电脑,推理成本和响应延迟仍然是全面商用的阻力。
📊 演进路线总结:
| 维度 | 第一阶段 (2023初) | 第二阶段 (2024初) | 第三阶段 (2024底-2025初) | 第四阶段 (2025底-2026至今) |
|---|---|---|---|---|
| 定位 | "无所不知的玩具/百科" | "带有各类插件的工具箱" | "会深度思考的打工人" | "能调度资源的基础操作系统" |
| 核心交互 | Chat(聊天打字) | Prompt + 传图/传文件 | 拖拽流编排 / Artifacts 预览 | 直接下达意图,后台自动执行 |
| 技术重心 | 模型参数量、预训练基座 | 多模态融合、RAG(检索增强) | 推理模型(o1)、多智能体架构 | MCP 标准协议、环境接管控制 |
| 用户心智 | "我提问,它回答" | "我指导,它辅助做图/看表" | "我派发任务,它拆解执行" | "我设定目标,它接管全流程" |
| 商业模式 | 卖 Token / 20刀月租 | 垂直套壳应用涌现 | API 服务企业级应用,按效能计费 | 基础设施级收费、Agent-as-a-Service |
💡 真实感触
从接触Ai两年多,它的发展确实非常的迅速,从一开始的不屑一顾到最后的顶级膜拜可谓是相当的滑稽。为什么现在才开始分析它的局势,因为此时的情况已经到了最终决战的时刻了,至少是目前阶段的一个"决战时刻",再往下基本就是全新的一个维度,比如"Ai机器人遍地开花"。
从一个普通人的角度来说,我对Ai的使用频率已经相当之高了,写代码,搜索资料,辅助学习等,每个月对Ai的成本投入预计达到30美元,这相对其他人已经很少了,不过不可能投入太多,毕竟只是普通人。有一句话说的非常贴切:真理只掌握在少数人手里(当然不是指我),为什么这句话在Ai行业形容的比较贴切,我们用一组数据来说明。
创新扩散理论
一个新技术从出现到应用分为好几个阶段,每一个阶段都代表不同的群体数量
- 创新者(2.5%):也就是研发者和极客(比如现在天天钻研 MCP 和 Agent 的人)。
- 早期采用者(13.5%):行业KOL、科技博主。
- 早期大众(34%):开始跟风尝试的普通白领。
- 晚期大众(34%):看别人用得好才勉强开始用的人。
- 落后者(16%):无论如何都不用的人。
同时加上"信息降维"和"认知折叠"两大因素的影响,实际上从最新技术的发布到普遍使用是有很大的时间跨越的,这也是我们常说的,风口,什么是风口,这个阶段就是风口。
当前Ai发展最新趋势
近期刷屏的几个关键词
Rules负责"长期约束"。Skills负责"可复用的单步能力"。Subagents负责"复杂任务拆分与并行处理"。Tools是 Agent 可用的基础能力集合。MCP负责"接外部系统和数据源"。Hooks负责"过程自动化和安全拦截"。Plugins负责"把上面这些能力打包分发"。
实际上Tools和Rules在2025年下半年就已经出现了,而且有一部分人已经使用了,只不过没有像现在这么火爆。而Skills是近期因为openclaw的爆火而流行的一种新的概念,其中最让人意外的可能就是MCP了,这是因Ai的发展局限而出现的一个新标准,之前都需要企业自己对接,而现在出现了行业标准,比较令人意外,发展速度相当快。
不同关键词的详细解释
1. Rules(长期约束)
- 核心定义 :负责规定 Agent 在整个生命周期内必须遵守的前提条件、行为边界和价值取向。
- 深度解释 :
- 过去,规则是写死在 Prompt 里的(如"你是一个友善的助手,不能说脏话")。
- 现在的
Rules是一种独立于业务逻辑的全局策略层。它包含安全围栏(Guardrails)、合规性审查、角色设定(Persona)以及输出格式规范。 - 应用场景:比如金融 Agent 的 Rule 中强制规定"绝不提供具体的股票买卖建议";企业级 Agent 的 Rule 要求"所有输出必须过滤掉用户的 PII(个人敏感信息)"。
- 代表技术:Constitutional AI(宪法 AI)、NVIDIA NeMo Guardrails。
这个概念并不复杂也不新奇,在Ai问世的时候,或者说训练的时候,有很多很多Rules是被强行内置在其框架底层的,是很平常的程序因为业务需要而增加的一些限制约束,只不过在使用者这里还需要进行细化,从之前将限制加载prompt中转为了可持久化、自定义设置且规范化调用的一种模式。
2. Skills(可复用的单步能力)
- 核心定义 :将复杂的 Prompt 工程或常见的基础逻辑,封装成一个标准化的、可重复调用的原子化能力。
- 深度解释 :
Skills和Tools经常被混淆,但两者的侧重点不同。Tools偏向于向外求索(调用外部 API),而Skills更多是向内调用(基于大模型本身能力的封装)。- 应用场景:比如"信息抽取(从长文本提取 JSON)"、"情感分析"、"多语言翻译"、"总结摘要"。这些不需要外部系统,但属于常用动作,将其封装为 Skill 后,Agent 可以在工作流中像搭积木一样随时调用,而不需要每次重写 Prompt。
- 代表技术:微软 Semantic Kernel 的 Plugins/Skills 概念、Dify 中的内置基础处理模块。
这是目前最火的技术之一,其实就是将一些常用的使用方式和流程进行的工程化(在这之前基本都是企业封装在自己内部的),让普通用户也能通过指令或者说简单技术进行封装,然后Ai可以直接调用,丰富了我们使用Ai的方式,同时也加大了便利。就是有一点不太好,还是有一些不法分子混入,我们需要甄别。
3. Subagents(复杂任务拆分与并行处理)
- 核心定义 :多智能体协作(Multi-Agent System, MAS)的基础单元,负责化繁为简、术业有专攻。
- 深度解释 :
- 面对复杂任务(如"写一份包含市场调研和代码实现的商业计划书"),单一 Agent 很容易出现幻觉或顾此失彼。
- 目前的趋势是路由与编排 (Routing & Orchestration)。一个主 Agent(Manager)负责拆解任务,然后分发给多个
Subagents(如 Research Agent、Coder Agent、Reviewer Agent)。它们可以并行处理任务,最后由主 Agent 汇总。 - 应用场景:软件开发团队(规划师 + 程序员 + 测试员)、多维度研报生成。
- 代表技术:LangGraph、CrewAI、OpenAI Swarm、微软 AutoGen。
这属于比较复杂且难理解的技术的一种,基本上不面向普通用户开放,还是得需要一些代码基础和工程化思维。可以理解为这是cursor或者openCode的一种内置逻辑,他们底层肯定会这么干,而现在开放了出来,在原来的基础上你再加一层分解,按照你的使用习惯。而且最最最good的就是,我们可以组合多种强势Ai,分工配合,如果使用得当,这将是一个巨大的商机。
4. Tools(Agent 可用的基础能力集合)
- 核心定义:大模型与物理世界/外部数字世界交互的接口(Function Calling)。
- 深度解释 :
Tools赋予了 Agent 执行动作的能力。没有 Tool,Agent 只是个"被关在黑盒里的智者";有了 Tool,它就成了能真正办事的"打工人"。- 应用场景:网页搜索(Web Search)、代码解释器(Code Interpreter)、计算器、发送邮件、操作本地文件、调用企业内部 ERP 系统的 REST API。
- 代表技术:OpenAI Function Calling、各大平台的 Tool Calling 机制。
5. MCP(接外部系统和数据源)
- 核心定义 :MCP(Model Context Protocol,模型上下文协议)是由 Anthropic (Claude) 推出的破局性开源标准,用于解决 AI 连接外部数据源的碎片化问题。
- 深度解释 :
- 这是近期最重要的发展趋势。以前每接入一个外部数据源(如 Github、Slack、Notion、本地数据库),都要写一套特定的 API 对接逻辑。
- MCP 采用经典的 C/S(客户端-服务端)架构,统一了接口标准。只要数据方提供一个 MCP Server,任何支持 MCP Client 的 Agent 就可以直接读取这些上下文,实现了数据源的"即插即用"。
- 应用场景:你在 Cursor(开发工具)里直接通过 MCP 问大模型:"总结一下我本地 SQLite 数据库里最新的销售数据,并参考我的 Slack 聊天记录"。
- 代表技术:Anthropic MCP 标准、各种开源的 MCP Servers。
这同样比较晦涩难懂,因为数据是一个企业和公司的核心,不会轻易的让Ai随意读取,之前都是通过指定的Api进行部分放行,而现在则是有统一的标准,实在是非常的方便。
6. Hooks(过程自动化和安全拦截)
- 核心定义:在 Agent 执行任务的生命周期(启动前、工具调用前、工具调用后、结束前)中,注入自定义逻辑的机制。
- 深度解释 :
- Hooks(钩子)带来了可控性、安全性和可观测性。它让开发者能在 Agent 的"思考间隙"强行干预。
- 应用场景 :
- 安全拦截 :当 Agent 决定调用
DROP TABLE(删库)的 Tool 之前,Hook 触发拦截,暂停进程。 - HITL(Human-in-the-loop):Hook 暂停执行,给人类管理员发送一条飞书消息:"Agent 准备发送这封群发邮件,是否批准?",点击批准后继续。
- 过程监控:记录每一次 Tool 调用的消耗 token 数和耗时,用于计费和日志。
- 安全拦截 :当 Agent 决定调用
- 代表技术:LangChain 的 Callbacks/Listeners、主流工作流引擎(如 Coze/Dify)中的节点控制。
这通常在编程中使用,核心就是拦截,如果熟悉vue和react的应该能快速理解,生命周期钩子函数嘛。
7. Plugins(把上面这些能力打包分发)
- 核心定义 :一种封装标准,将特定的 Rules、Skills、Tools 和 MCP 组合在一起,形成可分发、可交易、可安装的扩展包。
- 深度解释 :
- 随着上述组件的碎片化,开发者需要一种方式来分发自己的成果。
Plugins就像是 App Store 里的 App。 - 一个优秀的 Plugin 可能是:包含了特定提示词(Rule)、一个网页抓取能力(Skill)、一个查询天气的 API(Tool),打包在一起就成了"气象助手 Plugin"。
- 应用场景:GPT Store、Coze/Dify 插件市场、开源社区的能力分享。
- 随着上述组件的碎片化,开发者需要一种方式来分发自己的成果。
看看就行,一般非商业公司,这个基本可以不用考虑
💡 总结:如何协同工作
当用户下达一个复杂指令时:
- Rules 首先在潜意识层面对整个交互划定了边界(比如"严禁提供医疗诊断")。
- 主控 Agent 接到任务,决定将其拆分给下属的 Subagents 去并行处理。
- 其中一个 Subagent 开始工作,它调用了某个 Skill(如数据清洗逻辑)进行初步处理。
- 在需要获取外部数据时,Agent 决定调用某个 Tool ,但在工具真正执行前,Hooks 被触发,记录了日志并进行了鉴权拦截。
- 工具执行时,通过 MCP 标准协议,无缝连接到了公司的 Notion 库和 GitHub 仓库,安全地拉取了相关数据。
- 最终,所有这些配置好并能顺利运行的业务链路,被开发者打包成了一个 Plugin,上架给其他团队一键安装使用。
个人在不同场景下,这些技术应该怎么使用?
1:个人开发者(在公司中使用,项目属公司)
场景设定:你在公司做后端开发,使用 AI 辅助写代码、修 Bug、查日志。为了不泄露公司机密且符合公司规范,你搭建了本地化的 AI 工作流(如使用 Cursor 或 Claude Desktop)。
- Rules:公司强制的代码规范,以及防数据泄露的硬性约束。
- Hooks:拦截可能发给大模型的敏感密钥。
详细配置示例(基于 IDE 和本地环境):
json
// Rules 配置 (.cursorrules) - 长期约束
"""
你是一个高级 Java 工程师。
Rule 1: 必须使用 Spring Boot 3.x 语法。
Rule 2: 【安全底线】严禁在生成的代码中包含真实的数据库密码,必须使用 `System.getenv()`。
"""
// Hooks 配置 (本地中间件拦截器)
function preRequestHook(prompt) {
if (prompt.contains("sk-") || prompt.contains("password=")) {
throw new Error("【Hook 安全拦截】检测到 prompt 中包含敏感凭证,已阻止发送!");
}
return prompt;
}
2:个人开发者(开发个人项目,满足特殊需求)
场景设定:你是个效率极客,想要一个"私人信息管家"。它每天自动抓取特定的独立博客、推特和 arXiv 论文,整理翻译后生成一篇中文摘要推送到你的微信。
- Tools:需要具体的网页抓取、PDF解析能力。
- Skills:将"提取长文核心观点"、"多语言翻译"沉淀为可复用的技能。
- Plugins:使用开源社区别人写好的"微信推送插件"。
详细配置示例(基于类似 Semantic Kernel 或本地 Python 脚本):
python
# 1. Tools 定义 (底层能力)
@tool
def scrape_arxiv(url: str) -> str:
"""抓取论文的摘要文本"""
# ... bs4 抓取逻辑 ...
return text
# 2. Skills 定义 (复用的大模型逻辑,无需重写 Prompt)
class TextProcessingSkill:
def extract_core_ideas(self, text: str):
# 封装好的单步能力,内部其实是一个写死的高效 Prompt
return llm.invoke(f"提取以下文本的 3 个核心观点,以 JSON 返回:{text}")
def translate_to_chinese(self, text: str):
return llm.invoke(f"信达雅地翻译为中文:{text}")
# 3. 运行流程
def daily_workflow():
paper_text = scrape_arxiv("https://arxiv.org/abs/xxx") # 使用 Tool
ideas = TextProcessingSkill().extract_core_ideas(paper_text) # 使用 Skill
chinese_ideas = TextProcessingSkill().translate_to_chinese(ideas) # 使用 Skill
# 4. Plugins 调用 (直接调用安装好的第三方插件)
wechat_plugin = load_plugin("wechat_pusher_v2")
wechat_plugin.push(title="今日特供", content=chinese_ideas)
3:个人开发者(一人公司,标准可上线产品)
场景设定:你一个人在做一款"AI 自动化营销文案生成 SaaS"。你需要包揽客服、开发、营销等多个身份,因此高度依赖多智能体并行和第三方能力的快速集成。
- Subagents(核心发力点):你充当主控,下辖多个干活的 AI。
- Plugins:快速集成支付(Stripe)和邮件营销(Mailchimp),一人公司没时间从头写。
详细配置示例(基于 CrewAI/LangGraph 架构):
python
# 1. Subagents 架构
manager_agent = Agent(role="CTO兼CEO", goal="拆解任务并分发")
# 子 Agent 1:负责写代码修复客户提出的 Bug
coder_agent = Agent(
role="全栈开发",
tools=[github_read_tool, github_commit_tool],
rules="代码必须包含单元测试,且符合 PEP8 规范。" # Rules
)
# 子 Agent 2:负责发推特做增长
marketing_agent = Agent(
role="增长黑客",
tools=[twitter_api_tool],
rules="语气幽默,多带 Emoji,必须附带产品官网链接。"
)
# 2. 插件安装配置 (Plugin)
# 一个人精力有限,直接用官方插件包接 Stripe 查账
stripe_plugin = PluginManager.install("stripe_agent_toolkit")
manager_agent.add_plugin(stripe_plugin)
# 3. 执行任务
task = Task(description="今天发现支付接口偶发报错,且今天还没发营销推文,去处理一下。")
crew = Crew(agents=[manager_agent, coder_agent, marketing_agent], tasks=[task])
crew.kickoff() # Subagents 自动分工并行处理
4:公司团队使用(搭建内部标准化工作流)
场景设定:公司研发团队搭建了一个"AI 需求评审与代码审查系统"。任何员工提交代码前,必须经过该系统。强调流程标准化、合规性检查(Human-in-the-loop)。
- Rules:公司级硬性审计规范。
- Hooks(核心发力点):过程中的人工审批(HITL)以及审计日志留存。
- MCP:对接团队的内部飞书文档和内部 Confluence 知识库。
详细配置示例(基于 Dify/Coze 级的工作流引擎 JSON 表示):
yaml
# 团队 AI 审查流配置
workflow:
- step_1:
type: "MCP_Fetch"
description: "通过 MCP 读取 Confluence 里的《公司安全规范2026版》作为上下文"
- step_2:
type: "LLM_Review"
rules: "发现包含 SQL 注入风险直接打回,发现循环依赖警告重构。"
# Hooks 介入:重要节点的人工拦截
- step_3_hook:
type: "Human-in-the-loop (HITL)"
condition: "如果 AI 判定代码修改了核心支付逻辑 (core/payment/*)"
action: "挂起 (Suspend) 当前 Agent 进程,向 Tech Lead 的飞书发送审批卡片。"
on_approve: "继续执行 Merge Tool"
on_reject: "终止,回复开发者驳回原因"
# Hooks 介入:生命周期日志
- post_execution_hook:
type: "AuditLog"
action: "记录本次 Review 消耗的 Token 数,计入该员工所属部门的成本中心。"
5:公司使用(对外商业化产品,对接众多外部资源)
场景设定:公司开发了一款面向 C 端用户的"AI 跨境商旅规划师 App"。它需要对接全网的机票、酒店、当地天气、签证政策等数十个系统,并且应对高并发访问。
- MCP & Tools(核心发力点):海量异构数据源的标准化接入。
- Subagents:根据用户意图,动态路由给最专业的领域模型。
- Hooks:用户 PII 数据脱敏、计费统计。
详细配置示例(高并发企业级架构):
typescript
// 1. MCP 总线:公司不再为每个航司写对接代码,而是让航司/代理商提供 MCP 服务
const travelMcpBus = new MCPClient({
servers:[
"mcp://api.skyscanner.net/flights",
"mcp://api.booking.com/hotels",
"mcp://api.weather.com/forecast"
]
});
// 2. 意图路由机制 (Subagents 编排)
class RouterAgent {
async handle(userQuery) {
if (userQuery.includes("签证") || userQuery.includes("护照")) {
return VisaSubagent.execute(userQuery); // 专门处理合规和文档
} else {
return ItinerarySubagent.execute(userQuery, travelMcpBus); // 处理行程排期
}
}
}
// 3. 企业级 Hooks 链 (Middleware 模式)
app.useAgentHook(async (context, next) => {
// 【前置 Hook:脱敏】
context.prompt = PIISanitizer.mask(context.prompt); // 把用户的真实护照号打码替换为 [PASSPORT_NUM]
// 【执行 Agent 核心逻辑】
const result = await next();
// 【后置 Hook:计费与风控】
BillingSystem.charge(context.userId, result.usage.total_tokens);
if (result.content.includes("抱歉,系统错误")) {
AlertSystem.pageOnCallEngineer(); // 触发企业报警
}
return result;
});
💡 核心总结
这篇文档也是心血来潮想整理一下,一个是更加清晰的认识这几个概念有什么不同,一个还是说我们怎么更好的使用。
基于现在,我还是按照上面的描述,主要使用在公司的项目中,我的ide是cursor,对前台和后台项目分别配备了不同的Rules、Skills以及hooks,具体我就不展示了,大家可以根据自己的项目需求进行整理,相信对于Ai的使用你会更上一层楼,不过还是需要注意几点。
注意点(重点)
- 如果是个人使用,一般我们用到Rules、Skills+Hooks的组合基本就够用了。
- 不要给项目中增加太多的规则和约束,这样会让你的token消耗更加的迅速,而且速度将对来说会比较慢。
- 如果公司有条件和基础,可以搭建MCP服务,将公司的各种开发规范接入,正常都会有前后台或者其他的开发手册,这样可能更加的方便,此时Rules就适当可以减少,大部分就是个人的习惯写法了。