Cursor Agent Skill 原理及LLM , Agent, MCP ,Skill区别

//////////////////////////////////////////////////////////////////

原理与核心概念

  • Agent 定义:Cursor 内置的"自主任务执行器"。你给出目标,它会自主规划步骤、调用文件读取、搜索、编辑、运行命令等能力完成任务,并把状态同步给你。
  • Skill(技能包):告诉 Agent 你允许它做哪些操作、有哪些上下文约束。常见分类:
  • 读/查:读文件、全文搜索、代码语义搜索。
  • 写/改:编辑文件(apply patch)、批量替换。
  • 终端:运行命令、启动/终止进程。
  • 对话/计划:分解任务、生成 TODO、进度同步。
  • 工作流原理:
  1. 你提交目标 → Agent 生成计划(可见的分步);

  2. 按计划依次调用技能(读/写/终端等),每步有输出日志;

  3. 重要操作前会请求确认(如运行命令、覆盖文件);

  4. 完成后总结结果、给出后续建议。

  • 安全/可控性:技能集是白名单;风险操作(安装、长跑命令、大改动)会提示确认;日志透明、可随时中断。

使用操作步骤

  1. 打开入口
  • 方式 A:左侧 "Agent" 按钮(或底部状态栏的 Agent 入口)。
  • 方式 B:命令面板(Ctrl/Cmd+Shift+P)输入 "Agent" 或 "Run Task with Agent"。
  • 方式 C:在文件编辑区或终端中选中文本后,右键 "Ask Agent"/"用 Agent 处理"。
  1. 配置技能范围(可选但推荐)
  • 首次使用或任务前,在 Agent 窗口点击 "Skills"/"Permissions"。
  • 勾选允许的技能:读文件、编辑、搜索、运行命令等;禁用不想让它碰的能力。
  • 若担心改动,先只开读/查技能,编辑和命令保持关闭或需确认。
  1. 设定目标与上下文
  • 在 Agent 对话框输入明确目标和限制,例如:
  • "在 app/src 找登录崩溃原因,给出修复建议,暂不改代码,只读文件。"
  • "添加单元测试覆盖 UserService.validate,使用 Jest,不要改生产代码。"
  • 若需要提供额外上下文(依赖、环境变量、已有约束)一起写清楚。
  1. 查看并确认计划
  • Agent 会输出分步计划(如:查找日志位置 → 阅读文件 → 定位 bug → 提交补丁)。
  • 审核计划,必要时修改指令或补充限制(如"不要运行 npm install")。
  1. 执行与交互
  • Agent 会逐步执行技能。对于敏感操作会弹出确认(特别是终端命令/大改文件)。
  • 你可以随时:
  • 让它"继续"、"跳过这步"、"只读不写"、"停止"。
  • 追加指令细化范围,如 "只看 src/auth 目录" 或 "不要修改 TS 配置"。
  1. 结果与落地
  • 结束后 Agent 会总结:改了哪些文件、做了哪些命令、还有哪些 TODO。
  • 如已生成补丁,检查 diff;如只给建议,可手动采纳或让 Agent 再执行。

提示与最佳实践

  • 给清晰边界:目录范围、可用命令、是否允许写文件/安装依赖。
  • 渐进授权:先让 Agent 读/查,确认方向正确再允许写/跑命令。
  • 大改前让它先出"计划 + 补丁草案",你审核后再让它应用。
  • 保持对话:要求它在每个关键步骤停下确认("每次写文件前先问我")。
  • 长任务可分段:先定位问题,再单独开一个指令让它修复并补测试。
  • 如果 Agent 卡住或方向不对,直接说明"换方案"或"重来,仅做 X"。

/////////////////////////////Agent skill 和 MCP 的区别和相同点/////////////////////////////////////

相同点(它们解决的问题很像)

  • 都是"让模型做事"的扩展机制:把纯聊天变成能调用外部能力(读写文件、查资料、跑命令、调 API)。
  • 都强调可控与可审计:一般会有权限/确认/日志,避免模型"凭空操作"。
  • 都需要"工具描述":让模型知道有哪些工具可用、参数是什么、何时用哪个工具。
  • 都能组合成工作流:一次任务里会串联多个工具调用(搜索 → 读文件 → 修改 → 验证)。

核心区别(一句话)

  • Agent skill通常是"某个产品(如 Cursor)内置的工具/能力集合与权限体系";
  • MCP(Model Context Protocol)是"把外部工具/数据源以统一协议接给模型/客户端的标准化接口"。

详细区别(按维度拆开讲)

1) 层级与定位

  • Agent skill:偏"应用层/产品内能力"。Cursor 自带的读文件、改文件、grep、跑终端、管理 TODO 等,通常就是 skills。它决定"在 Cursor 里能做什么"。
  • MCP:偏"集成层/协议层"。它定义客户端(如 Cursor/其他 IDE/聊天客户端)如何与外部 MCP Server 通信,让模型获得额外上下文与可调用工具。

2) 工具从哪里来

  • Agent skill:多数来自产品内置(IDE 对工作区、终端、git 的控制),由 Cursor 直接实现与维护。
  • MCP:工具来自外部 MCP Server(你/团队/第三方部署),比如:
  • 访问内部知识库、工单系统、CI、数据库、云资源
  • 封装公司内部 API
  • 统一接入多个 SaaS(Jira、GitLab、Notion 等)

3) 标准化与可移植性

  • Agent skill:通常是"厂商定义",离开 Cursor 可能就不通用(别的客户端未必有同名技能/同样参数)。
  • MCP:目标是"跨客户端通用"。同一个 MCP Server,理论上可被多个支持 MCP 的客户端复用(取决于具体客户端支持程度)。

4) 权限与安全边界

  • Agent skill:权限边界通常是"IDE 本地环境 + 当前工作区 + 终端命令"。控制点多在 Cursor UI(允许/拒绝、每次确认等)。
  • MCP:权限边界更多在Server 端(你暴露什么工具、能访问哪些数据、鉴权怎么做、审计怎么留)。客户端也会再做一层"是否允许模型调用该工具"的限制。

5) 上下文(Context)能力

  • Agent skill:强在"对本地代码与编辑器环境的上下文"(文件结构、打开的文件、diff、lints、终端输出)。
  • MCP:强在"把外部上下文源标准化接入"(文档库、业务数据、运行时状态、远端日志、私有系统)。

6) 运行位置

  • Agent skill:多在本机/IDE 环境执行(读写本地文件、运行本机命令)。
  • MCP:多是"客户端 ↔ 外部 Server"网络调用;真正的动作/数据访问发生在 server 侧或其后端系统。

7) 工程化与团队协作

  • Agent skill:更多是个人工作流(写代码、改工程、跑测试)。
  • MCP:更适合团队"平台化"------把公司能力封装成可复用的工具集(版本管理、权限控制、可观测性、审计、SLA)。

它们的关系:常见组合方式

  • Cursor Agent + 内置 skills:完成本地编码闭环(查、改、跑)。
  • Cursor Agent + MCP:在内置 skills 之外,额外拥有"公司工具箱"(查内部知识、拉取工单信息、触发 CI、查线上日志等)。
  • 直观理解:Agent skill 是"手和脚"(本地可执行能力),MCP 是"外接工具与数据源的标准插槽";两者可以叠加。

典型对比例子

  • 只用 Agent skill 就能做:
  • 在仓库里搜索、定位 bug、改代码、跑 npm test
  • 引入 MCP 后还能做:
  • 调用 "查询线上错误聚合" 工具拉到最近 24 小时的错误样本
  • 从 "内部知识库" 拉到相关架构文档
  • 从 "工单系统" 拉到需求与验收标准
  • 触发 "CI 构建/发布" 并回传链接与结果

////////////////////////////LLM , Agent, MCP ,Skill 区别///////////////////////////////////

LLM(Large Language Model,大语言模型)

  • 是什么:用海量文本训练出来的概率模型,输入一段文本后,预测"下一个 token(词/字片段)最可能是什么",从而生成回答、代码、总结等。
  • 原理核心:
  • Transformer 架构做注意力计算,学习"上下文里哪些词重要"。
  • 训练阶段主要是自监督学习(预测下一个 token),再叠加指令微调与对齐(如偏好优化/安全约束),让它更像"助手"而不是纯续写器。
  • 能力边界:擅长语言与模式归纳;不自带真实世界权限、也不保证事实正确,需要外部检索/工具来补强。

Agent(智能体)

  • 是什么:在 LLM 外面加一层"能自主做事"的系统,让模型不只回答,还能规划 → 执行 → 观察结果 → 再规划,直到完成目标。
  • 原理核心:
  • 目标驱动:你给目标与约束(例如"修复 bug、跑测试、别改某目录")。
  • 计划/分解:把任务拆成步骤(查找 → 定位 → 修改 → 验证)。
  • 工具调用(Tool Use):调用搜索、读文件、改文件、运行命令、访问 API 等。
  • 反馈回路:执行后读取输出(终端/日志/文件差异),再决定下一步。
  • 为什么比纯聊天强:能把"推理"落地成"行动",并用真实结果纠偏。

Skill(技能)

  • 是什么:Agent 可用的"具体能力/工具集合",相当于给 Agent 配的"功能按钮/白名单"。
  • 原理核心:
  • 每个 skill 都有清晰的输入/输出(例如:grep(pattern, path) 返回匹配行)。
  • Agent 通过 LLM 决策"何时用哪个 skill",再用结果继续推理。
  • 通常还带权限控制与确认机制(比如能不能写文件、能不能跑命令)。
  • 举例:读文件、语义搜索、批量改代码、运行单测、生成 PR 描述等。

MCP(Model Context Protocol)

  • 是什么:一种把外部数据源/外部工具用统一方式"接到模型/客户端"的协议(可以理解为"标准化工具插槽")。
  • 原理核心:
  • 你(或第三方)运行一个 MCP Server,它暴露:
  • Tools:可调用动作(查工单、查数据库、触发 CI、拉日志等)
  • Resources:可读取的上下文资源(文档、页面、记录等)
  • 支持 MCP 的客户端(IDE/聊天应用)把这些能力呈现给 Agent,Agent 就能像调用本地 skill 一样调用外部能力。
  • 价值:让工具集成更标准化、可复用、可治理(鉴权、审计、权限边界在 server 侧更容易管)。

它们之间的关系(最常见的组合)

  • LLM:负责理解与生成("大脑的语言与推理能力")
  • Agent:负责规划与执行闭环("大脑 + 行动策略")
  • Skill:Agent 的本地/内置工具箱("手脚")
  • MCP:把外部工具与数据接进来("外接扩展坞/USB-C")

///////////////////////////////////////////////////////////////////////////

//////////////////////////////////////////////////////////////////////

相关推荐
Joker可视化开发平台2 小时前
Joker重磅发布AIx智绘工坊!无限画布重构AI创意生产新范式
人工智能·ai
阿杰学AI2 小时前
AI核心知识68——大语言模型之NSP (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·nsp·下一状态预测
TheNextByte12 小时前
如何将通话记录从Android传输到PC
android
海绵宝宝de派小星2 小时前
NLP核心任务(分词、词性标注、命名实体识别等)
人工智能·ai·自然语言处理
小真zzz2 小时前
AI美化年终总结PPT的具体操作方案
人工智能·ai·powerpoint·ppt·chatppt
灵感菇_2 小时前
Android Fragment全面解析
android·生命周期·fragment
web_Hsir2 小时前
uniapp + vue2 + pfdjs + web-view 实现安卓、iOS App PDF预览
android·前端·uni-app
一起养小猫2 小时前
Flutter for OpenHarmony 实战:Container与Padding布局完全指南
android·flutter·harmonyos
HeDongDong-2 小时前
详解Kotlin的各种类(使用场景导向)
android·开发语言·kotlin