Skill/MCP/RAG/Agent/OpenClaw是什么

大语言模型详解

Large Lanage Model

简称LLM ,也就是大语言模型,是AI的最底层,几乎所有的大模型都是基于Transformer 架构训练出来的,大模型的底层架构就是它。

大模型的工作模式是文字接龙 ,向他提问问题后,他会预测下一个概率最高的,接着将这个词抓回来,追加到用户输入的后面,然后拿着新输入的输入,再去预测下一个词,以此类推,直到大模型吐出结束标识符,回答结束。因此在于AI的聊天中,AI的回答是流式回答,一个词一个词的吐出来。

Token------大模型处理文本的最基本单元

大模型本质上一个庞大的数学函数 ,进行了一系列的矩阵预算 ,其接收与输出的全都是数字 ,所以在人与大模型之间,必须有一个中间人来翻译,这个中间人就叫Tokenizer 。它负责编码与解码

综上在进行理解,用户提问大模型问题,Tokenizer会将文字转化成数字(编码 ),然后Tokenizer会把由Token Id列表 送进模型,模型运算后吐出新的TokenId。接着Tokenizer将TokenId翻译为Token(解码 )。最后我们就拿到了大模型吐出的第一个Token。如果大模型的输出还没结束,就会继续吐出第二、第三个Token,流程同上。因此Token就是大模型处理文本的最基本单元。

注:一个Token平均等于 0.75个英文单词 或者 1.5~2个汉字。

  1. 编码:把文字变成数字,核心分为两步。第一步切分 :把用户的问题接过来,拆成一个个最小的片段,这些片段也叫词元,俗称Token ;第二步映射 :由于大模型只认识数字,Tokenizer就会把每一个Token对应到一个数字上,这些数字就叫Token Id ,其与Token是一一对应的,Token是文字,Token Id是数字。
  2. 解码:把数字还原成文字,只有一步,那就映射 ,方向是跟编码相反 ,把数字转化成文字。解码环节是不需要切分的,因为模型每次只会吐出一个Token。

Context------上下文

大模型本质是数学函数,他不像人一样有记忆,大模型每次能记住之前的聊天内容,是因为我们每次给大模型发送消息的时候,并不只会发我们的问题,背后的系统会把之前的对话历史也发送过去,有了对话历史,大模型每次回答看到的都是完整的对话内容,所以它才能知道之前发生了什么。这就是引出了Context的概念。

Context,上下文,它代表了大模型每次处理任务时,所接收到的信息总和 。此外,Context里面还有很多其他内容,比如大模型正在输出的每一个Token、工具列表System Prompt 等信息。

我们在使用AI时,会有让他阅读文档,并且根据文档回答问题的场景,但在Context并不可能装下全部的文档,文档过长的话,即使大模型的Context Windows不会被撑爆,成本也无法控制。这就需要RAG 来协助,它可以从文档中抽取用户问题最为匹配的几个片段,然后只把这几个片段装入Context中,发送给大模型。

Prompt------提示词

Prompt,提示词,它是大模型接收的具体问题或指令。大模型会根据用户的Prompt来输出内容,相应的,Prompt越清晰,大模型输出的内容也越符合用户的预期。这就是为什么有个专门的领域叫做Prompt Engineering(提示词工程),说白了就是研究怎么把话说清楚,让大模型更精准的理解你的意图。

有时候我们不仅要告诉大模型具体处理的任务,还要告诉他人设和做事规则,也就是告诉大模型"它是谁",它应该按照什么规则做事,所以这就引出了两种不同的Prompt:说明具体任务的是User Prompt(用户提示词) ,与人设和做事规则的System Prompt(系统提示词)。User Prompt是用户输出的提示词,System Prompt是开发者在后台配置的提示规则;有了它们的配合,大模型既能守住规矩,又能完成用户的具体需求。

Tool------工具

大模型是无法感知外界环境的,自身的最新数据来自于大模型训练的截止时间。这时就需要Tool来协助。tool的本质就是给大模型提供一套可以调用的外部能力,让大模型可以感知和影响外部环境。

Tool,工具 ,你给它输入,他就会给你输出,所以也叫做函数,就相当于调用API。比如询问大模型今天的天气如何,它会调用查询天气的API,输入你的日期与坐标,返回查询的天气结果。

从用户提问到大模型的完整流程

角色:用户、大模型、工具、平台(传话筒,前面这三个工具无法直接对话,所以需要需要平台这个角色来传递信息,本质上就是一段代码,来负责上传下达)

  1. 首先,用户 会把问题发送给平台 ,然后平台把用户的问题和可用的工具列表 转发给大模型
  2. 大模型收到问题后会自己分析,比如用户想知道天气,而大模型本身没有实时的天气数据,但这里有天气查询工具可以使用;
  3. 大模型 本身无法调用工具,它只能输入输出文本,所以只能借助平台。大模型会生成一个调用天气查询工具的指令;
  4. 平台接收指令之后,会调用查询天气的工具(本质就是调用API)。调用结束后,平台会拿到查询结;
  5. 平台 将查询的接口返回给大模型 ,大模型拿到结果后,会把它整理成一句"人话",输出给平台
  6. 平台 把这句话在转发给用户,这样用户就可以看到结果了。

大模型 的职责有两个,第一个是选择工具 ,选择需要调用的工具,生成调用工具的参数;第二个是归纳总结 ,再拿到工具的执行结果后,模型需要对工具的结果做一个归纳总结。
工具 的职责是完成查询天气这个动作。
平台 的职责就是串联起整个流程,告诉大模型哪些工具可用、根据模型的调用指令来调用工具等等。所以调用工具的角色并非模型,则是平台

MCP

上述的使用工具流程中,有两个工程上的大问题,第一是平台要把工具列表传给模型,第二还要能调用工具。要做到这些首先就得把工具接入到平台里面,这样平台才知道可用工具列表以及每个工具的用途、参数和调用方法等等。

这套接入规范 每个平台都不一样,ChatGPT、Claude、Gemini这些平台的接入标准都不一样,同一个工具要写三遍,因为每个平台的接入标准都不一样。因此诞生了新的概念MCP ,统一的接入规范,Model Context Protocol 翻译过来就叫模型上下文协议 ,可以将其理解为统一的工具接入标准。有了MCP之后,工具的开发者只需要按照MCP的规范开发一次工具,这个工具就可以被所以支持MCP的平台使用了。解决传统 AI 集成的 M×N 适配难题

因此,MCP本质就是能让大模型更好的使用各类工具的一个协议 。比如借助MCP可以让大模型使用浏览器上网查询信息、可以让模型操纵Unity编写游戏、也可以让模型查询实时路况。(注意,大模型只是决策调用哪个工具,真正执行的是Agent

原理

在 MCP 架构里分三分:Host‑Client‑Server。

  1. Host(宿主):AI客户端,运行LLM应用(如Claude DeskTop、Idea等等)。负责任务调度、用户交互、安全策略与权限控制。
  2. Client (客户端):Host内的翻译官 ,与Server建立有状态会话 ,基于JSON-RPC封装请求、相应,处理链接、协商、消息路由。
  3. Server(服务端):封装外部能力,统一暴露为三类标准化原语:Tools-可执行操作、Resources-可读数据、Prompts-可复用模板与指令。

其工作内容如下:

  1. 连接与能力协商,Client与Service握手,互相声明支持的能力(比如Server提供哪些工具),建立会话。
  2. 模型请求工具调用,Host内LLM生成调用指令,由Client封装为MCP标准请求。
  3. Server执行并返回结果,Server解析请求,调用底层工具、数据源,结果按照MCP标准返回Client,再由Client整合进模型上下文。
  4. 会话维持与安全控制,连接可常驻,支持双向通知;全程受 Host 安全策略管控(权限、审计、脱敏)。

其中关键的技术原理:

基于 JSON‑RPC 的有状态会话:区别于 HTTP 的无状态,MCP 维持会话上下文,支持多轮交互与流式输出。

能力驱动 的解耦设计:模型与工具仅通过标准化能力 接口交互,互不感知内部实现,彻底解耦。

安全边界隔离:Host 集中管控权限,Client/Server 按最小权限原则通信,降低安全风险。

最后,在强调一下MCP解决的核心问题:

平台与工具的调用并不依赖MCP,MCP只是从 M×N 定制变为 1×1 标准适配,解决继承成本高 的问题;统一接口让所有工具可被任意模型调用。内置权限、审计、脱敏机制,让安全可控;标准化上下文格式,支持跨工具状态共享。

MCP Host

Mcp Host本质上是一个支持MCP协议的软件,常见的MCP Host包括Claude Desktop、Cursor、Cline、Cherry Studio等等,

MCP Server

MCP Server是遵循MCP开发的能力服务端,专门用来把本地的文件、数据库、API、业务系统、本地工具等能力,包装成大模型标准调用的接口 。直白点的理解就是MCP Server 就是给 AI 大模型用的功能插件服务器,大模型想读文件、查数据库、操作本地代码、调用接口,都靠 MCP Server 干活。

MCP的核心职责与架构定位

MCP Server 是 MCP 协议的能力提供端,核心职责是将底层资源(文件、数据库、业务系统)或工具(Shell 命令、API 调用)封装为 MCP 标准定义的Tools/Resources/Prompts 三类能力,暴露给 MCP Client 供大模型标准化调用,本质是AI 可理解的能力适配器

在 MCP 的 Host-Client-Server 三层架构中,MCP Server 属于能力层,是唯一直接对接实际业务资源 / 工具的角色,MCP Client(协议层)负责协议转换,Host(应用层)负责调度与安全控制,三者通过 JSON-RPC 2.0 维持有状态会话。

MCP Service与普通Http接口服务的区别

对比维度 普通 HTTP 接口 MCP Server
设计目标 服务于程序间数据交互 服务于大模型的能力调用
会话特性 无状态(需额外维护上下文) 有状态(原生支持多轮交互)
能力暴露 需手动文档说明接口用途 自动声明能力元数据(如工具名称、参数格式),大模型可自动发现
上下文支持 不原生支持流式输出 / 状态共享 内置会话上下文,支持流式响应与跨调用状态传递
安全机制 需自定义权限控制 遵循 MCP 最小权限原则,受 Host 统一管控(审计、脱敏)

MCP Server是如何通过技术实现一次开发,多模型复用

核心是标准化解耦,MCP Server 的设计从 3 个层面实现复用:

  1. 接口标准化 :MCP Server 必须遵循 MCP 协议定义的统一接口规范(基于 JSON-RPC 2.0),对外暴露固定格式的能力声明接口调用接口,无论底层是 MySQL 还是本地文件,上层模型(Host)只需按标准格式请求,无需关心实现细节。
  2. 能力元数据标准化:MCP Server 启动时会主动上报能力元数据(如工具名称、参数类型、返回格式、权限要求),元数据格式由 MCP 协议统一定义,大模型可通过元数据自动理解如何调用
  3. 通信格式标准化:请求 、响应体必须按 MCP 规范封装(如请求包含 capability_id、parameters、session_id,响应包含 result、status、context),Java 开发中可通过定义统一的 DTO 类(如 McpRequestDTO、McpResponseDTO)强制适配,避免自定义格式导致的适配成本。

Agent

Agent,简单说,它是一个能自己思考、自己规划、自己干活的 AI。它的核心原理:四大模块 + 闭环工作流

四大模块:一个大脑 + 三大组件

  1. 大脑(LLM 大模型):负责理解、推理、决策,是智能核心,它负责决定根据用户的问题,来调用哪些工具;
  2. 感知模块:接收文本、图像、语音、工具返回等信息;
  3. 记忆系统(短期 + 长期):短期记忆:保存当前对话上下文;长期记忆:数据库 / 向量库,存储历史经验、知识库,随时调取;
  4. 工具调用(手脚):联网搜索、API、数据库、代码解释器、硬件控制等。

工作闭环流:感知→决策→执行→反馈→迭代

  1. 感知:接收目标与环境信息(如用户需求、工具返回数据);

  2. 认知推理:LLM 理解目标,用思维链 拆解任务,制定计划;

  3. 工具调用:判断是否需要外部工具(如查天气、调 API),生成调用参数;

  4. 执行与反馈:执行动作,接收结果,判断是否完成或需要重试 / 调整;

  5. 记忆更新:把关键结果、经验存入长期记忆,供后续任务参考;

Agent Skill

Agent Skill 就是提前写好塞给Agent的一份说明文档,一份Markdown文档(本质还是提示词Prompt)。整体结构可以分为两部分:

  1. 元数据层 :整个说明文档的封面,告诉Agent这个技能叫什么,是做什么事的。其至少要有两个属性,namedescription;name代表这个Agent Skill的名字,description就是描述。
  2. 指令层:这层的格式不做具体要求,只要能把事情向Agent说明清楚即可。比如可以分为目标---执行步骤---判断规则---输出格式,可以在详细给出示例。
相关推荐
南宫萧幕1 小时前
基于 Simulink 与 Python 联合仿真的 eVTOL 强化学习全链路实战
开发语言·人工智能·python·算法·机器学习·控制
HDD9851 小时前
2026年录音转文字工具实测:免费且好用的选择有哪些?
人工智能·语音识别·效率工具·语音转文字
跨境卫士苏苏1 小时前
经营变量持续增加之下跨境团队如何减少月度计划偏差
大数据·人工智能·内容运营·亚马逊·跨境
m0_466525291 小时前
东软添翼医疗大模型领跑 医疗AI进入“可信时代”
人工智能
美团技术团队1 小时前
美团 LongCat 开源 General 365:树立推理评测新标尺
人工智能
eastyuxiao1 小时前
能源电力领域的数字孪生应用场景有哪些
大数据·人工智能·智慧城市·能源·数字孪生
张二娃同学1 小时前
第08篇_RNN_LSTM_GRU序列模型
人工智能·python·rnn·深度学习·神经网络·gru·lstm
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月13日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理
我的世界洛天依1 小时前
胡桃讲编程|公益开源模型「初音未来」R1 声库(RVCv2 第一代)开发日志:低配 1050Ti 也能训的经典国语声线
人工智能