前言
大模型从单纯对话走向自主思考、任务规划、工具调用、闭环执行,核心载体就是 AI Agent。很多开发者只知道 Agent 能自动干活,却搞不懂从输入一句话到拿到最终结果,中间经历了哪些分层环节、每个模块承担什么职责、专业名词到底是什么含义。

一、AI Agent整体架构分层
先建立全局认知,整套流程分为六层架构,自上而下依次为:
- 用户层:任务发起方,输入自然语言需求
- Agent 调度层:全局大脑中枢,负责接收、调度、路由、结果汇总
- Skill 技能封装层:标准化工具能力抽象,屏蔽底层工具差异
- LLM 大模型层:负责语义理解、意图识别、任务拆解、参数生成、答案整编
- MCP 协议中间层:工具注册、发现、路由、API 调度的统一网关
- 外部工具层:搜索、数据库、代码执行、接口服务、文档解析等实际能力载体
在实际过程中,依次经过的层级是:Agent → LLM(思考)→ Skill(能力封装)→ MCP(工具网关)→ Tool(实际干活)
核心设计思想:分层解耦、单一职责、标准化接入、可插拔扩展。新增工具不用改 Agent 核心逻辑,新增业务能力只需封装 Skill 即可。
二、相关术语
1.LLM大语言模型
(1)通俗解释
LLM 就是 AI Agent 的大脑 。只会思考、理解、拆解、写文字、做决策 ,但是不会联网、不会查数据库、不会运行代码、不会调用外部接口,只能动脑子,不能动手干活。
(2)专业定义
LLM(Large Language Model,大语言模型)是基于海量文本预训练生成的生成式大模型,具备语义理解、意图识别、逻辑推理、任务拆解、文本生成、参数编排能力。
2.Skill技能层
(1)通俗解释
Skill 是 Agent 的能力包装壳。把底下乱七八糟的工具(搜索、查库、代码执行、生成表格)统一包装成标准化 "技能",让上层 Agent 不用管底层工具长什么样,只需要调用技能就行。
类比:你手机里有「拍照」技能,底层可以用主摄、超广角、长焦,但你只点「拍照」,不用管调用哪颗摄像头。
(2)专业定义
Skill(智能体技能)是对同类工具能力的高层抽象与标准化封装层,统一规范工具的入参、出参、调用逻辑、返回格式,屏蔽底层工具的异构差异。
(3)在 Agent 里的核心作用
- 把多个底层工具收拢成一个统一能力(如「全网搜索技能」底下挂多个搜索引擎)
- 统一参数格式、统一结果返回格式
- 承载上下文、用户偏好、权限和限流配置
- 给 LLM 生成参数做草稿、做约束
3.MCP模型控制协议
(1)通俗解释
MCP 就是 工具统一网关 + 调度中心。所有外部工具都在 MCP 里注册登记,Agent 和 Skill 要调用工具,都找 MCP,由 MCP 帮你找工具、发请求、收结果、做异常处理。
类比:MCP 像物业前台,所有服务(修水电、保洁、维修)都在前台登记,你不用挨个找师傅,直接找前台,前台帮你派单、对接、反馈结果。
(2)专业定义
MCP(Model Control Protocol,模型控制协议)是 AI Agent 体系中工具注册、服务发现、路由调度、API 网关、协议标准化的中间层,是连接「Skill/Agent」与「外部工具」的统一通信协议与调度枢纽。
(3)MCP 核心职责
- 工具注册:维护全局工具注册表,记录每个工具功能、接口地址、参数规范
- 服务发现:根据任务需求自动匹配最合适的工具
- 协议转发:统一组装请求、调用工具真实 API
- 管控能力:统一做权限校验、限流、超时、熔断、异常降级
- 结果标准化:把不同工具返回的五花八门数据,统一格式返回给上层
三、AI Agent 全流程精讲
1.第一阶段:用户请求接入 + 记忆上下文加载
(1)用户发起自然语言 Query
用户输入一句复杂任务指令,例如:
帮我整理近一年国内光伏行业财报数据,做同比对比并生成 Markdown 分析表格。
核心关键词:Query:用户以自然语言表达的原始任务请求,是整个 Agent 链路的入口。Query 的清晰度、是否隐含多步骤诉求,直接决定后续意图识别和任务拆解的准确率。
(2)Agent 接收请求并做基础校验
Agent 作为统一入口网关,承接用户请求,完成:会话绑定、权限校验、非法请求过滤、请求头与身份信息封装。
(3)历史对话 & 长期记忆检索
Agent 根据会话 ID,从记忆库拉取短期会话上下文 +长期用户记忆:
- 短期记忆:当前聊天上下文、上一轮问答内容
- 长期记忆:用户使用习惯、偏好格式、历史任务特征
核心关键词:Memory 记忆检索: AI Agent 区别于普通大模型对话的核心能力之一。让 Agent 拥有连续对话能力 和个性化服务能力,能省略重复前提、指代上文需求、适配用户固有习惯。
2.第二阶段:LLM 语义理解 + 任务规划
(1)LLM 意图识别 + 复杂任务拆解
Agent 把「用户 Query + 历史上下文」送入大模型,LLM 完成两大核心动作:
- 意图识别:精准判定用户真实诉求类型(数据查询 / 文本创作 / 数据分析 / 多工具协同任务等);
- 任务拆解 :把一个无法一步完成的复杂大任务,拆成多个可串行 / 可并行执行的原子子任务。
**核心关键词:意图识别 Intent Recognition:**大模型通过语义理解,消歧、补全隐含信息,锁定用户底层真实目的,解决自然语言模糊、口语化、省略前提的问题。
核心关键词:任务拆解 Task Decomposition: 将模糊、高复杂度的目标,拆分为顺序明确、依赖清晰、可单独执行的子步骤。是 Agent 具备自主解决复杂任务的底层核心。
(2)LLM 生成结构化执行计划
大模型输出一份可被 Agent 解析的执行 Plan,包含:
- 子任务执行先后顺序
- 哪些步骤需要调用外部工具
- 步骤间依赖关系
- 每一步预期输出格式
**核心关键词:执行计划 Execution Plan:**Agent 后续调度执行的 "施工蓝图",决定整个任务怎么走、先做什么后做什么、何时调用工具、何时直接生成文本。
3.第三阶段:技能匹配 + 调用参数编排
(1)Agent 接收并解析执行计划
Agent 接收 LLM 返回的计划,做结构化解析,标记出需要工具调用的节点和纯文本生成节点,分流进入不同处理分支。
(2)判断是否需要调用 Skill / 外部工具
- 纯文案写作、简单总结:无需工具,直接走 LLM 生成回复;
- 实时数据、联网搜索、数据库查询、代码运算、可视化生成:必须调用工具技能。
(3)路由匹配对应 Skill
Agent 按任务类型路由到对应技能:搜索 Skill、数据分析 Skill、代码执行 Skill、报表生成 Skill 等。
(4)Skill 加载上下文与自身能力配置
Skill 读取当前会话上下文、用户偏好,同时加载自身配置:参数约束、调用限流、权限范围、支持返回格式。
(5)Skill 生成工具调用参数草案
Skill 根据任务目标,先粗粒度整理出调用关键词、时间范围、数据维度等,形成参数草稿,避免无边界调用。
(6)LLM 补全、优化、标准化调用参数
由大模型结合用户原始需求,对参数草案做精修、补全、约束格式化,输出完全符合下游工具 API 要求的标准入参。
4.第四阶段:MCP 协议层调度 + 工具实际执行
(1)Agent 通过 Skill 发起工具调用请求
封装好的标准参数经由 Skill 回传给 Agent,由 Agent 统一向外发起调用请求。
(2)MCP 完成工具发现与最优选择
- 维护全局工具注册表(功能描述、接口地址、入参出参规范)
- 按任务需求做工具发现、匹配、择优选择
- 统一做权限、限流、超时、异常熔断
- 屏蔽异构工具接口差异
MCP 的价值:工具可插拔、协议统一、接入无需改动 Agent 核心代码。
(3)MCP 调用具体工具 API
MCP 按协议标准组装 HTTP / 内部 RPC 请求,调用目标工具的真实接口。
(4)外部工具执行具体业务逻辑
核心关键词:Tool 外部工具: 大模型本身有知识但无实时性、无联网能力、无执行能力、无法操作外部系统,Tool 就是能力延伸载体。常见类型:
- 检索类:全网搜索、知识库检索、企业内部文档检索
- 计算类:代码解释器、计算器、数据分析
- 业务类:数据库查询、工单系统、邮件推送、可视化图表生成
- 创作类:文生图、PPT 生成、文档导出
工具执行完毕,返回原始结果给 MCP。
(5)MCP 接收结果并做标准化封装
MCP 做结果合法性校验、异常捕获、格式统一转换,把异构工具返回值抹平为统一结构,回传给 Agent。
5.第五阶段:结果整编 + 最终答案输出
(1)Skill 解析、校验、格式化工具返回结果
对应 Skill 负责:有效信息提取、脏数据过滤、格式规整、适配用户偏好(如固定 Markdown 表格、极简文本等)。
(2)Agent 多结果聚合 + 上下文再整合
若任务涉及多轮多工具调用,Agent 统一聚合所有子任务结果,结合初始需求和会话上下文,整理成完整信息上下文。
(3)LLM 基于整合信息生成最终回答
大模型不再凭空生成,而是基于用户需求 + 工具真实数据 + 执行结果,做逻辑梳理、总结解读、格式美化,输出符合人类阅读习惯的最终内容。
(4)Agent 返回最终结果给用户
Agent 做最后一层格式适配、排版优化,推送到前端对话界面,完成从提问到结果的全流程闭环。
三、底层架构设计关键思想
- 分层解耦:用户 - Agent-Skill-LLM-MCP-Tool 每层各司其职,改动某一层不影响其他层;
- 大模型负责思考,Agent 负责调度,工具负责干活:分工明确,最大化发挥各模块优势;
- 标准化协议与封装:通过 Skill+MCP 两层封装,实现工具即插即用,适合企业级大规模落地;
- 记忆 + 规划 + 工具 + 反思闭环:完整复刻人类 "思考 - 拆分 - 找资源 - 做事 - 总结" 的行为逻辑。
四、结语
AI Agent 不是大模型的简单包装,而是一套语义理解→任务规划→技能匹配→协议调度→工具执行→结果整编的完整工程架构体系。
看懂这一整套流程,就能更好的理解Agent产品的底层逻辑