从用户提问到结果返回的 20 步拆解(基于泳道图严格顺序转换)
以下是泳道图概述:

以下是交互步骤的说明:
一、流程概览
本流程描述了 AI Agent 从接收用户请求到最终返回结果的完整链路,涉及 6 个核心角色/模块:
| 序号 | 泳道 | 职责 |
|---|---|---|
| 1 | 用户 | 发起请求,接收最终结果 |
| 2 | 智能体(Agent) | 调度中枢,负责请求分发、上下文整合与结果返回 |
| 3 | Agent Skills | 技能层,负责路由匹配、策略组织与结果解析 |
| 4 | 大模型(LLM) | 认知核心,负责意图识别、计划生成、参数补全与最终回答生成 |
| 5 | MCP | 工具中间件,负责工具发现、调用编排与结果接收 |
| 6 | 工具 | 外部能力,执行具体任务 |
二、20 步全流程详解(严格顺序)
第一阶段:请求接收与意图理解
步骤 1:用户提问 (Query)
- 所属泳道:用户
- 说明:用户向 AI Agent 发起自然语言提问或指令。
步骤 2:Agent 接收请求
- 所属泳道:智能体(Agent)
- 说明:Agent 作为入口网关,接收并解析用户的原始请求。
步骤 3:历史对话 / 记忆检索
- 所属泳道:智能体(Agent)
- 说明:Agent 检索历史对话记录与长期记忆,为后续上下文理解提供支撑。
步骤 4:LLM 意图识别与任务拆解
- 所属泳道:大模型(LLM)
- 说明:Agent 将用户请求与上下文发送至 LLM,由 LLM 进行意图识别,并将复杂任务拆解为可执行的子任务。
步骤 5:生成执行计划
- 所属泳道:大模型(LLM)
- 说明:LLM 基于意图识别结果,生成结构化的执行计划,明确任务执行路径。
步骤 6:Agent 接收执行计划
- 所属泳道:智能体(Agent)
- 说明:Agent 从 LLM 获取生成的执行计划,准备进入执行调度阶段。
第二阶段:技能匹配与策略组织
步骤 7:判断是否需要调用 Skills / 工具
- 所属泳道:智能体(Agent)
- 说明:Agent 根据执行计划判断当前任务是否需要调用外部 Skills 或工具,若无需调用则直接进入最终回答生成阶段。
步骤 8:路由到匹配 Skill
- 所属泳道:Agent Skills
- 说明:如需调用工具,Agent 将请求路由至 Agent Skills 层,由 Skills 进行能力匹配。
步骤 9:Skill 读取上下文与能力配置
- 所属泳道:Agent Skills
- 说明:匹配的 Skill 读取当前对话上下文,并加载自身的能力配置与约束条件。
步骤 10:Skill 组织调用策略与参数草案
- 所属泳道:Agent Skills
- 说明:Skill 根据任务目标组织调用策略,生成初步的参数草案(参数框架)。
步骤 11:LLM 补全具体调用参数
- 所属泳道:大模型(LLM)
- 说明:Skill 将参数草案发送至 LLM,由 LLM 基于上下文补全具体的工具调用参数。
步骤 12:Agent 通过 Skill 发起调用请求
- 所属泳道:智能体(Agent)
- 说明:Agent 整合 LLM 补全后的参数,通过 Skill 向 MCP 层发起正式的调用请求。
第三阶段:工具执行与结果回传
步骤 13:MCP 工具发现与选择
- 所属泳道:MCP
- 说明:MCP(Model Context Protocol)接收调用请求后,在工具池中进行工具发现与最优选择。
步骤 14:MCP 调用具体工具 API
- 所属泳道:MCP
- 说明:MCP 将参数映射至目标工具的标准 API 接口,发起具体调用。
步骤 15:工具执行具体任务
- 所属泳道:工具
- 说明:外部工具(如搜索引擎、代码执行器、数据库等)接收 API 请求,执行具体任务。
步骤 16:MCP 接收工具执行结果
- 所属泳道:MCP
- 说明:工具完成任务后返回原始结果,MCP 接收并进行初步封装。
步骤 17:Skill 解析 / 校验 / 格式化结果
- 所属泳道:Agent Skills
- 说明:MCP 将结果回传至 Skill,Skill 对原始结果进行解析、有效性校验与格式化处理。
步骤 18:Agent 整合 Skill 结果与上下文
- 所属泳道:智能体(Agent)
- 说明:Agent 接收 Skill 处理后的结构化结果,将其与历史上下文进行整合。
第四阶段:最终回答生成与返回
步骤 19:LLM 生成最终回答
- 所属泳道:大模型(LLM)
- 说明:Agent 将整合后的上下文与工具结果发送至 LLM,由 LLM 生成面向用户的自然语言最终回答。
步骤 20:Agent 向用户返回结果
- 所属泳道:智能体(Agent) → 用户
- 说明:Agent 接收 LLM 生成的最终回答,格式化后向用户返回结果,完成整个交互闭环。
三、流程总结与转换
3.1 阶段划分
| 阶段 | 步骤范围 | 核心目标 |
|---|---|---|
| 意图理解 | 步骤 1 ~ 6 | 理解用户意图,生成可执行计划 |
| 技能调度 | 步骤 7 ~ 12 | 匹配 Skill,组织策略,补全参数 |
| 工具执行 | 步骤 13 ~ 18 | 调用工具,执行 task,回传并整合结果 |
| 结果输出 | 步骤 19 ~ 20 | 生成自然语言回答并返回用户 |
3.2 关键交互模式
- Agent ↔ LLM:三次交互(意图拆解、参数补全、回答生成),LLM 始终作为认知中枢。
- Agent ↔ Agent Skills:两次交互(路由下发、结果回收),Skills 作为能力抽象层。
- Agent ↔ MCP:一次交互(发起调用),MCP 作为工具中间件解耦工具细节。
- MCP ↔ 工具:标准 API 调用,工具作为最终执行单元。
3.3 设计亮点
- 分层解耦:Agent 负责调度、Skills 负责策略、LLM 负责认知、MCP 负责工具编排,各层职责清晰。
- 人机回环:步骤 11 引入 LLM 补全参数,避免硬编码,提升灵活性。
- 结果校验:步骤 17 引入 Skill 层对工具结果进行解析与校验,保障输出质量。
- 记忆增强:步骤 3 在流程早期引入记忆检索,确保上下文的连贯性。