前言:Agent 为什么突然火了?
当大模型从"对话式问答"升级为"可调用工具、可操作系统、能自主规划任务"的智能体(Agent)后,整条 AI 应用链路发生了质变。
传统模式下,大模型只能回答问题;但在 Agent 模式下,它能:
- 调用工具(Tool Calling)执行真实动作
- 理解环境状态并做出自主策略规划
- 组建多个 Agent 协同配合(Multi-Agent)
- 接入跨系统能力(API、文件、数据库、操作系统等)
为了让 Agent 能够在复杂系统中顺畅工作,行业逐渐形成了一批标准化的 Agent 协议,例如:
- MCP(Model Context Protocol)
- A2A(Agent-to-Agent Protocol)
- AG-UI(Agent UI Interface Protocol)
- Function Calling 与 OpenAI Tool Schemas
这些协议正在成为 AI 系统的"TCP/IP",推动 Agent 从概念走向大规模工业化。
什么是 AI Agent?
AI Agent = 大模型 + 工具能力 + 记忆 + 规划 + 执行环境
一个完整的 Agent 通常由以下核心组件构成:
1. Perception(感知)
Agent 的输入层,可以感知用户问题、文件内容、环境状态。
2. Memory(记忆)
包括短期记忆、长期记忆、工作记忆,支持跨轮次推理。
3. Reasoning(推理与规划)
生成任务计划,决定下一步操作:
- 是继续提问?
- 是调用某个工具?
- 是将任务交给其他 Agent?
- 是输出最终结果?
4. Action / Tools(动作执行)
通过工具调用执行真实动作,例如:
- 读写本地文件
- 调用 API
- 执行 SQL
- 调用浏览器爬取内容
- 操作本地操作系统
5. Environment(环境)
例如:
- 本地电脑
- 云服务
- Web Runtime
- 数据库
- 企业内部系统
6. Reflection(自我反馈)
Agent 会基于结果进行反思,修正策略。
Multi-Agent:为什么要多智能体协作?
单一 Agent 的能力是有限的,复杂任务需要"分工协作"。
典型 Multi-Agent 模式包括:
1. 专家型 Agent
每个 Agent 负责不同领域,如:
- Code Agent:写代码
- Research Agent:搜索 & 阅读论文
- Ops Agent:执行脚本
- Data Agent:数据分析
2. 主管-执行者模式(Supervisor-Worker)
主管 Agent 负责规划任务,拆分 subtasks,并调度执行者。
3. 环境驱动的多 Agent
多个 Agent 在共享环境中协作,例如:
- 多机器人系统
- 游戏 Agent
- 仿真系统
Multi-Agent 的出现,离不开统一协议的支持,这也是为什么业界正在推动 MCP、A2A 等标准。
Agent 主流协议:打通生态、形成标准化
以下是当前最主流的 Agent 协议与能力规范。
MCP:Model Context Protocol(行业最受关注的 Agent 协议)
MCP 由 Anthropic 推出,目标是:
将大模型从"对话系统"变成"可访问计算资源、工具、环境的智能体"。
它像是"Agent 的 USB-C 接口",让大模型可以访问:
- 本地文件系统
- 数据库
- API
- 第三方工具
- 企业内部系统
- OS 执行能力
1. MCP 架构
MCP 由三部分组成:
Client(模型/LLM) <---Protocol---> Server(工具能力)
-
Client:Claude、OpenAI、Llama、DeepSeek 等
-
Server:提供工具与资源,例如:
-
文件系统 Server
-
SQL Server
-
本地执行器 Server
-
Git Server
-
网络请求 Server
-
整体架构:
+-------------------+
| LLM Client |
| (OpenAI/Claude) |
+-------------------+
|
| MCP
v
+-------------------+
| MCP Server |
| (Tools & APIs) |
+-------------------+
|
v
+-------------------+
| External System |
+-------------------+
2. MCP 的核心能力
① Tools(工具调度)
Server 向模型暴露可调用的工具列表。
② Resources(资源访问)
例如文件、数据库、信息流。
③ Events(事件通知)
Server → LLM 推送事件,如文件更新。
④ Message Schema(消息结构统一)
定义模型如何返回 JSON,以及如何解析工具输入输出。
3. MCP 工作流程
-
连接:Client 与 Server 建立 WebSocket 或 stdio 连接
-
Server 注册工具(tools)
-
Client 发起任务
-
LLM 根据上下文调用工具
-
Server 执行工具,将结果返还 LLM
-
LLM 基于工具结果生成进一步动作或最终答案
一个标准 MCP 交互流程如下:
User → LLM → MCP Tool → External System → LLM → User
MCP 最大的价值在于统一标准工具调用,替代各平台私有协议。
A2A(Agent-to-Agent Protocol)跨 Agent 通讯协议
A2A 的目标是:
让多个 Agent 能够稳定、安全、可解释地互相通信。
A2A 关注的是:
- Agent 如何描述自己的能力
- Agent 如何互相发送消息
- Agent 如何协作执行任务
A2A 协议包含的内容:
- Agent Metadata(名称/角色/能力)
- Inter-Agent Messaging(通信格式)
- Handshake(协商能力)
- Contract-based Task Execution(任务合同)
- Context Serialization(上下文共享)
作用:
- 多 Agent 协作的网络层协议
- Agent 与 Agent 之间的"TCP 标准"
- 解决多 Agent 在不同运行环境的兼容问题
目前较成熟的 A2A 协议包括:
- LangChain Expression Language(LangGraph 的 Agent 协作协议)
- AutoGen 中的 Agent Messaging
- OpenAI、Anthropic 新兴 A2A 标准
AG-UI(Agent User Interface Protocol)
AG-UI 并非严格意义上的网络协议,而是用于:
构建 Agent 与用户交互界面的统一规范
主要用于:
- 工具调用结果如何展示
- Agent 推理过程如何可视化
- Multi-Agent 的状态刷新
- 前端界面与 Agent Runtime 的同步格式
AG-UI 大大降低了开发多人协作/可视化 Agent App 的难度。
Function Calling & Tool Calling:Agent 的行动基础
Function Calling 是 OpenAI 最先定义的工具调用标准,现在基本成为工业标准。
格式如下:
{ "name": "search_weather", "arguments": { "city": "Beijing" } }
MCP 与 A2A 都是在 Function Calling 的基础上扩展而来的。
Function Calling 的意义是:
- 可让 LLM 调用真实函数
- 具结构化输入
- 具可预测输出
- 可用于工具链与环境控制
Function Calling 是所有 Agent 和协议的"基座能力"。
Agentic AI:未来的 AI 系统形态
Agentic AI 指的是:
让大模型不仅"生成内容",而是成为能执行任务的真正智能体。
它组成了一条完整链路:
1. 输入层
用户需求、环境感知
2. 规划层
任务规划、反思、分解
3. 能力层
工具、API、MCP 资源、执行器
4. 协作层
多 Agent 通讯(A2A)、自组织协作
5. 反馈层
自我反思、自我校正
6. 最终行为
执行动作、产出答案、修改文件、运行脚本等
未来所有软件都可能是:
- 多 Agent 协作执行
- 通过 MCP 接入操作系统
- 使用 A2A 跨程序通信
- 使用 AG-UI 展示交互
- 通过 Function Calling 调用能力
总结:Agent 时代的协议标准化正在加速
本文介绍的:
- Agent 核心组件
- Multi-Agent 协作模型
- Function Calling 工具调用标准
- MCP(Model Context Protocol)核心协议
- MCP 架构与流程
- A2A 协议体系
- AG-UI 交互协议
- Agentic AI 全栈架构
正在构建一种全新形态的软件生态:
从传统"程序调用 API",进化为"智能体调用资源"。