零基础掌握AI Agent：从Prompt到Function Calling与MCP

🧠 一句话：

AI Agent 在 System Prompt 的约束下，根据 User Prompt 进行思考，通过 Function Calling 使用 Agent Tools，并借助 MCP 实现标准化工具调用，从而完成复杂任务。

1. Prompt提示词工程

System Prompt(系统提示词）：
定义：这是预设给 AI 模型的基础指令或上下文，用于定义模型的行为边界、角色设定、输出格式等。
功能：

① 设置 AI 的身份（如助手、客服、医生等）

② 规定行为准则（如不生成违法内容）

③ 提供基础指令（如"用中文回答"、"简洁明了"）
User Prompt(用户提示词)
定义：由用户输入的具体请求或问题，是触发 AI 响应的主要来源。
功能：

① 向 AI 表达具体需求

② 控制对话方向和目标

③ 提供上下文信息

记得AI小白我刚上手dify的时候，在引入用户输入变量、文档解析结果变量的时候，傻傻分不清System Prompt和User Prompt。

我们在聊天框发送一条消息给AI模型，然后AI模型生成一个回复，我们发的消息就叫 User Prompt，也就是用户提示词，一般就是我们提出的问题或者想说的话。

但是大模型是通用大模型，回答我们的问题就比较通用，因为需要提前进行人设。这个人设就是User Prompt，也就是系统提示词。System Prompt主要用来描选AI的角色、性格、背景信息、语气等。

2. AI Agent智能体

定义：一个具备自主决策能力的 AI 实体，能够根据环境、用户输入、工具调用等进行推理并采取行动。
功能：
① 接收并处理用户输入
② 调用合适的工具/函数来完成任务
③ 决策流程与执行顺序
④ 与用户进行多轮交互

当智能体概念满天飞的时候，领导说我们要各种Agent，当时对Agent概率比较模糊，只知道各种业务场景有对应场景的Agent，说白了就是让AI自己去完成任务。

开源项目AutoGPT这个框架的创新之处在于：通过将业务函数及其功能描述、调用方式等元信息注册到系统中，AutoGPT能自动构建包含这些知识的System Prompt。当与大语言模型交互时，这些经过结构化编排的提示词（Prompt）就赋予了AI调用工具、执行任务的能力，实现了从"知道"到"做到"的跨越。AutoGPT这种负责在模型、工具和最终用户之间传话的程序，就叫做AI Agent。

3. Agent Tool代理工具

定义：AI Agent 可以使用的外部资源或接口，用于扩展其能力范围。
功能：
① 访问数据库、API、搜索引擎等
② 执行计算、操作文件、控制设备等
③ 获取实时数据（如天气、新闻、股票）
常见类型 ：
① Web 浏览器工具
② 文件读写工具
③ 数据库查询工具
④ 第三方 API 接口（如 OpenWeatherMap）

在AutoGPT框架中，AI可调用的函数或服务被称为Agent Tool。不过这种机制存在一个显著问题：尽管在系统提示（system prompt）中已经明确规定了AI应返回的格式，但由于大语言模型本质上是概率模型，仍然可能出现返回格式不规范的情况。目前，许多AI代理在检测到格式错误时会自动进行重试操作，但这种反复重试的机制往往给用户带来不可靠的体验。为此，主流大模型厂商已开始着手解决这一问题。

4. Function Calling函数调用

定义：AI Agent 在推理过程中识别到需要外部信息或执行某个操作时，主动调用预定义的函数。
功能：
① 将用户的自然语言请求转化为结构化函数调用
② 实现从抽象思维到实际操作的桥梁
③ 提高响应准确性与实用性
流程：
① 用户提问 → AI 解析意图
② 判断是否需要调用工具
③ 构建函数参数并调用
④ 获取结果后返回给用户

以ChatGPT、Claude、Gemini等为代表的大模型普遍推出了名为Function Calling的创新功能，其核心设计理念在于实现格式的统一化和描述的规范化。

在技术实现上，Function Calling采用了一种结构化的方式：它将Agent Tools的工具定义从传统的system prompt中分离出来，转而使用标准化的json格式进行描述。每个工具都对应一个json对象，其中明确定义了工具名称、参数说明及返回格式。这种方式不仅规范了AI调用工具时的输入输出格式，还使得工具的描述更加清晰和机器可读。

然而，Function Calling在实际应用中也面临一些挑战。最突出的问题是行业标准的缺失------不同厂商的API在具体实现上存在差异，而且许多开源模型尚未支持这一功能，这给开发跨模型通用的AI Agent系统带来了不小的困难。

正是由于这些现实因素，目前市场上形成了System prompt和Function Calling两种工具调用方式并存的局面。

3. MCP模型上下文协议

定义：一种用于管理 AI 模型与外部工具之间通信的标准化协议，通常用于支持 Function Calling 和 Tool Management。
功能：
① 定义工具注册、发现、调用的标准接口
② 支持插件式扩展，方便接入新功能
③ 统一不同模型之间的行为规范
④ 提供安全机制，防止非法调用
应用场景 ：
① 多模态 AI 系统中协调视觉、语言、动作模块
② 企业级 AI 平台统一调度多个 AI 模型和工具

最初，AI Agent 和工具（Tools）的通信方式很简单------直接把工具代码写在 Agent 里面，需要时就调用对应的函数。这种方式虽然直接，但有个问题：很多工具（比如网页浏览器、文件读写）是通用的，如果每个 Agent 都自己实现一遍，不仅麻烦，还会导致代码重复，维护起来很困难。

于是，人们想出了一个更好的办法：把工具变成独立服务，让所有 Agent 都能远程调用 。这个方案的核心就是 MCP（Multi-agent Communication Protocol） ，它定义了一套标准，让 Agent（MCP Client）和工具服务（MCP Server）之间可以高效交互。

工具管理
- MCP Server 提供各种工具（Tools），比如网页访问、数据库查询等。
- Agent 可以查询 Server 支持哪些工具，以及每个工具的使用方法（参数、格式等）。
扩展服务
- Resources：类似文件存储和读取的服务。
- Prompt：提供预定义的提示词模板，方便 Agent 快速调用。
灵活的通信方式
- 本地通信：Agent 和 Server 在同一台机器上时，可以通过标准输入/输出（stdin/stdout）交互。
- 网络通信：Server 可以部署在远程，Agent 通过 HTTP 等协议调用它。

MCP 和 AI Agent 的关系

虽然 MCP 是为 AI Agent 设计的，但它不依赖任何特定的 AI 模型 。它的作用只是帮 Agent 统一管理工具、资源和提示词，至于 Agent 内部用什么模型（GPT、Claude、Gemini 等），MCP 并不关心。

这样一来，不同的 Agent 可以共享同一套工具服务，既减少了代码冗余，也让整个系统更灵活、更容易维护。