AIGC、RAG、Agent、Function Call、MCP 到底啥关系？一次讲明白！

Hello，大家好，我是 Sunday。

最近很多同学特别关注 AI 相关的领域。但是，AI 技术发展太快了，AIGC、RAG、Agent、Function Call、MCP 等等的各种热词层出不穷的。多到就算是很多程序员都搞不明白了。

所以，咱们今天这篇文章，我就来用最简单的方式，帮你把这些热词一次性讲清楚~

从 AIGC 到多模态

大部分同学应该都是从 ChatGPT 开始接触 AI 的，比如我就是。

刚开始用 ChatGPT 的时候，我们体验到的其实是一种典型的 文生文 能力：

你输入一句话，它给你生成一段文字回应。

不管是写文章、改简历，还是输出代码、写周报，都是 AI 在根据你的文字 Prompt，生成另一段文字。

这种让 AI 自动生成内容的能力，就叫做 AIGC。

AIGC，全称是 AI Generated Content（AI 生成内容） ，它的核心能力是：用 AI 自动生成"人类常干的活"。

在最初的时候，AIGC 他只能处理 一种类型 的内容，比如：GPT-3 只懂文字，SD 只会画画，这种模式就被称之为 单模态。

但是，随着 AI 的进化，不只是文生文，像：文生图、图生文、文生视频、图文生视频......也都逐渐支持了（并且进化的速度特别快），而这种支持 多种类型 消息的，就被称为是 多模态。比如现在的 CPT-4。

而这些多模态模型，才是真正让 AI 从"工具"进化成"助手"的关键。

但 AIGC 有两个"天生的限制"：

第一就是 不具备实时性 。比如，以 DeepSeek 为例，他的知识库就只更新到了 2024 年 7 月。如果想要让他知道最新的数据怎么办呢？就得给他 "喂数据！"

第二就是 不会使用工具。最初的 AIGC 只可以从现有的知识库中获取内容，而不会查询最新的信息，也不能调用 API。

因此，这就引出了两个技术方向，一个叫 RAG，一个叫 Function Call。

RAG 实时信息查询

RAG，全称是 Retrieval-Augmented Generation（检索增强生成）。

就像上面的 DeepSeek 截图一样，如果查询的内容超过了知识库怎么办呢？

很简单 实时查询就可以了！ 查完以后，把资料贴给 AI，再让它写。

比如你问"北京明天的天气"，它自己不知道，但可以去"检索模块"查一遍，把查到的结果再结合起来给你回答。

你可以理解成：原来模型靠死记硬背，现在它学会"看资料答题"了。

但如果你仔细想一想：只会看，越不行呀。

咱们需要的时，他可以把资料看完之后，把内容返回给咱们。甚至可以做到，当我说："给我订个明天下午去北京的高铁票" 时，他可以 自动调用 12306 接口，选好车次直接下单

如果你可以想到这里，那么恭喜你。你已经摸到 Agent 智能体 的门槛了。

中间就只差了一个 Function Call（函数调用）

Function Call 调用函数

简单来说，Function Call 就是让模型 根据你的指令，自动调用外部的函数或接口，把任务真正执行掉。

比如你说："我现在在北京，查一下明天上海的天气。"

传统的 LLM：

"对不起，我只能提供截至 2023 年的信息。"

支持 RAG 的模型：

"明天上海天气 28°C，小雨。"（它查了资料，但没动手）

支持 Function Call 的模型：

它会判断你这个请求，需要调用一个叫 getWeather(city) 的函数，然后自动生成参数 city = "上海"，调用完天气 API → 拿到结果 → 生成回复：

"明天上海 28°C，小雨，建议带伞。"

你看，整个过程中，它已经从一个单纯的回答者，变成了 可以自己思考你接下来应该怎么做 "带伞" 的 "人" 了

因此，我们说 Function Call 是 AI 走向"智能体"的关键

这时候，该登场的，就是最近特别火的词：Agent（智能体）。

Agent：传说中的 "人工智能"

前面咱们说了，Function Call 让模型拥有了"动手能力"。

但是你会发现，现实世界的任务，往往不是一句话、调一次函数就能搞定的。

比如说你问它： "我十一想自驾从济南去北京，帮我规划下出行方案。"

一个聪明的 AI 应该怎么干？

理想流程可能是这样的：

查济南十一当天的天气（看是否适合出行）

查从济南到北京的高速路况

查加油站分布和服务区情况

安排中途住宿

综合输出一份行程建议

注意，这不是一步能干完的，而是一个"多步骤 + 多工具 + 多轮决策"的链条。

普通的 Function Call，只能调用一个函数。但是，这个流程里，模型要自己判断用哪些工具、什么顺序、调几次，每次结果又影响下一步行为。

这时候，就该轮到 Agent（智能体） 出场了。

什么是 Agent？

Agent，说白了就是让模型具备一定程度的自主决策和任务规划能力。

它就像一个"多线程"的模型调度器：

每接一个任务，自己思考怎么拆解

根据情况调用多个工具

遇到中间结果会重新思考下一步

最后一步步把复杂任务完成

你可以理解成：它会思考、规划、决策、执行，真正具备了"完成任务"的闭环能力。

我们可以通过一张 Agent 流程图 进行展示：

并且，这整个流程可以重复多轮，直到目标完成。

还是以"济南十一自驾去北京"为例，它可能经历这样的 Agent 执行链：

查询天气 → 如果有雨，提醒注意安全
查询路线 → 如果太远，中途加一站住宿
住宿安排 → 查附近酒店并给出建议
最终输出一个可执行的旅行计划

这就是 Agent 的特性：不是你一步步告诉它怎么干，而是它自己规划该怎么干。直接给你最终的规划和结果

到目前，大家是不是已经感觉 Agent 挺牛批 的了。

但是（哎，必须得有个但是），他依然还存在一些问题。比如：标准化

大家想想，就和手机充电头一样，各家的可能都不一样，从而导致除了现在这种奇葩的 "一拖三"：

那么对于 Agent 也一样，调用的工具那么多。当工具越来越多、系统越来越复杂的时候，如何让模型可以按照统一的标准，低成本地接入更多工具呢？

答案就是：MCP 协议！

MCP 协议：标准化协议接口

MCP（Model Context Protocol，模型上下文协议）是由人工智能公司 Anthropic 于 2024 年 11 月 24 日正式发布并开源的协议标准。你可以简单理解成：AI 世界的 "USB 接口协议"。

它的目标是：标准化模型和外部工具之间的连接方式。

什么意思？

来看几个典型痛点：

没有 MCP 以前	有了 MCP 之后
每个工具都要独立接入	所有工具统一协议，复用成本低
模型和工具强绑定	松耦合，谁来调用都行
平台之间协议不通用	基于开放标准，可跨平台、跨模型
没有工具生态	MCP 广场上线，AI 应用像"装插件"一样用工具

举个例子：

你想接入地图服务 → MCP 上直接装腾讯地图插件
想用图生文 → MCP 上调用 Qwen-VL 工具
想自动发送企业微信 → MCP 上调用飞书/企业微信接口

一句话总结就是：以前是 M × N 的混乱对接，现在是 M + N 的标准接口。

你可以这么理解现在 AI 技术栈的关系：

这就是我们现在看到的 AI 应用演进路径......