AIGC、Agent、MCP、A2A和AG-UI促进AI从基础能力到协同生态演进

前言

近年来，人工智能技术迎来爆发式发展，AIGC、Agent、MCP等概念相继涌现并快速迭代，推动AI从单一工具向协同生态演进，AI技术从"能对话"进化到"能干活"。2022年ChatGPT点燃了AIGC；Function Calling催生了Agent；再往后，行业发现「如何让模型低成本地调用外部世界」成为新瓶颈，于是MCP、A2A和AG-UI三大协议陆续登场。

本文将梳理AIGC的基础能力、Agent以及支撑Agent生态的三大核心协议MCP、A2A和AG-UI，为读者朋友们构建从技术原理到应用生态的完整认知添砖加瓦。

AIGC - 人工智能内容生成的基石

AIGC（AI Generated Content，人工智能生成内容）是指利用大模型自动生成文本、图像、音频、视频等内容的技术，其兴起以2022年ChatGPT上线为标志，开启了生成式AI的浪潮。

ChatGPT上线后，Stable Diffusion、Midjourney等多模态模型跟进，把AI从"能答"推向"能画、能剪、能唱"。

但痛点也很快出现：

知识实效性 --- 大模型的知识主要来源于训练数据在某个截止日期之前的数据，对这个时间之后或者最新资讯，大模型可能并不了解。

幻觉 --- 本正经地编答案。

不可溯源/特定领域知识不足 --- 无法给出生成答案的集体数据来源，缺乏对某个特定领域/私有知识库的理解。

于是RAG（Retrieval-Augmented Generation，检索增强生成）被提出：先在外部知识库检索，再让模型基于检索结果生成答案，既实时又可验证。是一种将信息检索（IR）与大型语言模型（LLM）的文本生成能力相结合的人工智能框架。

RAG是AIGC领域的关键技术，其核心是将信息检索与LLM生成结合：当LLM需回答问题时，先从外部知识库检索相关信息，再基于这些信息生成答案，从而解决LLM的知识过时、易产生 "幻觉"、缺乏来源验证等问题。

例如，当询问"2025年最新AI协议进展"时，RAG会先检索2024年之后的相关资料，再让LLM基于检索结果生成准确回答，而非依赖模型训练日期截止前的旧知识。

Agent - 从生成工具到自主决策系统

Agent（智能体）是在AIGC、LLM等基础上发展的高阶AI系统，其核心特征是自主感知环境、决策并调用工具，以完成复杂任务。

与 AIGC（专注于生成任务）不同，Agent是集模型能力与工程实现于一体的复杂系统，需要处理模型和外界的信息交互（借助Function Calling实现），可集成AIGC作为子模块，实现更通用的任务处理。

核心优势：

获取实时信息，如调用ES等搜索引擎获取信息。
执行精准计算，如调用外部定义的代码。
操作外部系统，如发送邮件通知等。

MCP - AI的USB-C接口

Function Calling虽好，但不同厂商接口格式各异，工具一多就成了M×N噩梦。2024年，Anthropic开源MCP（Model Context Protocol），一个把模型与工具的"插头"标准化的开放协议。

MCP规范了应用程序如何向LLM提供上下文。将MCP想象成AI应用程序的USB-C端口。正如USB-C提供了一种将设备连接到各种外围设备和配件的标准化方式一样，MCP提供了一个将AI模型连接到不同数据源和工具的标准化方法。

MCP角色划分如下：

MCP Hosts：像Claude Desktop、IDE或AI工具这样的程序，它们希望通过MCP访问数据。

MCP Clients：与服务器保持1:1连接的协议客户端。

MCP Servers：轻量级程序，每个程序都通过标准化的模型上下文协议公开特定的功能。

Local Data Sources(本地数据源)：MCP服务器可以安全访问的计算机文件、数据库和服务。

Remote Services(远程服务)：MCP服务器可以通过互联网（例如，通过API）连接到的外部系统。

腾讯、阿里、百度、AWS等随后把自家云服务封装成MCP Server，生态迅速膨胀，mcp.so、smithery.ai成了"插件商店"。

一句话总结：MCP让Agent长出了"手脚"，且换工具像换USB设备一样简单。

A2A - Agent之间的"社交协议"

MCP解决了"Agent与工具"的通信。2025年，谷歌推出A2A（Agent-to-Agent）协议，让不同公司、不同框架的Agent可以彼此发现、协商、委任务。

（下图来源于：https://a2aprotocol.ai/）

A2A 作为一个开放协议，充分考虑了Agent在和用户、企业打通的过程中所面临的一些挑战，主要特性如下：

Capability discovery(功能发现)：提供了Agent之间相互发现各自能力的机制。

Secure collaboration(安全协作)：通过引入认证/授权机制，保证Agent之间的身份互信。

Task and state mgmt(任务状态管理)：实现了Agent之间互操作任务以及任务状态的可管理性。

UX negotiation(用户体验协商)：不同的Agent通过协商的方式，对用户提供无缝的体验。

目前多Agent系统的成功率仍相对较低，A2A更多处于实验阶段，但似乎已被视为下一波协作式AI应用的基石。

AG-UI - Agent与前端的双向通道

同样是2025年，CopilotKit团队开AG-UI（Agent-User Interaction Protocol，智能体用户交互协议），补完最后一环：让Agent与Web/App前端实时互动。

AG-UI是一个开放的、轻量的、基于事件的协议，通过标准HTTP或可选的二进制通道，以流式方式传输一系列JSON事件，主要用来对AI agent和前端应用程序的交互进行标准化。

（下图来源于https://webflow.copilotkit.ai/）

协议基于SSE/WebSocket流式通道，定义了四类事件：

消息文本事件，用于实时流式文本生成，处理对话内容。
工具调用事件，用于完整的工具调用生命周期管理，执行特定功能。
状态管理事件，用于状态同步，更新应用状态以确保客户端和服务端状态一致。
生命周期事件，进行执行控制，管理会话流程以及整个代理执行的生命周期。

当前Agent三大协议对比如下：

（下图来源于阿里云）