AIGC、Agent、MCP、A2A和AG-UI促进AI从基础能力到协同生态演进

前言

近年来,人工智能技术迎来爆发式发展,AIGC、Agent、MCP等概念相继涌现并快速迭代,推动AI从单一工具向协同生态演进,AI技术从"能对话"进化到"能干活"。2022年ChatGPT点燃了AIGC;Function Calling催生了Agent;再往后,行业发现「如何让模型低成本地调用外部世界」成为新瓶颈,于是MCP、A2A和AG-UI三大协议陆续登场。

本文将梳理AIGC的基础能力、Agent以及支撑Agent生态的三大核心协议MCP、A2A和AG-UI,为读者朋友们构建从技术原理到应用生态的完整认知添砖加瓦。

AIGC - 人工智能内容生成的基石

AIGC(AI Generated Content,人工智能生成内容)是指利用大模型自动生成文本、图像、音频、视频等内容的技术,其兴起以2022年ChatGPT上线为标志,开启了生成式AI的浪潮。

ChatGPT上线后,Stable Diffusion、Midjourney等多模态模型跟进,把AI从"能答"推向"能画、能剪、能唱"。

但痛点也很快出现:

知识实效性 --- 大模型的知识主要来源于训练数据在某个截止日期之前的数据,对这个时间之后或者最新资讯,大模型可能并不了解。

幻觉 --- 本正经地编答案。

不可溯源/特定领域知识不足 --- 无法给出生成答案的集体数据来源,缺乏对某个特定领域/私有知识库的理解。

于是RAG(Retrieval-Augmented Generation,检索增强生成)被提出:先在外部知识库检索,再让模型基于检索结果生成答案,既实时又可验证。是一种将信息检索(IR)与大型语言模型(LLM)的文本生成能力相结合的人工智能框架。

RAG是AIGC领域的关键技术,其核心是将信息检索与LLM生成结合:当LLM需回答问题时,先从外部知识库检索相关信息,再基于这些信息生成答案,从而解决LLM的知识过时、易产生 "幻觉"、缺乏来源验证等问题。

例如,当询问"2025年最新AI协议进展"时,RAG会先检索2024年之后的相关资料,再让LLM基于检索结果生成准确回答,而非依赖模型训练日期截止前的旧知识。

Agent - 从生成工具到自主决策系统

Agent(智能体)是在AIGC、LLM等基础上发展的高阶AI系统,其核心特征是自主感知环境、决策并调用工具,以完成复杂任务。

与 AIGC(专注于生成任务)不同,Agent是集模型能力与工程实现于一体的复杂系统,需要处理模型和外界的信息交互(借助Function Calling实现),可集成AIGC作为子模块,实现更通用的任务处理。

核心优势:

  • 获取实时信息,如调用ES等搜索引擎获取信息。
  • 执行精准计算,如调用外部定义的代码。
  • 操作外部系统,如发送邮件通知等。

MCP - AI的USB-C接口

Function Calling虽好,但不同厂商接口格式各异,工具一多就成了M×N噩梦。2024年,Anthropic开源MCP(Model Context Protocol),一个把模型与工具的"插头"标准化的开放协议。

MCP规范了应用程序如何向LLM提供上下文。将MCP想象成AI应用程序的USB-C端口。正如USB-C提供了一种将设备连接到各种外围设备和配件的标准化方式一样,MCP提供了一个将AI模型连接到不同数据源和工具的标准化方法。

MCP角色划分如下:

MCP Hosts:像Claude Desktop、IDE或AI工具这样的程序,它们希望通过MCP访问数据。

MCP Clients:与服务器保持1:1连接的协议客户端。

MCP Servers:轻量级程序,每个程序都通过标准化的模型上下文协议公开特定的功能。

Local Data Sources(本地数据源):MCP服务器可以安全访问的计算机文件、数据库和服务。

Remote Services(远程服务):MCP服务器可以通过互联网(例如,通过API)连接到的外部系统。

腾讯、阿里、百度、AWS等随后把自家云服务封装成MCP Server,生态迅速膨胀,mcp.so、smithery.ai成了"插件商店"。

一句话总结:MCP让Agent长出了"手脚",且换工具像换USB设备一样简单。

A2A - Agent之间的"社交协议"

MCP解决了"Agent与工具"的通信。2025年,谷歌推出A2A(Agent-to-Agent)协议,让不同公司、不同框架的Agent可以彼此发现、协商、委任务。

(下图来源于:https://a2aprotocol.ai/)

A2A 作为一个开放协议,充分考虑了Agent在和用户、企业打通的过程中所面临的一些挑战,主要特性如下:

Capability discovery(功能发现):提供了Agent之间相互发现各自能力的机制。

Secure collaboration(安全协作):通过引入认证/授权机制,保证Agent之间的身份互信。

Task and state mgmt(任务状态管理):实现了Agent之间互操作任务以及任务状态的可管理性。

UX negotiation(用户体验协商):不同的Agent通过协商的方式,对用户提供无缝的体验。

目前多Agent系统的成功率仍相对较低,A2A更多处于实验阶段,但似乎已被视为下一波协作式AI应用的基石。

AG-UI - Agent与前端的双向通道

同样是2025年,CopilotKit团队开AG-UI(Agent-User Interaction Protocol,智能体用户交互协议),补完最后一环:让Agent与Web/App前端实时互动。

AG-UI是一个开放的、轻量的、基于事件的协议,通过标准HTTP或可选的二进制通道,以流式方式传输一系列JSON事件,主要用来对AI agent和前端应用程序的交互进行标准化。

(下图来源于https://webflow.copilotkit.ai/)

协议基于SSE/WebSocket流式通道,定义了四类事件:

  • 消息文本事件,用于实时流式文本生成,处理对话内容。
  • 工具调用事件,用于完整的工具调用生命周期管理,执行特定功能。
  • 状态管理事件,用于状态同步,更新应用状态以确保客户端和服务端状态一致。
  • 生命周期事件,进行执行控制,管理会话流程以及整个代理执行的生命周期。

当前Agent三大协议对比如下:

(下图来源于阿里云)

相关推荐
久违 °12 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun13 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.13 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary13 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_13 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记13 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_4684668513 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_4684668513 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭13 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码13 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络