AIGC、Agent、MCP、A2A和AG-UI促进AI从基础能力到协同生态演进

前言

近年来,人工智能技术迎来爆发式发展,AIGC、Agent、MCP等概念相继涌现并快速迭代,推动AI从单一工具向协同生态演进,AI技术从"能对话"进化到"能干活"。2022年ChatGPT点燃了AIGC;Function Calling催生了Agent;再往后,行业发现「如何让模型低成本地调用外部世界」成为新瓶颈,于是MCP、A2A和AG-UI三大协议陆续登场。

本文将梳理AIGC的基础能力、Agent以及支撑Agent生态的三大核心协议MCP、A2A和AG-UI,为读者朋友们构建从技术原理到应用生态的完整认知添砖加瓦。

AIGC - 人工智能内容生成的基石

AIGC(AI Generated Content,人工智能生成内容)是指利用大模型自动生成文本、图像、音频、视频等内容的技术,其兴起以2022年ChatGPT上线为标志,开启了生成式AI的浪潮。

ChatGPT上线后,Stable Diffusion、Midjourney等多模态模型跟进,把AI从"能答"推向"能画、能剪、能唱"。

但痛点也很快出现:

知识实效性 --- 大模型的知识主要来源于训练数据在某个截止日期之前的数据,对这个时间之后或者最新资讯,大模型可能并不了解。

幻觉 --- 本正经地编答案。

不可溯源/特定领域知识不足 --- 无法给出生成答案的集体数据来源,缺乏对某个特定领域/私有知识库的理解。

于是RAG(Retrieval-Augmented Generation,检索增强生成)被提出:先在外部知识库检索,再让模型基于检索结果生成答案,既实时又可验证。是一种将信息检索(IR)与大型语言模型(LLM)的文本生成能力相结合的人工智能框架。

RAG是AIGC领域的关键技术,其核心是将信息检索与LLM生成结合:当LLM需回答问题时,先从外部知识库检索相关信息,再基于这些信息生成答案,从而解决LLM的知识过时、易产生 "幻觉"、缺乏来源验证等问题。

例如,当询问"2025年最新AI协议进展"时,RAG会先检索2024年之后的相关资料,再让LLM基于检索结果生成准确回答,而非依赖模型训练日期截止前的旧知识。

Agent - 从生成工具到自主决策系统

Agent(智能体)是在AIGC、LLM等基础上发展的高阶AI系统,其核心特征是自主感知环境、决策并调用工具,以完成复杂任务。

与 AIGC(专注于生成任务)不同,Agent是集模型能力与工程实现于一体的复杂系统,需要处理模型和外界的信息交互(借助Function Calling实现),可集成AIGC作为子模块,实现更通用的任务处理。

核心优势:

  • 获取实时信息,如调用ES等搜索引擎获取信息。
  • 执行精准计算,如调用外部定义的代码。
  • 操作外部系统,如发送邮件通知等。

MCP - AI的USB-C接口

Function Calling虽好,但不同厂商接口格式各异,工具一多就成了M×N噩梦。2024年,Anthropic开源MCP(Model Context Protocol),一个把模型与工具的"插头"标准化的开放协议。

MCP规范了应用程序如何向LLM提供上下文。将MCP想象成AI应用程序的USB-C端口。正如USB-C提供了一种将设备连接到各种外围设备和配件的标准化方式一样,MCP提供了一个将AI模型连接到不同数据源和工具的标准化方法。

MCP角色划分如下:

MCP Hosts:像Claude Desktop、IDE或AI工具这样的程序,它们希望通过MCP访问数据。

MCP Clients:与服务器保持1:1连接的协议客户端。

MCP Servers:轻量级程序,每个程序都通过标准化的模型上下文协议公开特定的功能。

Local Data Sources(本地数据源):MCP服务器可以安全访问的计算机文件、数据库和服务。

Remote Services(远程服务):MCP服务器可以通过互联网(例如,通过API)连接到的外部系统。

腾讯、阿里、百度、AWS等随后把自家云服务封装成MCP Server,生态迅速膨胀,mcp.so、smithery.ai成了"插件商店"。

一句话总结:MCP让Agent长出了"手脚",且换工具像换USB设备一样简单。

A2A - Agent之间的"社交协议"

MCP解决了"Agent与工具"的通信。2025年,谷歌推出A2A(Agent-to-Agent)协议,让不同公司、不同框架的Agent可以彼此发现、协商、委任务。

(下图来源于:https://a2aprotocol.ai/)

A2A 作为一个开放协议,充分考虑了Agent在和用户、企业打通的过程中所面临的一些挑战,主要特性如下:

Capability discovery(功能发现):提供了Agent之间相互发现各自能力的机制。

Secure collaboration(安全协作):通过引入认证/授权机制,保证Agent之间的身份互信。

Task and state mgmt(任务状态管理):实现了Agent之间互操作任务以及任务状态的可管理性。

UX negotiation(用户体验协商):不同的Agent通过协商的方式,对用户提供无缝的体验。

目前多Agent系统的成功率仍相对较低,A2A更多处于实验阶段,但似乎已被视为下一波协作式AI应用的基石。

AG-UI - Agent与前端的双向通道

同样是2025年,CopilotKit团队开AG-UI(Agent-User Interaction Protocol,智能体用户交互协议),补完最后一环:让Agent与Web/App前端实时互动。

AG-UI是一个开放的、轻量的、基于事件的协议,通过标准HTTP或可选的二进制通道,以流式方式传输一系列JSON事件,主要用来对AI agent和前端应用程序的交互进行标准化。

(下图来源于https://webflow.copilotkit.ai/)

协议基于SSE/WebSocket流式通道,定义了四类事件:

  • 消息文本事件,用于实时流式文本生成,处理对话内容。
  • 工具调用事件,用于完整的工具调用生命周期管理,执行特定功能。
  • 状态管理事件,用于状态同步,更新应用状态以确保客户端和服务端状态一致。
  • 生命周期事件,进行执行控制,管理会话流程以及整个代理执行的生命周期。

当前Agent三大协议对比如下:

(下图来源于阿里云)

相关推荐
java1234_小锋8 分钟前
AI蒸馏技术:让AI更智能、更高效
人工智能·ai·ai蒸馏
饼干哥哥14 分钟前
1 个人用AI编程开发的产品卖了8000万美金——Base44的增长策略全拆解
人工智能·ai编程
virtaitech18 分钟前
云平台一键部署【Step-1X-3D】3D生成界的Flux
人工智能·科技·ai·gpu·算力·云平台
简叙生活18 分钟前
CES2026吹响AI硬件集结号,RTC技术何以成为“隐形引擎”?
人工智能·实时音视频
Elastic 中国社区官方博客21 分钟前
jina-embeddings-v3 现已在 Elastic Inference Service 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·jina
Delroy31 分钟前
Vercel 凌晨突发:agent-browser 来了,减少 93% 上下文!AI 终于有了“操纵现实”的手! 🚀
人工智能·爬虫·机器学习
Elastic 中国社区官方博客36 分钟前
使用 jina-embeddings-v3 和 Elasticsearch 进行多语言搜索
大数据·数据库·人工智能·elasticsearch·搜索引擎·全文检索·jina
百***787538 分钟前
GLM-4.7深度实测:开源编码王者,Claude Opus 4.5平替方案全解析
人工智能·gpt
叁两43 分钟前
“死了么”用户数翻800倍,估值近1亿,那我来做个“活着呢”!
前端·人工智能·产品
一瞬祈望1 小时前
⭐ 深度学习入门体系(第 20 篇): 如何从 0 到 1 训练一个稳定、可复现的深度学习模型
人工智能·深度学习