纵观当前AI行业发展态势,基础模型训练领域正逐渐呈现集中化趋势,头部企业凭借资源优势形成显著优势;而在AI应用创新层面,却展现出百花齐放的活力,各类突破性应用持续涌现。在一个完整的AI应用体系中,用户、AI Agent与外部工具构成核心交互三角,如何实现三者间高效顺畅的通信,成为决定系统效能的关键所在。
本文将聚焦Agent框架的三大主流协议展开解析:MCP协议专注解决AI Agent与外部工具的交互难题;A2A协议致力于打通Agent之间的通信壁垒;AG-UI协议则着眼于实现AI Agent与前端应用交互的标准化。随着AI应用的深度渗透,这些协议作为重要的技术规范,正在重塑行业发展格局。下文将深入探讨其诞生背景、技术实现路径及在实际场景中的应用实践。

Agent 应用协议栈
来源:https://github.com/ag-ui-protocol/ag-ui
MCP协议:AI Agent与外部世界的"通用接口"
MCP(Model Context Protocol,模型上下文协议)由Anthropic公司于2024年11月开源发布,自今年3月起迎来爆发式增长。3月27日OpenAI宣布在其Agent SDK中支持MCP,4月4日谷歌也在Gemini官方API文档中添加了MCP使用范例,至此海外三大AI巨头均已入局,推动MCP成为行业关注的焦点。

MCP Github Star History
MCP的诞生与Function Calling技术的发展密切相关。2023年6月,OpenAI率先在GPT-4-0613和GPT-3.5-turbo-0613模型中引入Function Calling功能,使Agent具备了执行具体任务的能力------通过该功能,模型可根据上下文调用特定函数,实现知识库检索、实时信息查询、数学计算等操作。随后谷歌、Anthropic等厂商纷纷跟进,但不同模型的Function Calling在接口规范、数据格式等细节上存在显著差异,导致开发者需为不同模型单独适配函数声明、参数传递和响应解析等环节,极大增加了多模型集成的复杂度。

MCP协议的提出正是为解决这一痛点,它为模型提供了标准化的上下文管理方式,以及与外部工具、服务和数据交互的统一接口。形象地说,MCP就如同电脑的USB-C接口,大幅简化了各类外部设备的适配流程,使AI模型能够轻松调用多样化的数据源和工具。

MCP 架构示例图
*来源:*Norah Sakal on X https://x.com/norahsakal/status/1898183864570593663
需要注意的是,支持MCP的模型通常需要具备Function Calling能力,但后者并非唯一实现路径。理论上,只要模型能够理解和生成JSON-RPC、gRPC、RESTful API等结构化调用协议,即可实现MCP功能,其中Function Calling是目前最主流、最推荐的方式。
开发者快速体验MCP服务可遵循以下步骤:
- 准备MCP Host:目前主流工具包括Cursor、Windsurf、Cline等,本文以Cursor为例;
- 环境配置:由于MCP Server本质上是Node.js或Python程序,需先安装对应环境;
- MCP配置:可从官方选择热门Server(如本地文件操作filesystem),在Cursor中添加配置(具体列表可参考https://github.com/modelcontextprotocol/servers)。

MCP Server 配置
完成配置后,在Cursor中选择Agent模式,即可通过自然语言进行本地文件操作。对于文件系统相关请求,Agent会自动调用filesystem的MCP Server工具,在获取用户授权后执行create_directory、write_file、search_files等操作:

MCP 操作效果
目前已有大量MCP Server服务可供使用,除Git、Playwright等热门工具外,国内互联网产品如支付宝、高德地图、阿里云无影AgentBay、12306等也推出了专属MCP Server。以无影AgentBay为例,用户申请服务Apikey并完成配置后,即可通过自然语言操作覆盖Linux、Windows、Android、浏览器等环境的云电脑。

AgentBay MCP Server使用示例
随着MCP生态的快速发展,mcp.so和smithery.ai等"集散地"已聚合数千个MCP Server。MCP实现了Agent对外部工具的"即插即用",大幅减少重复开发工作,开发者可直接使用开源Server或自定义专属服务,显著提升工具接入效率。
A2A协议:Agent间协作的"沟通桥梁"
2025年3月,在MCP获得广泛关注之际,谷歌推出了作为其补充的A2A(Agent2Agent)协议。尽管两者都致力于通过开放标准化方式解决AI系统中不同单元的集成交互问题,但目标与作用域存在本质区别:MCP聚焦Agent与外部工具/数据的集成,属于Agent的"内部事务";而A2A则专注于促进独立Agent间的通信,助力不同生态系统的Agent实现有效协作。

Agentic Application 示例
以"黄牛协作网络"为例:朋友圈中的"黄牛总代"整合了各领域资源,包括演唱会抢票、医院挂号、热门商品代购等,每个领域的黄牛可视为独立Agent。MCP协议相当于连接这些Agent与其专用工具(如抢票脚本)的纽带;而A2A协议则是总代与各领域黄牛之间的协作规则------当用户提出"需要一张周杰伦演唱会门票"的需求时,基于A2A协议,Agent间可进行双向沟通(如确认日期、价位、区域等),不断优化执行方案直至达成目标。
作为开放协议,A2A重点解决Agent间通信在用户与企业交互中的核心挑战,其主要功能特性包括:

A2A 协议示例
- 标准化消息格式:为Agent创建统一"语言",确保清晰表达需求与响应;
- 发现机制:使Agent能"搜索"并了解其他Agent的能力,自主选择协作对象;
- 任务委派框架:支持Agent将复杂任务分解后,分配给最擅长的其他Agent处理;
- 能力广告:允许Agent"宣传"自身特长,形成高效的服务市场;
- 安全和访问控制:类似门禁系统,确保只有授权Agent可进行通信,防范信息泄露。
A2A协议涉及三个核心角色:User(用于认证与授权)、Client Agent(任务发起者)、Server Agent(任务执行者)。Client与Server以任务为粒度进行通信,每个Agent可同时承担两种角色。其典型工作流程如下:

A2A 典型工作流
值得关注的是,多Agent系统(Multi-Agent System, MAS)被视为Agent技术的重要发展方向,因其更适合解决复杂问题求解、分布式任务处理、社会系统模拟等场景。在这类系统中,每个Agent专注于特定领域,通常集成不超过10个工具,团队协作高度依赖推理能力(目前成功率仍低于50%)。例如股票分析团队中,可能需要一个Agent专注数据解析,另一个提供操作建议。
不过2025年的MAS系统仍处于发展初期,业内对于单Agent与多Agent的优劣存在较多争议。由于MAS系统的设计与协调机制复杂度高,行为难以预测和控制,目前更适合研究探索而非大规模生产应用,这也导致A2A协议的普及速度不及MCP。
AG-UI协议:Agent与用户界面的"交互标准"
AG-UI(Agent-User Interaction Protocol,智能体用户交互协议)由CopilotKit团队于2025年5月发起并开源,旨在解决AI Agent与前端应用之间的交互标准化问题,提供轻量级、事件驱动的开放协议,实现两者的实时双向通信。其工作流程如下:
-
客户端通过POST请求发起AI Agent会话;
-
建立HTTP流(如SSE或WebSocket)实现事件实时传输;
-
每个事件包含类型和元信息,用于标识与描述内容;
-
AI Agent以流式方式持续向UI端推送事件;
-
UI端根据接收的事件动态更新界面;
-
UI端可反向发送事件或上下文信息,供Agent实时处理。

AG-UI 工作流示例
图来源:https://webflow.copilotkit.ai
AG-UI协议的核心在于事件定义,主要包括:
- 文本消息事件(TEXT_MESSAGE_):支持实时流式文本生成,模拟类似Copilot的打字效果;
- 工具调用事件(TOOL_CALL):管理完整的工具调用生命周期;
- 状态管理事件(STATE):实现客户端与服务端的状态同步;
- 生命周期事件(RUN* / STEP_):控制代理执行的整个生命周期。
这些事件类型体现了AI Agent系统的核心需求:流式处理、状态管理、工具集成、错误处理与可扩展性。协议设计既兼顾技术实现效率,又注重用户体验流畅性,为现代AI应用系统提供了重要参考。
目前AG-UI协议官方已推出Python SDK和TypeScript SDK。以Python为例,开发者可通过ag-ui-protocol包的ag_ui.core模块生成协议事件,无需手写JSON。核心事件定义于ag_ui.core.events,支持通过TextMessageStartEvent、TextMessageContentEvent、TextMessageEndEvent等类构造事件,再通过.model_dump_json()方法输出。
借助Cursor工具,可基于AG-UI协议快速实现服务端与客户端代码。调试时,配置BrowserTools MCP Server后,Cursor能通过调用MCP工具定位和调试浏览器行为,经过几轮交互即可完成简单的前后端应用开发:

Cursor 使用 BrowserTool 的自动调试

AI代码率100%的前后端服务
总结:构建Agent系统的基础设施
综合来看,三大协议从不同维度构建了Agent系统框架的基础设施:

MCP为Agent配备了与外部世界交互的"手脚",A2A让Agent拥有了协作伙伴,AG-UI则为Agent提供了面向用户的"落地入口"。三者协同推动Agent系统从单智能体向多智能体演进,既提升了底层技术能力,又优化了上层用户体验。这些协议的开放性与兼容性,正不断激发AI创新应用与跨界协作的无限可能,为行业发展注入持续动力。
阿里云百炼专属版 AI Stack 一体机
阿里云百炼专属版 AI Stack 采用软硬协同架构,以一体机形式部署,支持模型训练与推理一体化操作。该系统内置DeepSeek R1/V3满血版模型及阿里Qwen 72B/14B/7B模型,为用户提供开箱即用的大模型服务,能更好满足企业在数据安全、成本效率、合规性等方面的业务需求。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
"最先掌握AI的人,将会比较晚掌握AI的人有竞争优势"。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用 ,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- ...
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- ...
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名"AI小子"。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- ...
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- ...
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
