1. 执行摘要:智能体技术范式的根本性转变
2025年标志着人工智能发展史上的一个决定性转折点。我们正在见证技术重心从"生成式AI(Generative AI)"向"代理式AI(Agentic AI)"的根本性迁移。如果说前几年的核心在于利用大语言模型(LLM)进行知识的压缩与生成,那么2025年的主旋律则是利用这些模型作为核心认知引擎,构建能够感知环境、规划路径、调用工具并自主执行复杂任务的智能系统。这一转变被业界定义为从"增强知识(Augmenting Knowledge)"向"增强执行(Augmenting Execution)"的跨越 1。
根据麦肯锡发布的《2025年AI现状》调查报告,尽管62%的企业表示正在对AI智能体(AI Agents)进行实验性探索,但真正实现企业级规模化部署的比例仍然较低 2。这种"高好奇心、低规模化"的现状,揭示了当前技术栈的成熟度与企业实际需求之间仍存在鸿沟。为了跨越这一鸿沟,技术界在2025年迅速收敛出一套主流的智能体构建技术栈。
本报告将详尽剖析定义2025年智能体构建方向的主流技术。我们的分析并未局限于模型本身,而是深入到支撑智能体自主性的四大核心支柱:认知层(Cognitive Layer) 、编排层(Orchestration Layer) 、连接层(Connectivity Layer)以及运营层(AgentOps Layer) 。
当前的技术风向表明,构建智能体不再仅仅是编写提示词(Prompt Engineering)的艺术,而是演变为一门严谨的系统工程。主流技术趋势表现为:
- 认知引擎的二元化 :快速响应模型与深度推理模型(如OpenAI o3, DeepSeek-R1)的分工日益明确。
- 控制流的显性化 :从不可控的ReAct循环转向基于图论(Graph-based)的确定性编排(如LangGraph)。
- 连接协议的标准化 :模型上下文协议(MCP)终结了碎片化的工具集成时代。
- 记忆管理的系统化 :从简单的向量检索向操作系统级别的记忆层级(如Letta/MemGPT)演进。
本报告旨在为技术架构师、AI研究员及企业决策者提供一份详尽的技术全景图,解析这些主流技术如何共同作用,构建出下一代具备高度自主性的软件实体。
2. 认知层:作为智能体核心的推理引擎
智能体的能力上限,从根本上受限于其底座模型(Foundation Model)的推理与规划能力。在2025年,模型生态发生了显著的分化,不再追求"一刀切"的通用模型,而是向着"快思考(System 1)"与"慢思考(System 2)"两个极端演进。对于智能体构建而言,选择正确的认知引擎是架构设计的第一步。
2.1 深度推理模型的崛起(System 2 Reasoning)
2025年智能体领域最显著的技术突破,是具备"思维链(Chain of Thought, CoT)"内化能力的推理模型的大规模应用。这类模型在输出最终答案之前,会先在隐藏空间或显性输出中进行长链条的逻辑推演、自我反思与路径规划。这种机制对于处理多步骤、高风险或环境模糊的智能体任务至关重要。
2.1.1 OpenAI o1 与 o3 系列:闭源模型的推理巅峰
OpenAI 推出的 o1 及后续的 o3 系列模型,重新定义了智能体规划能力的天花板。o3 模型不仅在传统的自然语言处理任务上表现出色,更在软件工程(SWE-bench Verified)和复杂数学推理(AIME, GPQA)上取得了压倒性优势 3。
- 技术特性 :o3 系列引入了强化学习(RL)驱动的"慢思考"机制。在智能体架构中,o3 通常不作为直接执行简单动作的"手",而是作为负责任务拆解、异常处理和全局规划的"大脑"。
- 基准表现 :数据显示,o3 在 SWE-bench Verified(衡量自主代码修复能力)上的得分高达 69.1% 3,远超传统 GPT-4o 类模型。这意味着在构建自动编程智能体(Coding Agents)时,o3 能够处理更复杂的依赖关系和逻辑错误,减少了人工介入的需求。
- 应用场景 :在多智能体系统(Multi-Agent Systems)中,o3 被广泛用于担任"编排者(Orchestrator)"或"团队领导(Team Lead)"的角色,负责将模糊的用户需求转化为具体的子任务序列,并分配给其他更快速的模型去执行 5。
2.1.2 DeepSeek-R1:开源推理的破局者
2025年模型生态的另一大变量来自 DeepSeek-R1 的发布。作为一个开源权重模型,R1 采用了大规模强化学习(RL)去除监督微调(SFT)冷启动阶段的激进训练策略,成功涌现出了与 o1 匹敌的推理能力 6。
- 技术民主化 :DeepSeek-R1 的出现打破了顶级推理能力被闭源厂商垄断的局面。其在 MATH-500 测试集上达到了 97.3% 的准确率,与 OpenAI o1-1217 版本持平 7。
- 蒸馏与本地部署 :对于构建垂直领域智能体的企业而言,R1 的真正价值在于其"蒸馏(Distillation)"潜力。企业可以利用 R1 生成的高质量思维链数据,微调小参数模型(如 Llama 或 Qwen 的 7B/14B 版本),从而以极低的推理成本获得具备特定领域推理能力的边缘侧智能体 7。这种技术路径在金融高频交易、隐私敏感的医疗数据处理等场景中已成为主流。
- 成本效益 :DeepSeek-R1 的 API 定价极其激进,使得大规模部署具备深度推理能力的智能体成为经济上的可能,迫使竞争对手重新评估其定价策略,进一步加速了智能体技术的普及 8。
2.1.3 Google Gemini 2.5:超长上下文与多模态融合
Google 的 Gemini 2.5 系列(包括 Pro 和 Flash 版本)在智能体构建中占据了独特的生态位。其核心优势在于极其庞大的上下文窗口(达到 200 万 token 甚至更多)以及原生多模态理解能力 9。
- 上下文填充(Context Stuffing) :对于需要处理海量非结构化数据(如整个代码库、长篇法律合同或视频流)的智能体,Gemini 2.5 允许开发者放弃复杂的 RAG(检索增强生成)流程,直接将所有相关信息塞入上下文。这种"全量阅读"的能力显著提升了智能体对全局信息的把控力,减少了因检索失败导致的幻觉。
- Flash Thinking :Gemini 2.5 Flash Thinking 模型试图在速度与深度推理之间寻找平衡,为需要实时响应但又包含一定逻辑复杂度的客服智能体或交互式助手提供了理想的基座 11。
2.2 智能体基准测试:数据驱动的模型选型
在构建智能体时,模型的选择不再基于感性的"体验",而是基于严格的量化指标。2025年,GAIA(通用AI助手基准)和 SWE-bench(软件工程基准)成为了评估模型"智能体含量(Agentic Capability)"的黄金标准。
表 1:2025年主流模型智能体能力对比分析
|---------------------------|-------------------------|-----------------------------------|--------------------------------|----------------------------|
| 特性维度 | OpenAI o3 / o1 | Claude 3.5 Sonnet (v2025) | Gemini 2.5 Pro / Flash | DeepSeek R1 |
| 核心定位 | 深度规划与复杂逻辑推理 | 高可靠性编码与工具使用 | 海量信息吞吐与多模态 | 开源、高性价比推理 |
| 代码自主性 (SWE-bench) | 极高 (69.1% - 80% 区间) 3 | 行业标杆 (工具调用极其精准) 14 | 有竞争力 (76.2%) 13 | 强劲 (特别是在数学/算法类代码) 7 |
| 逻辑推理 (GPQA/AIME) | 顶尖 (92.4% GPQA) 13 | 强 (75.4% GPQA) 14 | 高 (91.9% GPQA) 13 | 极具竞争力 (97.3% MATH-500) 7 |
| 上下文处理 | 200k Tokens (注重推理深度) 12 | 200k Tokens (注重指令遵循) 14 | 200万 Tokens (注重信息广度) 9 | 128k Tokens 16 |
| 架构角色推荐 | 大脑 :负责拆解任务、反思纠错 | 双手 :负责写代码、操作GUI、调用API | 感知 :负责阅读文档、分析视频流 | 本地核心 :私有化部署、数据隐私场景 |
深度洞察 :数据表明,智能体架构正在走向"异构模型协作"。开发者倾向于使用 OpenAI o3 或 DeepSeek-R1 进行顶层的任务规划(Planning),而使用 Claude 3.5 Sonnet 进行具体的工具调用(Tool Use)和代码生成,利用 Gemini 2.5 处理大规模背景资料。这种组合策略(Ensemble Strategy)最大化了各模型的比较优势。
2.3 "思考"过程的工程化意义
在2025年的技术语境下,"推理模型"对智能体构建的意义在于它改变了**错误处理(Error Handling)**的范式。
- 传统 LLM :倾向于自信地输出错误答案,需要外部框架(如 Reflection 模式)显式地提示模型"请检查你的代码"。
- 推理模型 :将反思过程内化。例如 DeepSeek-R1 在生成最终代码前,会先在思维链中模拟执行,发现潜在 Bug 并自我修正 6。这大大简化了外围编排代码的复杂度,提高了智能体在无人值守情况下的成功率(Pass@1)。
3. 编排层:从链式反应到图论流工程
如果说模型是智能体的大脑,那么编排框架(Orchestration Framework)就是智能体的骨骼与神经系统,它定义了智能体如何感知环境、管理状态以及在不同任务之间流转。2025年,智能体编排技术经历了一场从"链(Chain)"到"图(Graph)"的深刻变革。
传统的线性链式结构(Chain)难以应对现实世界的复杂性与非线性特征。当前的行业标准已全面转向流工程(Flow Engineering) ,即通过显式的图结构或状态机来定义智能体的行为边界与控制流。
3.1 LangGraph:图论编排的行业标准
LangGraph 已经确立了其作为生产级智能体编排框架的统治地位。它基于 LangChain 生态,但核心理念完全不同,强调将智能体工作流建模为循环图(Cyclic Graph) 17。
3.1.1 核心机制:状态与循环
LangGraph 的核心在于对**状态(State)**的严格管理。
- 持久化状态架构 :与无状态的 API 调用不同,LangGraph 强制定义一个全局状态对象(Schema),所有节点(Node)的执行结果都会更新这个状态。这意味着智能体拥有了"短期记忆",能够清晰地知道"我也做了什么"、"还需要做什么"。
- 循环执行(Cyclic Execution) :LangGraph 支持定义有向有环图(Cyclic Graph)。这对于实现"重试(Retry)"、"修正(Correction)"和"人机交互循环(Human-in-the-loop)"至关重要。例如,当智能体生成的代码运行报错时,控制流可以自动回退到"代码生成节点",并将错误信息作为新的输入,形成一个自我修正的闭环 18。
3.1.2 时间旅行与调试
LangGraph 的另一大杀手锏是"时间旅行(Time Travel)"功能。由于状态是持久化的(Checkpointed),开发者可以随时查看智能体在过去某一时刻的状态,甚至修改状态并从该点重新运行 19。这解决了非确定性 AI 系统难以调试的痛点,使得开发者能够像调试传统软件一样调试智能体。
3.2 CrewAI:角色扮演与层级协作
对于需要模拟人类团队协作结构的场景,CrewAI 是目前最流行的框架。它抽象出了"角色(Role)"、"任务(Task)"和"团队(Crew)"的概念,使得多智能体系统的构建更符合人类的组织管理直觉 20。
3.2.1 层级式流程(Hierarchical Process)
CrewAI 引入了类似于公司管理的层级式流程 。
- 管理者智能体(Manager Agent) :在层级模式下,用户无需手动分配任务。系统会自动指定一个(通常由更高级模型驱动的)管理者。这个管理者负责将高层目标拆解,并根据每个"员工智能体"的技能描述(Tools & Backstory),动态指派任务 21。
- 验证与反馈 :管理者还会审查员工的产出。如果产出不达标,管理者会驳回并要求重做。这种机制非常适合内容创作、市场调研等需要多轮迭代和质量把控的复杂工作流 22。
3.3 Microsoft AutoGen 与 AG2:事件驱动的群智涌现
Microsoft 的 AutoGen(及其演进版本 AG2)代表了另一种技术哲学:对话即计算(Conversation as Computation) 。
- 异步消息传递 :AutoGen 采用事件驱动架构,智能体之间的协作通过异步消息(Message Passing)完成 23。这种解耦设计使得系统极具扩展性,支持分布式的智能体运行时。
- 群聊模式(Group Chat) :AutoGen 擅长处理动态的、非预设路径的任务。通过"群聊管理者(Group Chat Manager)",多个智能体(如开发人员、测试人员、产品经理)可以在一个虚拟聊天室中协作解决问题。AG2 版本进一步增强了这种模式的鲁棒性,支持跨服务器的智能体通信 23。
3.4 PydanticAI:工程严谨性的回归
随着智能体应用深入到金融、医疗等严谨领域,开发者对类型安全(Type Safety)的需求日益增长。PydanticAI 应运而生,它将 AI 工程与 Python 的类型验证库 Pydantic 深度结合 19。
- 结构化输出保障 :PydanticAI 强制智能体的输出必须符合预定义的 Pydantic 模型(Schema)。这从代码层面杜绝了 LLM 输出格式错误的 JSON 或缺失字段的问题,极大地提高了系统集成的稳定性。
- 生产级优先 :该框架不追求花哨的"自主性",而是专注于如何在现有的 Python 后端服务中嵌入可靠的 AI 逻辑。
表 2:2025年主流智能体编排框架技术对比
|-----------------------|----------------|---------------------|-----------------|------------------|
| 框架名称 | 核心设计哲学 | 最佳适用场景 | 控制流机制 | 学习曲线 |
| LangGraph | 状态机与循环图 | 企业级复杂业务流、需要精细控制的应用 | 显式的边(Edge)与条件路由 | 陡峭(需理解图论与状态管理) |
| CrewAI | 角色扮演团队 | 内容生成、创意工作流、快速原型验证 | 层级式管理或顺序执行 | 平缓(高层抽象,易上手) |
| AutoGen / AG2 | 多智能体对话 | 代码生成、开放式问题解决、群智涌现 | 异步消息传递与事件驱动 | 中等(需理解异步编程) |
| PydanticAI | 类型安全工程 | 数据提取、API集成、高可靠性后端服务 | 严格的类型验证与重试 | 平缓(对Python开发者友好) |
| OpenAI Swarm | 移交模式(Handoffs) | 教育演示、轻量级多意图路由 | 函数级别的控制权移交 | 极简(主要用于教学和参考) |
3.5 架构模式的演进:从 ReAct 到 Handoffs
在框架之下,智能体的微观设计模式也发生了迭代。2023-2024年盛行的 ReAct (Reason + Act) 模式虽然通用,但在生产环境中由于过于依赖模型单次推理的稳定性,常常导致陷入死循环或任务跑偏。
2025年的主流模式是 Handoffs(控制权移交) ,这一模式由 OpenAI Swarm 推广并在 LangGraph 中得到完善 24。
- 去中心化路由 :在 Handoff 模式下,不再有一个全知全能的"上帝智能体"处理所有请求。相反,系统由许多专职智能体(Specialist Agents)组成(如"退款专员"、"技术支持"、"销售顾问")。
- 上下文无缝流转 :当"分诊智能体(Triage Agent)"判断用户意图为退款时,它执行一个工具调用 transfer_to_refund_agent。这不仅切换了当前活跃的模型提示词(System Prompt),还将对话历史和用户元数据完整传递给下一个智能体。这种模式极大地降低了单个智能体的上下文负担,提升了准确率和响应速度 26。
4. 连接层:模型上下文协议(MCP)的标准化革命
在2025年之前,连接大模型与外部世界(工具、数据源)是一项碎片化且耗时的工作。每个框架、每个模型厂商都有自己的工具定义格式(Tool Definition Schema)。这种"N × M"的集成难题极大地阻碍了生态的发展。模型上下文协议(Model Context Protocol, MCP) 的出现并迅速成为行业标准,彻底改变了这一局面 28。
4.1 MCP 的技术架构
MCP 被形象地称为"AI 应用的 USB-C 接口" 30。它定义了一套开放的 JSON-RPC 通信标准,解耦了模型端(Client)与资源端(Server)。
- MCP Host(宿主) :运行智能体的应用程序(如 Claude Desktop, Cursor 编辑器,或基于 LangChain 开发的企业应用)。宿主负责加载智能体并管理与 MCP Server 的连接。
- MCP Client(客户端) :位于宿主内部,负责与 Server 进行协议握手、发送请求。
- MCP Server(服务端) :这是 MCP 生态的核心。一个 MCP Server 是一个轻量级服务,它通过标准接口暴露三种能力:
- 资源(Resources) :被动的数据源,如文件、数据库记录、API 返回值。
- 工具(Tools) :可执行的函数,如"查询天气"、"执行 SQL"、"发送 Slack 消息"。
- 提示词(Prompts) :预定义的模板,帮助模型更好地使用该服务 28。
4.2 互操作性的质变
MCP 的核心价值在于**"一次编写,处处运行"**。
- 跨平台兼容 :开发者只需为公司内部的 PostgreSQL 数据库编写一个 MCP Server,那么无论是使用 Anthropic Claude 的桌面应用,还是使用基于 OpenAI o3 构建的 LangGraph 智能体,甚至是集成在 IDE 中的编码助手,都可以直接连接并使用这个数据库,无需任何额外的适配代码 32。
- 生态爆发 :由于标准的统一,社区迅速涌现了成百上千的现成 MCP Server(如 Google Drive, Slack, GitHub, AWS 等)。智能体开发者现在的体验类似于"安装驱动程序"------只需配置好 MCP Server 的连接串,智能体瞬间就拥有了操作 AWS 云资源或读取 GitHub 代码库的能力 33。
4.3 安全性与权限控制
MCP 在设计之初就将安全性置于核心地位。协议采用了客户端-主机-服务端 的模型,用户拥有最终的控制权。
- 授权机制 :当智能体试图调用一个敏感工具(如"删除文件")或读取受保护资源时,MCP Host 会拦截请求并向用户弹窗确认。这种"人机回环(Human-in-the-loop)"的安全机制被植入在协议层,而非应用层,提供了更底层的安全保障 31。
- 本地优先 :MCP 支持本地运行(通过 stdio 通信),这意味着敏感数据不需要流经第三方云服务,直接在用户的本地环境与大模型交互,极大地缓解了企业的隐私顾虑。
5. 记忆层:从简单的 RAG 到操作系统级记忆管理
记忆(Memory)是区分"聊天机器人"与"智能体"的关键特征。在2025年,智能体的记忆技术已经超越了简单的向量检索增强生成(Naive RAG),向着结构化、分层化和具有自我管理能力的**操作系统级记忆(OS-Level Memory)**演进。
5.1 Letta (MemGPT) 与分层记忆架构
受计算机操作系统存储层级(CPU寄存器 -> 内存 -> 硬盘)的启发,Letta(前身为 MemGPT)框架提出了一种分层的智能体记忆架构 34。
- 核心记忆(Core Memory - RAM) :这是位于模型当前上下文窗口(Context Window)内的保留区域。它通常包含用户的核心画像(Persona)、当前任务的状态以及最重要的几条指令。独特之处在于,智能体拥有"写入"核心记忆的权限。它可以调用工具(如 core_memory_append)来修改自己对用户的认知,这种修改是持久的且即时生效的 36。
- 归档记忆(Archival Memory - Disk) :这是无限容量的外部存储,通常由向量数据库支撑。当核心记忆即将溢出时,智能体可以将不常用的信息"换出(Swap out)"到归档记忆中;当需要时,再通过检索工具将其"换入(Swap in)"。
- 自主管理 :这种架构赋予了智能体**元认知(Metacognition)**能力。智能体不再被动地接收 RAG 系统检索到的片段,而是主动决定"我要记住什么"、"我要忘掉什么"以及"我现在需要去查阅什么过去的信息" 37。这使得智能体能够维持跨越数月甚至数年的长期会话连贯性。
5.2 生成式反馈循环(Generative Feedback Loops)
向量数据库的角色也在发生转变。以 Weaviate 为代表的技术提出了生成式反馈循环 的概念 38。
- 读写双向闭环 :传统的 RAG 是单向的(数据库 -> 模型)。而生成式反馈循环是双向的。智能体在处理完任务后,会将生成的洞察、总结或新知识写回 向量数据库。
- 知识进化 :例如,一个负责阅读财报的智能体,在分析完某公司的 Q3 财报后,会生成一份摘要并存入数据库。下次用户询问该公司年度表现时,智能体可以直接检索这份摘要,而不是重新读取原始财报。这种机制使得智能体的知识库随着使用次数的增加而自我进化、越来越"聪明" 39。
- Serverless Inference :Pinecone 等向量数据库厂商推出了 Serverless Inference 功能,将 Embedding 生成和重排序(Reranking)模型直接集成在数据库层。这简化了智能体的架构,使得开发者无需维护独立的推理服务即可实现高质量的检索 40。
6. 运营层(AgentOps):驾驭不确定性的工程实践
随着智能体从实验室走向生产环境,如何保证这些本质上具有概率性(Non-deterministic)的系统的可靠性,成为了最大的挑战。AgentOps(智能体运维) 应运而生,成为继 DevOps 和 MLOps 之后的新兴工程学科。
6.1 全链路可观测性(Observability)
调试智能体与调试传统代码截然不同。开发者需要透视智能体的"思考过程"。
- 执行轨迹追踪(Tracing) :LangSmith、Arize Phoenix 和 Langfuse 等工具提供了可视化的追踪能力。开发者可以清晰地看到智能体的每一步决策:接收输入 -> 内部思考(Thought) -> 调用工具(Tool Call) -> 工具返回结果(Observation) -> 最终响应 41。
- 关键指标 :AgentOps 关注的指标除了传统的延迟(Latency)和成本(Token Cost)外,还包括任务包含率(Containment Rate) (智能体独立解决问题的比例)和幻觉率(Hallucination Rate) 42。
6.2 评估驱动开发(Eval-Driven Development)
在2025年,"写代码前先写评估(Evals)"已成为开发高水平智能体的标准流程。
- LLM-as-a-Judge :由于智能体的输出往往是自然语言或复杂动作,难以用传统的断言(Assert)来测试。因此,业界广泛采用"大模型即裁判"的方法,用一个高智商模型(如 GPT-4o 或 Claude 3.5 Sonnet)来给另一个模型的执行结果打分 43。
- 基准数据集 :GAIA 和 SWE-bench 不仅是选型的参考,也被企业用于构建内部的回归测试集。每次修改提示词或更换模型后,必须跑通这些测试集以确保智能体能力没有退化 44。
6.3 安全与防御
OWASP(开放式Web应用程序安全项目)发布的2025年智能体安全Top 10 报告,为智能体安全设定了基准 45。
- 过度代理(Excessive Agency) :这是智能体特有的风险,指智能体在执行任务时拥有了超出预期的权限(例如,一个只读的分析助手意外删除了数据库表)。
- 防御策略 :主流技术方案包括引入**护栏(Guardrails)**层。这是一个确定性的代码层,位于大模型与外部工具之间,负责拦截不合规的指令、过滤敏感数据(PII)并强制执行操作白名单 46。
7. 结论与展望:迈向自我进化的未来
综上所述,2025年智能体构建的主流技术方向呈现出高度的工程化、标准化和模块化 特征。早期的"提示词工程"已不再是核心,取而代之的是对系统架构的深度打磨。
核心技术栈总结:
- 大脑 :利用 OpenAI o3 或 DeepSeek-R1 等推理模型进行复杂的任务规划与自我纠错。
- 骨骼 :采用 LangGraph 构建具有状态记忆和循环纠错能力的图谱工作流,或使用 CrewAI 搭建层级化团队。
- 神经 :通过 MCP(模型上下文协议) 标准化连接万物,打破工具孤岛。
- 记忆 :部署 Letta 架构或具备 生成式反馈循环 的向量数据库,实现长期记忆与知识进化。
- 免疫 :建立完整的 AgentOps 监控体系与安全护栏,确保系统的可控性。
未来的方向:
研究前沿显示,智能体技术正在向**自我进化(Self-Evolving)**迈进 47。下一代智能体将不仅仅是执行预定义的流程,而是具备修改自身代码、优化自身提示词甚至自主构建新工具的能力。随着 DeepSeek-R1 等开源模型让训练成本大幅下降,企业拥有专属的、在私有数据上持续自我迭代的垂直领域智能体,将成为2026年的新常态。对于当下的技术构建者而言,掌握上述主流技术栈,是通往这一未来的必经之路。
引用的著作
- What's next for AI? - Deloitte, https://www.deloitte.com/us/en/insights/topics/technology-management/tech-trends/2025/tech-trends-ai-agents-and-autonomous-ai.html
- The state of AI in 2025: Agents, innovation, and transformation - McKinsey, https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
- OpenAI's O3: Features, O1 Comparison, Benchmarks & More | DataCamp, https://www.datacamp.com/blog/o3-openai
- OpenAI o1 and new tools for developers, https://openai.com/index/o1-and-new-tools-for-developers/
- OpenAI o1 vs o3 2025 Reasoning Model Deep Dive - Skywork.ai, https://skywork.ai/blog/llm/openai-o1-vs-o3-2025-reasoning-model-deep-dive/
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, https://huggingface.co/papers/2501.12948
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - arXiv, https://arxiv.org/pdf/2501.12948
- Year Ender 2025: From DeepSeek to Agentic AI, 10 major developments that changed Artificial Intelligence in 2025, https://m.economictimes.com/news/new-updates/year-ender-2025-major-ai-breakthroughs-that-changed-the-world-from-deepseek-to-agentic-artificial-intelligence/articleshow/126203764.cms
- ChatGPT vs Gemini vs Claude: A Guide to Top AI Models in 2026 - Kanerika, https://kanerika.com/blogs/chatgpt-vs-gemini-vs-claude/
- Gemini 2.5 Flash | Generative AI on Vertex AI - Google Cloud Documentation, https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash
- Release notes | Gemini API - Google AI for Developers, https://ai.google.dev/gemini-api/docs/changelog
- o1 vs Gemini 2.0 Flash Thinking - LLM Stats, https://llm-stats.com/models/compare/o1-2024-12-17-vs-gemini-2.0-flash-thinking
- LLM Leaderboard 2025 - Vellum AI, https://www.vellum.ai/llm-leaderboard
- Claude 3.5 Haiku vs Claude Sonnet 4 - LLM Stats, https://llm-stats.com/models/compare/claude-3-5-haiku-20241022-vs-claude-sonnet-4-20250514
- Introducing Claude 3.5 Sonnet - Anthropic, https://www.anthropic.com/news/claude-3-5-sonnet
- DeepSeek's New R1--0528: Performance Analysis and Benchmark Comparisons - Medium, https://medium.com/@leucopsis/deepseeks-new-r1-0528-performance-analysis-and-benchmark-comparisons-6440eac858d6
- A Detailed Comparison of Top 6 AI Agent Frameworks in 2025 - Turing, https://www.turing.com/resources/ai-agent-frameworks
- LangGraph vs ReAct: When Should You Use Which for Your Next AI Agent? - Amitav Roy, https://www.amitavroy.com/articles/2025-06-29-LangGraph-vs-ReAct-When-Should-You-Use-Which-for-Your-Next-AI-Agent
- The Developer's Guide to AI Agent Frameworks in 2025: MCP-Native vs Traditional Approaches - DEV Community, https://dev.to/hani__8725b7a/agentic-ai-frameworks-comparison-2025-mcp-agent-langgraph-ag2-pydanticai-crewai-h40
- Comparing AI agent frameworks: CrewAI, LangGraph, and BeeAI - IBM Developer, https://developer.ibm.com/articles/awb-comparing-ai-agent-frameworks-crewai-langgraph-and-beeai/
- Ware are the Key Differences Between Hierarchical and Sequential Processes in CrewAI, https://help.crewai.com/ware-are-the-key-differences-between-hierarchical-and-sequential-processes-in-crewai
- Mastering CrewAI: Chapter 4 --- Processes - Artificial Intelligence in Plain English, https://ai.plainenglish.io/mastering-crewai-chapter-4-processes-e8ad3ebbadae
- Technical Comparison of AutoGen, CrewAI, LangGraph, and OpenAI Swarm | by Omar Santos | Artificial Intelligence in Plain English, https://ai.plainenglish.io/technical-comparison-of-autogen-crewai-langgraph-and-openai-swarm-1e4e9571d725
- openai/swarm: Educational framework exploring ergonomic, lightweight multi-agent orchestration. Managed by OpenAI Solution team. - GitHub, https://github.com/openai/swarm
- Multi-agent systems - langchain-ai/langgraph - GitHub, https://github.com/langchain-ai/langgraph/blob/main/docs/docs/concepts/multi_agent.md
- Handoffs - Docs by LangChain, https://docs.langchain.com/oss/python/langchain/multi-agent/handoffs
- Understanding multi-agent handoffs - YouTube, https://www.youtube.com/watch?v=WTr6mHTw5cM
- What is Model Context Protocol (MCP)? A guide | Google Cloud, https://cloud.google.com/discover/what-is-model-context-protocol
- Model Context Protocol - Wikipedia, 访问时间为 十二月 30, 2025, https://en.wikipedia.org/wiki/Model_Context_Protocol
- Model Context Protocol, https://modelcontextprotocol.io/
- Anthropic's Model Context Protocol (MCP): A Deep Dive for Developers - Medium, https://medium.com/@amanatulla1606/anthropics-model-context-protocol-mcp-a-deep-dive-for-developers-1d3db39c9fdc
- What is Model Context Protocol (MCP)? and How does MCP work? | by Lovelyn David | Nov, 2025, https://medium.com/@lovelyndavid/what-is-model-context-protocol-mcp-and-how-does-mcp-work-fceba51c4c65
- Top MCP tools for software architects, https://icepanel.medium.com/top-mcp-tools-for-software-architects-20a69f220a5d
- MemGPT: Engineering Semantic Memory through Adaptive Retention and Context Summarization - Information Matters, https://informationmatters.org/2025/10/memgpt-engineering-semantic-memory-through-adaptive-retention-and-context-summarization/
- Agent Memory: How to Build Agents that Learn and Remember - Letta, https://www.letta.com/blog/agent-memory
- Understanding memory management - Letta Docs, https://docs.letta.com/advanced/memory-management/
- What's Letta ai? A complete guide | by Aaryan Kansari - Medium, https://medium.com/@pbzbhzxk/whats-letta-ai-a-complete-guide-230d572a6fd2
- Hurricane: Writing Blog Posts with Generative Feedback Loops - Weaviate, https://weaviate.io/blog/hurricane-generative-feedback-loops
- Generative Feedback Loops with LLMs for Vector Databases - Weaviate,https://weaviate.io/blog/generative-feedback-loops-with-llms
- Retrieval Inference for scale and performance - Pinecone, https://www.pinecone.io/blog/optimizing-retrieval-inference/
- Comparing LLM Evaluation Platforms: Top Frameworks for 2025 - Arize AI, https://arize.com/llm-evaluation-platforms-top-frameworks/
- Best 17 AgentOps Tools: AgentNeo, Langfuse & more ['26], https://research.aimultiple.com/agentops/
- LiveBench, 访问时间为 十二月 30, 2025, https://livebench.ai/
- SWE-bench Verified - Epoch AI, https://epoch.ai/benchmarks/swe-bench-verified
- The Real-World Attacks Behind OWASP Agentic AI Top 10, https://www.bleepingcomputer.com/news/security/the-real-world-attacks-behind-owasp-agentic-ai-top-10/
- OWASP guides defenders on the new risks posed by AI agents, https://www.scworld.com/feature/owasp-guides-defenders-on-the-new-risks-posed-by-ai-agents
-
2508.07407\] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems - arXiv, [https://arxiv.org/abs/2508.07407](https://arxiv.org/abs/2508.07407 "https://arxiv.org/abs/2508.07407")