从 AutoGPT 到 Manus：AI Agent 的演进路径

引言：AI Agent 的崛起

2023 年以来，AI Agent（智能体）从一个学术概念迅速演变为产业热点。从最早的 AutoGPT 引发全民 DIY AI 助手的浪潮，到 2025 年 Manus 为代表的「超级 Agent」产品出现，这段进化史浓缩了 AI 应用层最关键的范式转变。本文试图梳理这条演进路径，帮助读者理解 AI Agent 的现在与未来。

第一阶段：AutoGPT 与先驱探索（2023）

2023 年 4 月，AutoGPT 横空出世，成为 GitHub 上增长最快的开源项目之一。它的核心思想很简单：让 LLM（当时是 GPT-4）自己设定子目标、循环执行、自我反思，直到完成一个复杂任务。用户只需要设定一个终极目标（如「帮我研究电动汽车市场并写一份报告」），AutoGPT 就会自动分解任务、搜索网络、存储记忆、迭代改进。

但 AutoGPT 的问题也相当明显：Token 消耗巨大、执行链容易发散、缺乏稳定的工具调用机制。它更像是一个技术演示，证明了「LLM + 循环 + 工具调用 = Auto Agent」这个公式的可行性，但远未达到生产级可用。同期出现的 BabyAGI、AgentGPT 等项目也走了类似的思路，都在解决同一个问题：如何让 AI 不止于对话，而是真正执行任务。

这个阶段的 Agent 本质上还是「脆弱的流水线」------每一步依赖上一轮的完整输出，一旦某个环节出错，整个链条就断裂。它们缺乏错误恢复机制，也没有成熟的工具接口标准。

第二阶段：Function Calling 与工具标准化（2023-2024）

OpenAI 在 2023 年 6 月推出 Function Calling API，这成为 Agent 发展的分水岭。Function Calling 让 LLM 可以结构化地选择调用外部工具（如搜索、计算器、数据库查询），而不是靠解析自然语言描述来触发工具。这一步看似细微，实则彻底改变了 Agent 的可靠性：

从「LLM 生成文本 → 解析工具名 → 调用」变为「LLM 直接输出结构化函数调用」
工具调用的成功率和可预测性大幅提升
开发者可以精确控制 Agent 能做什么、不能做什么

LangChain、LlamaIndex 等框架在这个时期爆发式增长，它们提供的 Agent 抽象层涵盖了记忆管理、工具注册、Prompt 模板等核心组件。开发者的工作从「如何让 LLM 干活」转变为「如何编排多个工具链」。与此同时，Anthropic 的 Claude 也推出了 Tool Use 功能，Google 的 Gemini 加入了 Function Calling，整个行业在工具标准化上达成共识。

这个阶段的 Agent 已经可以完成一些实际工作：客服机器人、代码审查助手、数据分析流水线等。但它们的共同局限是「单次对话内执行」------Agent 没有持久化身份，每次对话从零开始，状态无法跨会话保持。

第三阶段：Agent 框架的成熟与分化（2024）

2024 年，AI Agent 进入框架成熟期。几个关键趋势同时发生：

**多 Agent 协作。**CrewAI、AutoGen、MetaGPT 等框架让多个 Agent 协同工作------一个 Manager Agent 分配任务，多个 Worker Agent 并行执行，Critic Agent 审查结果。这种架构模拟了人类团队的协作模式，大幅提升了复杂任务的完成质量。

**MCP 协议的诞生。**Anthropic 在 2024 年底推出 MCP（Model Context Protocol）协议，为 Agent 与外部工具之间的交互定义了统一标准。这相当于 Agent 世界的「USB 接口」------有了 MCP，任何兼容的 Agent 都可以无缝连接文件系统、数据库、API、浏览器等外部资源。开发者不再需要为每个工具写集成代码。

**记忆与状态管理。**RAG（检索增强生成）技术的成熟让 Agent 开始拥有「长期记忆」。向量数据库（Chroma、Milvus 等）成为 Agent 的标配组件。Agent 可以将对话历史、用户偏好、执行记录存入向量库，在后续会话中检索使用。

**评估与可观测性。**LangSmith、Arize 等工具的出现让 Agent 的调试不再靠猜。开发者可以追踪每一步的推理过程、Token 消耗、工具调用链，精确定位 Agent 的失败节点。

第四阶段：Manus 与超级 Agent 时代（2025-2026）

2025 年初，Manus（来自中国 Monica 团队）的发布引发了新一轮 Agent 热潮。与之前的 Agent 框架不同，Manus 主打「端到端任务交付」------用户只需要用自然语言描述需求，Manus 就能自主地在沙箱环境中完成代码编写、数据爬取、报告生成、网站部署等一系列操作，最终交付可用的成果。

Manus 代表了 Agent 演进的最新方向：

**沙箱执行环境：**Agent 在隔离的 Linux 容器中运行，可以安全地安装软件包、执行代码、操作文件，而不影响宿主系统
**工具即本能：**不需要显式注册每个工具，Agent 可以自主发现并使用环境中的可用工具（浏览器、终端、代码编辑器等）
**持久化工作区：**Agent 的工作成果（文件、代码、数据）在会话间持久保留，支持增量迭代
**人机协作模式：**用户在关键节点可以介入审查、提供反馈、修改方向，而不是全程旁观或全程手动

紧随其后的 OpenAI Codex CLI、Claude Code 等产品也采用了相似的架构理念------Agent 不再是「配置在框架里的推理引擎」，而是「在真实计算环境中自主行动的编程伙伴」。

演进的核心驱动力

回顾从 AutoGPT 到 Manus 的演进路径，我们可以提炼出几个关键的驱动力：

**1. 模型能力的飞跃。**从 GPT-4 到 Claude 3.5/4、GPT-4o、DeepSeek V3/R1，模型的推理能力、长上下文处理、指令遵循能力提升了数倍。更强的基座模型意味着 Agent 可以处理更长的任务链、理解更复杂的指令、做出更精准的工具选择。

**2. 工具生态的标准化。**从各自为政的工具调用接口到 MCP 这样的开放协议，工具的接入成本从「数天集成」降到了「数分钟配置」。标准化的生态让 Agent 可以快速扩展能力边界。

**3. 执行环境的进化。**从「聊天框里的文本推理」到「沙箱中的真实执行」，Agent 终于获得了操作真实世界的能力。代码运行、网络请求、文件操作------这些在早期的 Agent 框架中需要大量工程工作来实现，现在已经成为默认能力。

**4. 评估与优化的闭环。**早期的 Agent 项目很难量化「到底变好还是变坏了」。如今，DSPy 等框架支持自动优化 Prompt，LangSmith 等平台提供完整的调试追踪，Agent 的迭代速度大幅提升。

未来展望

站在 2026 年年中回看，AI Agent 的演进还远未到终点。以下几个方向值得关注：

**多模态 Agent：**不仅能读文字，还能看屏幕截图、听音频、操作 GUI 界面------Agent 的感知和行动边界将进一步扩展
**长时间运行的 Agent：**从几分钟的任务到数小时甚至数天的持续工作，Agent 需要更好的进度管理、断点续传和异常恢复机制
**Agent 间的互联互通：**多个 Agent 跨组织、跨系统协作------一个 Agent 完成数据分析，另一个 Agent 根据结果触发业务流程
**安全与治理：**Agent 权限隔离、操作审计、风险控制------随着 Agent 能力的增强，这些保障措施将变得不可或缺

结语

从 AutoGPT 那个略显粗糙的 proof-of-concept，到如今 Manus、Claude Code 等产品级的 Agent 工具，这段演进路径清晰地展示了 AI Agent 从实验到落地的全过程。每一次迭代都在解决上一代的痛点：AutoGPT 缺稳定性，Function Calling 给了结构；单 Agent 缺效率，多 Agent 给了协作；框架缺标准，MCP 给了协议；推理缺执行，沙箱给了行动空间。

对于开发者来说，现在正是进入 Agent 开发的最佳时机。工具链已经成熟，标准已经确立，生态正在形成------剩下的就是动手尝试了。