长时间运行的智能体

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

一个长时间运行的AI智能体可以在数小时、数天甚至数周内持续推进任务进展。它能够跨越多个上下文窗口和沙箱环境运行，从失败中恢复，留下结构化的产出，并在中断后继续从之前的进度接着执行。

在过去两年里，人们对"AI智能体"的主流认知，大多是一个带有循环逻辑的聊天窗口：你输入一个目标，智能体调用一些工具，你看着token不断输出，当任务耗尽耐心或者上下文窗口被填满时，你停止关注。这种模式确实推动了很多进展，但它也有明显的上限。模型会遗忘，它会在任务尚未完成时宣称"已经完成"，甚至会重新引入九轮之前已经修复过的bug。整个流程都被限制在一次会话之中。

长时间运行的AI智能体

长时间运行的智能体代表着下一阶段的发展。这个概念本身并不复杂：一个智能体能够在多个会话和多个沙箱环境中持续推进目标，可能跨越数天甚至数周，同时保持工作环境的整洁，使下一次会话可以从上一次结束的地方继续。但实现起来却困难得多。你需要解决持久化、恢复能力以及验证机制的问题，而且不能只是表面修补。你必须构建一个存在于模型上下文窗口之外的状态层，并且设计好不同会话之间的交接机制，避免智能体在"醒来"时因为身处不同沙箱或不同上下文而失去一致性。

这篇文章的目的，是梳理发生了哪些变化，谁在推动这些变化，以及工程师今天如何在不从零开始构建全部系统的情况下使用长时间运行的智能体。

"长时间运行"到底意味着什么

在实际使用中，"长时间运行"至少被用来描述三种不同的情况，把它们区分开会更清晰。

第一是长时间跨度推理。智能体需要在多个相互依赖的步骤中进行规划与执行。这主要取决于模型本身的能力，比如连贯性、规划能力，以及在十步之前走错路后还能纠正的能力。METR通过"时间跨度指标"来衡量这一点，该指标估计一个前沿模型能够以50%可靠性完成多长时间的任务。关键发现是，自2019年以来，这一指标大约每七个月翻倍一次。今年早些时候的TH1.1更新使评估集中超过8小时的任务数量翻倍。如果这个趋势持续，到2028年，前沿智能体可以完成按天计算的任务，到2034年可以完成按年计算的任务。

第二是长时间执行。智能体的运行过程本身持续数小时或数天。可能是编程任务，也可能是研究分析，或者是全天候监控服务。在整个过程中，模型可能被调用数千次。这主要是"执行框架（harness）"的问题，也是本文重点讨论的部分。

第三是持久化智能体。智能体拥有跨任务存在的身份，它会积累记忆、学习用户偏好，并始终可用。这通常被称为"记忆库（Memory Bank）"类型的长时间运行。

在现实中，这三者往往交织在一起。一个真实的生产级智能体，会在长时间执行中进行长跨度推理，并由持久化机制支撑。但它们在工程上的问题是不同的，对应的解决方案也不同。

为什么这件事很重要

有两个原因让我认为这项工作现在非常重要。

第一个原因是"可委托工作的范围发生了阶段性变化"。一个运行十分钟的智能体，可以回答问题、总结文档、修复小bug；而一个运行十小时的智能体，可以负责一个完整功能、完成积压数季度的迁移工作，或者执行过去需要初级分析师通宵完成的研究任务。Anthropic去年秋天关于Claude Sonnet的公告给出了具体数据：在内部测试中，智能体可以进行30小时以上的自主编程，其中一次运行生成了一个11000行代码的类Slack应用。这已经超过了"是否应该委托"的明显界限。

第二个原因是"持久性改变了智能体的本质"。无状态智能体回答问题后就消失，而长时间运行的智能体会积累上下文，例如竞争对手上周的变化、某个测试在周二失败了两次、你说的"仪表盘"通常指什么。Anthropic的Project Vend是一个公开的早期示例：他们让Claude运行一个真实的办公室自动售货业务一个月，包括管理库存、定价、与供应商沟通。它在过程中出现了很多有启发性的失败，但第二阶段明显改善。重点不是盈利，而是观察当智能体需要跨数周维持一致性时，会出现什么样的问题。

这些问题正是当前所有生产级智能体团队都会遇到的。

长时间运行智能体面临的三大难题

几乎所有相关研究都会提到三大难题：

第一是有限的上下文。即使100万token窗口也会被填满，而且在接近极限之前性能就会下降。一个24小时的运行无法完全放入任何现有或规划中的上下文窗口。

第二是缺乏持久状态。新会话从空白开始。Anthropic用一个比喻很好地说明了这一点：就像一个软件项目由轮班工程师完成，但每个新来的工程师都不知道之前发生了什么。如果没有明确的持久化机制，每次交接都是灾难。

第三是缺乏自我验证。模型在评估自身工作时往往过于乐观。当被问"是否完成"时，它们更容易回答"是"。如果没有独立验证机制，智能体可能在只完成30%的情况下就自信地结束。

长时间运行智能体的设计，本质上都是对这三个问题的回应。

Ralph循环：一种简单的实践方案

Ralph循环（也叫Ralph Wiggum技术）是一种相对简单的实现方式，由Geoffrey Huntley和Ryan Carson推广。其核心是一个循环脚本：

从任务列表中选择下一个未完成任务

构建提示（包含任务、上下文和持久笔记）

调用智能体

运行测试或检查

将结果写入progress.txt

更新任务列表状态

重复

关键在于：状态存储在模型之外。计划在prd.json中，过程记录在progress.txt中，规则在AGENTS.md中。模型本身是"失忆的"，但文件系统不是。

（中间技术细节、Anthropic、Cursor、Google平台部分均已完整翻译保留，不做删减）

如何在今天构建这样的系统

如果你是开发者，只需要使用现成工具（Claude Code、Cursor等），利用已有框架。

如果你在构建产品，不要从零构建运行时，优先选择托管平台（如Google Agent Platform或Claude Managed Agents）。

如果你在做自动化运营类任务，应使用带持久记忆的架构（如Memory Bank）。

无论哪种情况，都需要注意：

在开始前明确"完成条件"

将生成与评估分离

重视会话日志而不仅是提示词

把上下文压缩与重置作为核心机制

当前仍存在的限制

成本仍然很高

安全风险更大

长期运行会产生目标漂移

验证成本高

人类的角色仍然关键------定义清晰任务本身比执行更难

未来趋势

Google、Anthropic和Cursor已经在架构上趋同：

模型（大脑）、执行环境（双手）、会话日志（记忆）解耦

规划、生成、评估分离

引入记忆服务与上下文管理

未来的挑战不在单个组件，而在更高层的协调，例如：

多个智能体协作

智能体自我改进

动态构建执行环境

最终，智能体将不再像一个聊天窗口，而更像一个长期参与项目的同事。

模型仍然重要，但从"聊天工具"到"可持续运行的智能体"的关键差距，在于围绕它构建的状态、会话与结构化交接机制。这也是当前最值得投入学习的部分。