Cursor：长执行模式，验证大模型“7*24h自动编程”的可能性

原文：cursor.com/cn/blog/sca...

通译：github.com/TUARAN

2026 年 1 月，Cursor 团队公布了一项颇具野心的实验：

让编码 Agent 连续运行数周，自主推进复杂项目。

目标很直接------验证一个问题：如果向同一个代码库持续投入更多 Agent，自主编码能力是否会随着规模增长而显著提升？

上百个并发 Agent、数万亿 token、超过一百万行新增代码。

一、单个 Agent 的天花板

单 Agent 在局部任务上已经相当成熟：修 bug、写模块、补测试、做重构，都能稳定输出。

问题出在复杂工程。当任务跨度扩大到：

数千文件
数月级目标
多阶段规划
跨模块重构

单个 Agent 会开始退化：它变慢、分心、频繁回溯上下文，逐渐演变为"谨慎的修补者"。

上下文窗口可以扩展，检索可以增强，但一个 Agent 同时承担"长期战略 + 局部执行"的双重职责，本身就带来认知负载的极限。

于是一个直觉出现：既然一个不够，那就并行运行多个。

二、第一次失败：平权式协作的崩溃

最初采用了一种"无层级结构"设计：

所有 Agent 地位平等
通过共享文件协调任务
使用锁机制避免冲突

听起来合理，却很快失控：锁被长时间持有，未及时释放，写入冲突频繁出现。

系统吞吐量急剧下降。

二十个 Agent 的效率接近两三个。

改用乐观并发控制后，锁问题缓解，但更深层的结构性问题浮现：Agent 变得极度保守。它们倾向选择安全的小改动，避免承担复杂任务，没有角色对"端到端完成"负责。

系统看起来在运转，提交不断出现，却没有实质性推进。这揭示了一个关键认知：

扁平协作结构会放大模型的风险规避倾向。

当没有角色分工时，所有 Agent 都在局部最优里循环。

三、结构重建：规划者与执行者

第二代架构引入了明确分工。

规划者（Planner）

扫描代码库
创建任务图
派生子规划者
递归拆分目标

执行者（Worker）

领取任务
专注完成
提交修改
不承担全局规划

每一轮周期结束后，由评审 Agent 判断是否继续。然后系统回到干净状态，重新进入下一轮。

这一结构带来了根本变化：

Worker 不再纠结方向
Planner 专注长期路线
协同变为流水线
系统可横向扩展到数百 Agent

结构一旦清晰，多 Agent 系统从"群聊混战"转变为"工业生产线"。规模化第一次变得可控。

四、运行数周之久

为了真正验证这套系统，给它设定了一个极具挑战性的目标：从零开始构建一个浏览器。

浏览器意味着：

HTML 解析
CSS 渲染
JS 执行
网络栈
渲染引擎
多进程模型

Agent 持续运行了将近一周。

最终结果：

1000+ 文件
超过 100 万行代码
数百并发 Worker
推送到同一个分支
几乎没有冲突

即便代码库已经庞大，新启动的 Agent 依然可以理解整体结构并继续推进。

能够从零开始完成这样的系统工程，本身就说明协同机制已经具备稳定扩展能力。

五、框架迁移：Solid → React

他们还在 Cursor 自身代码库中做了一个更贴近真实生产环境的实验：

将 SolidJS 迁移到 React。

迁移持续了三周多时间。代码增删量达到：+266K / -193K，涉及：

生命周期模型变化
状态管理方式不同
渲染机制差异
组件生态替换

整个迁移过程通过了 CI 与早期检查。虽然它仍然需要人工审查，但系统已经完成了绝大部分结构重写工作。

六、性能重写：Rust 实现 25 倍加速

另一个实验聚焦于性能优化。一个长时间运行的 Agent：

用 Rust 重写关键模块
将视频渲染速度提升 25 倍
新增平滑缩放和平移能力
引入自然弹簧过渡
添加运动模糊
支持光标跟随

这部分代码已经合并，即将上线。

他们还展示了一些仍在持续推进的项目：

Java LSP：7.4K 次提交，55 万行代码
Windows 7 模拟器：14.6K 次提交，120 万行代码
Excel：12K 次提交，160 万行代码

七、我们学到了什么

在这些实验中，他们运行了数万亿个 token。一个关键发现是：模型选择至关重要。

他们发现：

GPT-5.2 系列在长时间自主任务上表现更稳定
指令遵循能力更强
更少偏离目标
实现更完整

相比之下，Opus 4.5 更倾向于在方便时结束任务，更早将控制权交还给用户。

不同模型在不同角色上各有优势。

即便 GPT-5.1-codex 是为编码训练的，GPT-5.2 依然更适合作为规划者。

现在他们会为不同角色选择不同模型，而不是依赖单一模型。

另一个重要经验是：很多优化来自"减法"。

最初他们设计了一个"集成者"角色，用于冲突解决与质量控制。

后来发现，它制造的瓶颈多于解决的问题。

Worker 本身已经具备处理冲突的能力。系统被简化后反而更加稳定。

一个有趣的结论浮现：最优结构往往比想象中更简单。

结构太少会混乱，结构太多会僵化，合适的复杂度存在于两者之间。

还有一个被反复强调的因素：提示词设计。Agent 的协同效果，很大程度上取决于 prompt 的精细程度。

如何避免异常行为
如何保持长期专注
如何在长周期中维持目标一致

框架与模型重要，提示词设计同样关键。在这种系统里，提示工程几乎等同于组织设计。

八、接下来会怎样

多智能体协同仍然是开放问题。

Planner 应当在任务完成时自动"醒来"。Agent 有时运行时间过长。系统仍需要周期性重启来对抗漂移与视野收缩。

不过，对于最初那个核心问题：

能否通过向同一个问题投入更多 Agent 来扩展自主编码能力？

答案已经变得清晰。

上百个 Agent 可以在同一个代码库上协同工作数周，并推动复杂项目取得实质进展。