2026 年 1 月,Cursor 团队公布了一项颇具野心的实验:
让编码 Agent 连续运行数周,自主推进复杂项目。
目标很直接------验证一个问题: 如果向同一个代码库持续投入更多 Agent,自主编码能力是否会随着规模增长而显著提升?
上百个并发 Agent、数万亿 token、超过一百万行新增代码。

一、单个 Agent 的天花板
单 Agent 在局部任务上已经相当成熟:修 bug、写模块、补测试、做重构,都能稳定输出。
问题出在复杂工程。当任务跨度扩大到:
- 数千文件
- 数月级目标
- 多阶段规划
- 跨模块重构
单个 Agent 会开始退化: 它变慢、分心、频繁回溯上下文,逐渐演变为"谨慎的修补者"。
上下文窗口可以扩展,检索可以增强,但一个 Agent 同时承担"长期战略 + 局部执行"的双重职责,本身就带来认知负载的极限。
于是一个直觉出现:既然一个不够,那就并行运行多个。
二、第一次失败:平权式协作的崩溃
最初采用了一种"无层级结构"设计:
- 所有 Agent 地位平等
- 通过共享文件协调任务
- 使用锁机制避免冲突
听起来合理,却很快失控:锁被长时间持有,未及时释放,写入冲突频繁出现。
系统吞吐量急剧下降。
二十个 Agent 的效率接近两三个。
改用乐观并发控制后,锁问题缓解,但更深层的结构性问题浮现:Agent 变得极度保守。它们倾向选择安全的小改动,避免承担复杂任务,没有角色对"端到端完成"负责。
系统看起来在运转,提交不断出现,却没有实质性推进。这揭示了一个关键认知:
扁平协作结构会放大模型的风险规避倾向。
当没有角色分工时,所有 Agent 都在局部最优里循环。
三、结构重建:规划者与执行者
第二代架构引入了明确分工。
规划者(Planner)
- 扫描代码库
- 创建任务图
- 派生子规划者
- 递归拆分目标
执行者(Worker)
- 领取任务
- 专注完成
- 提交修改
- 不承担全局规划
每一轮周期结束后,由评审 Agent 判断是否继续。 然后系统回到干净状态,重新进入下一轮。
这一结构带来了根本变化:
- Worker 不再纠结方向
- Planner 专注长期路线
- 协同变为流水线
- 系统可横向扩展到数百 Agent
结构一旦清晰,多 Agent 系统从"群聊混战"转变为"工业生产线"。规模化第一次变得可控。
四、运行数周之久
为了真正验证这套系统,给它设定了一个极具挑战性的目标:从零开始构建一个浏览器。

浏览器意味着:
- HTML 解析
- CSS 渲染
- JS 执行
- 网络栈
- 渲染引擎
- 多进程模型
Agent 持续运行了将近一周。
最终结果:
- 1000+ 文件
- 超过 100 万行代码
- 数百并发 Worker
- 推送到同一个分支
- 几乎没有冲突
即便代码库已经庞大,新启动的 Agent 依然可以理解整体结构并继续推进。
能够从零开始完成这样的系统工程,本身就说明协同机制已经具备稳定扩展能力。
五、框架迁移:Solid → React
他们还在 Cursor 自身代码库中做了一个更贴近真实生产环境的实验:
将 SolidJS 迁移到 React。
迁移持续了三周多时间。代码增删量达到:+266K / -193K,涉及:
- 生命周期模型变化
- 状态管理方式不同
- 渲染机制差异
- 组件生态替换
整个迁移过程通过了 CI 与早期检查。虽然它仍然需要人工审查,但系统已经完成了绝大部分结构重写工作。
六、性能重写:Rust 实现 25 倍加速
另一个实验聚焦于性能优化。一个长时间运行的 Agent:
- 用 Rust 重写关键模块
- 将视频渲染速度提升 25 倍
- 新增平滑缩放和平移能力
- 引入自然弹簧过渡
- 添加运动模糊
- 支持光标跟随
这部分代码已经合并,即将上线。
他们还展示了一些仍在持续推进的项目:
- Java LSP:7.4K 次提交,55 万行代码
- Windows 7 模拟器:14.6K 次提交,120 万行代码
- Excel:12K 次提交,160 万行代码
七、我们学到了什么
在这些实验中,他们运行了数万亿个 token。一个关键发现是:模型选择至关重要。
他们发现:
- GPT-5.2 系列在长时间自主任务上表现更稳定
- 指令遵循能力更强
- 更少偏离目标
- 实现更完整
相比之下,Opus 4.5 更倾向于在方便时结束任务,更早将控制权交还给用户。
不同模型在不同角色上各有优势。
即便 GPT-5.1-codex 是为编码训练的,GPT-5.2 依然更适合作为规划者。
现在他们会为不同角色选择不同模型,而不是依赖单一模型。
另一个重要经验是:很多优化来自"减法"。
最初他们设计了一个"集成者"角色,用于冲突解决与质量控制。
后来发现,它制造的瓶颈多于解决的问题。
Worker 本身已经具备处理冲突的能力。系统被简化后反而更加稳定。
一个有趣的结论浮现:最优结构往往比想象中更简单。
结构太少会混乱,结构太多会僵化,合适的复杂度存在于两者之间。
还有一个被反复强调的因素:提示词设计。Agent 的协同效果,很大程度上取决于 prompt 的精细程度。
- 如何避免异常行为
- 如何保持长期专注
- 如何在长周期中维持目标一致
框架与模型重要,提示词设计同样关键。在这种系统里,提示工程几乎等同于组织设计。
八、接下来会怎样
多智能体协同仍然是开放问题。
Planner 应当在任务完成时自动"醒来"。Agent 有时运行时间过长。系统仍需要周期性重启来对抗漂移与视野收缩。
不过,对于最初那个核心问题:
能否通过向同一个问题投入更多 Agent 来扩展自主编码能力?

答案已经变得清晰。
上百个 Agent 可以在同一个代码库上协同工作数周,并推动复杂项目取得实质进展。