Cursor:长执行模式,验证大模型“7*24h自动编程”的可能性

原文:cursor.com/cn/blog/sca...

通译:github.com/TUARAN

2026 年 1 月,Cursor 团队公布了一项颇具野心的实验:

让编码 Agent 连续运行数周,自主推进复杂项目。

目标很直接------验证一个问题: 如果向同一个代码库持续投入更多 Agent,自主编码能力是否会随着规模增长而显著提升?

上百个并发 Agent、数万亿 token、超过一百万行新增代码。

一、单个 Agent 的天花板

单 Agent 在局部任务上已经相当成熟:修 bug、写模块、补测试、做重构,都能稳定输出。

问题出在复杂工程。当任务跨度扩大到:

  • 数千文件
  • 数月级目标
  • 多阶段规划
  • 跨模块重构

单个 Agent 会开始退化: 它变慢、分心、频繁回溯上下文,逐渐演变为"谨慎的修补者"。

上下文窗口可以扩展,检索可以增强,但一个 Agent 同时承担"长期战略 + 局部执行"的双重职责,本身就带来认知负载的极限。

于是一个直觉出现:既然一个不够,那就并行运行多个。

二、第一次失败:平权式协作的崩溃

最初采用了一种"无层级结构"设计:

  • 所有 Agent 地位平等
  • 通过共享文件协调任务
  • 使用锁机制避免冲突

听起来合理,却很快失控:锁被长时间持有,未及时释放,写入冲突频繁出现。

系统吞吐量急剧下降。

二十个 Agent 的效率接近两三个。

改用乐观并发控制后,锁问题缓解,但更深层的结构性问题浮现:Agent 变得极度保守。它们倾向选择安全的小改动,避免承担复杂任务,没有角色对"端到端完成"负责。

系统看起来在运转,提交不断出现,却没有实质性推进。这揭示了一个关键认知:

扁平协作结构会放大模型的风险规避倾向。

当没有角色分工时,所有 Agent 都在局部最优里循环。

三、结构重建:规划者与执行者

第二代架构引入了明确分工。

规划者(Planner)

  • 扫描代码库
  • 创建任务图
  • 派生子规划者
  • 递归拆分目标

执行者(Worker)

  • 领取任务
  • 专注完成
  • 提交修改
  • 不承担全局规划

每一轮周期结束后,由评审 Agent 判断是否继续。 然后系统回到干净状态,重新进入下一轮。

这一结构带来了根本变化:

  • Worker 不再纠结方向
  • Planner 专注长期路线
  • 协同变为流水线
  • 系统可横向扩展到数百 Agent

结构一旦清晰,多 Agent 系统从"群聊混战"转变为"工业生产线"。规模化第一次变得可控。

四、运行数周之久

为了真正验证这套系统,给它设定了一个极具挑战性的目标:从零开始构建一个浏览器。

浏览器意味着:

  • HTML 解析
  • CSS 渲染
  • JS 执行
  • 网络栈
  • 渲染引擎
  • 多进程模型

Agent 持续运行了将近一周。

最终结果:

  • 1000+ 文件
  • 超过 100 万行代码
  • 数百并发 Worker
  • 推送到同一个分支
  • 几乎没有冲突

即便代码库已经庞大,新启动的 Agent 依然可以理解整体结构并继续推进。

能够从零开始完成这样的系统工程,本身就说明协同机制已经具备稳定扩展能力。

五、框架迁移:Solid → React

他们还在 Cursor 自身代码库中做了一个更贴近真实生产环境的实验:

将 SolidJS 迁移到 React。

迁移持续了三周多时间。代码增删量达到:+266K / -193K,涉及:

  • 生命周期模型变化
  • 状态管理方式不同
  • 渲染机制差异
  • 组件生态替换

整个迁移过程通过了 CI 与早期检查。虽然它仍然需要人工审查,但系统已经完成了绝大部分结构重写工作。

六、性能重写:Rust 实现 25 倍加速

另一个实验聚焦于性能优化。一个长时间运行的 Agent:

  • 用 Rust 重写关键模块
  • 将视频渲染速度提升 25 倍
  • 新增平滑缩放和平移能力
  • 引入自然弹簧过渡
  • 添加运动模糊
  • 支持光标跟随

这部分代码已经合并,即将上线。

他们还展示了一些仍在持续推进的项目:

  • Java LSP:7.4K 次提交,55 万行代码
  • Windows 7 模拟器:14.6K 次提交,120 万行代码
  • Excel:12K 次提交,160 万行代码

七、我们学到了什么

在这些实验中,他们运行了数万亿个 token。一个关键发现是:模型选择至关重要。

他们发现:

  • GPT-5.2 系列在长时间自主任务上表现更稳定
  • 指令遵循能力更强
  • 更少偏离目标
  • 实现更完整

相比之下,Opus 4.5 更倾向于在方便时结束任务,更早将控制权交还给用户。

不同模型在不同角色上各有优势。

即便 GPT-5.1-codex 是为编码训练的,GPT-5.2 依然更适合作为规划者。

现在他们会为不同角色选择不同模型,而不是依赖单一模型。


另一个重要经验是:很多优化来自"减法"。

最初他们设计了一个"集成者"角色,用于冲突解决与质量控制。

后来发现,它制造的瓶颈多于解决的问题。

Worker 本身已经具备处理冲突的能力。系统被简化后反而更加稳定。

一个有趣的结论浮现:最优结构往往比想象中更简单。

结构太少会混乱,结构太多会僵化,合适的复杂度存在于两者之间。


还有一个被反复强调的因素:提示词设计。Agent 的协同效果,很大程度上取决于 prompt 的精细程度。

  • 如何避免异常行为
  • 如何保持长期专注
  • 如何在长周期中维持目标一致

框架与模型重要,提示词设计同样关键。在这种系统里,提示工程几乎等同于组织设计。

八、接下来会怎样

多智能体协同仍然是开放问题。

Planner 应当在任务完成时自动"醒来"。Agent 有时运行时间过长。系统仍需要周期性重启来对抗漂移与视野收缩。

不过,对于最初那个核心问题:

能否通过向同一个问题投入更多 Agent 来扩展自主编码能力?

答案已经变得清晰。

上百个 Agent 可以在同一个代码库上协同工作数周,并推动复杂项目取得实质进展。

相关推荐
_Li.1 小时前
Simulink-螺旋桨动力模块
人工智能·算法·机器学习
GAOJ_K1 小时前
同步带模组稳定运行的关键
人工智能·科技·自动化·制造
够快云库1 小时前
制造业非结构化数据治理:架构解析与实战复盘
大数据·人工智能·架构·企业文件安全
AI周红伟1 小时前
周红伟:OpenAI 首席运营官,尚未真正看到人工智能渗透到企业业务流程中
人工智能·算法·性能优化
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-02-25
数据库·人工智能·经验分享·神经网络·chatgpt
Cherry的跨界思维1 小时前
【AI测试全栈:质量】47、Vue+Prometheus+Grafana实战:打造全方位AI监控面板开发指南
vue.js·人工智能·ci/cd·grafana·prometheus·ai测试·ai全栈
咚咚王者1 小时前
人工智能之视觉领域 计算机视觉 第十六章 图像拼接
人工智能·计算机视觉
雨大王5121 小时前
整车制造计划排程排产系统的创新与实践
人工智能·汽车·制造
是烨笙啊2 小时前
AI 编程:核心概念与术语解析
人工智能·学习·ai编程