VibeBuilder：从 Claude Code 到 Agent 编排器的进化

TLDR

2026 年还在用 IDE 写代码，你就是个糟糕的工程师 ------ Steve Yegge。

Claude Code、Cursor 这些工具确实好用，但它们只是过渡品。下一步是 Agent 编排器------你不再写代码，而是管理一支 AI Agent 车队。

VibeBuilder（原 swe-agent.ai）就是这个思路的实践：让 Agent 自己跑完整个开发流程，人只需要定义目标、做关键决策。

维度	Claude Code/Cursor	编排器
定位	单 Agent 助手	多 Agent 编排
交互	人盯着跑	后台自动跑
输出	代码改动	完整开发流程

Steve Yegge 的预言：IDE 时代结束了

Steve Yegge 是 Sourcegraph 的工程主管，在亚马逊干了 7 年，谷歌干了 13 年。

核心观点 1：2000 小时法则

你至少要和 AI 共事一年，大约 2000 小时，才能真正信任它。这里的"信任"不是说模型有多强，而是你能预测它下一步会做什么。如果它是不可预测的，你当然会愤怒。

核心观点 2：IDE 不是终局

"如果到 2026 年 1 月 1 日你还在用 IDE 来开发代码，那你已经是个糟糕的工程师了。"

原因不在于 IDE 本身，而在于抽象层已经发生迁移------从"模型 + 编辑器"，上移到了全栈 Agent 系统。未来工程师的工作，不是操作工具，而是设计、调度和约束 Agent 的行为。

核心观点 3：编排器时代来临

Claude Code 证明了 Agent 编程是可行的，但太难了。你要读大量文本、diff、代码。下一代工具不会是 IDE，而是 Agent 编排控制台：你早上打开，看一眼------这个 Agent 在跑，这个卡住了，这个需要我决策。

核心观点 4：代码工厂化生产

软件开发正在进入"代码的工厂化生产"时代。编排器将运行 Claude Code，清洗输出，循环执行"计划--实现--评审--测试"，并在大规模上把编程能力释放给非程序员。

核心观点 5：Agent 之间的通讯

Steve 提到了 Jeffrey Emanuel 做的 Agent Mail 概念------让 Agent 之间可以互相发消息、自己协作。他只需要说一句："你们自己协调，把我刚定义的这个 epic 并行完成。"然后 Agents 就真的开始自己分工了。这正是编排器要走向的方向：核心不是控制单个 Agent，而是让一群 Agent 在轨道上协作、通信。

编排器的核心思路

编排器要解决的问题很简单：怎么让 Agent 自己跑起来，而不是人盯着它跑？

现在用 Claude Code / Codex，你得一直盯着。它问你问题，你回答；它改完代码，你 review；它跑测试，你看结果。这个过程人是"在线"的。

编排器的思路是：把人从"在线"变成"离线"。

你定义好目标和约束，Agent 自己去跑。跑完了通知你，或者遇到问题了再叫你。就像你给团队布置任务，不用每分钟都盯着他们干活。

这里面有几个关键转变：

从"单次任务"到"流程"

Claude Code 是单次任务思维：你说一句，它做一件事。编排器是流程思维：你定义一个目标，它自己拆解成多个阶段，一个接一个跑。

从"人驱动"到"事件驱动"

现在是你发命令，Agent 才动。编排器是事件驱动：Task 创建了，自动开始；Commit 提交了，自动 Review；Review 通过了，自动合并。人不需要一直在那儿推。

从"无状态"到"有状态"

Claude Code 跑完就完了，没有"记忆"。编排器需要知道：当前在哪个阶段？上一步做了什么？下一步该干什么？出问题了怎么恢复？

两种模式：单次任务 vs 全流程编排

编排器不是要取代 Claude Code，而是在它上面加一层。所以设计了两种模式：

单次任务模式：就是现在 Claude Code 的用法。你发个命令，Agent 去改代码，改完了告诉你。人盯着跑，适合小改动、快速迭代。

全流程编排模式：你创建一个任务，然后就可以去睡觉了。Agent 会自动跑完整个流程。

最妙的是两种模式可以互通。全流程跑到一半，你觉得 Agent 搞错了，可以直接手动干预。系统会暂停自动流程，执行你的手动任务，然后恢复。

核心挑战与解决思路

做编排器没有想象中那么简单。

挑战 1：合并（Merging）

Steve Yegge 说这是"所有人都在撞的那堵墙"。当多名工程师（及 AI）同时产生大量代码时，代码合并变得极其复杂。你我同时工作两三个小时，各自生成 3 万行改动。你的先合进主干，而我这边改了日志系统、架构、API------那已经不是"修冲突"了，而是重新在你的改动之上再发明一次我的改动。

解决思路：任务隔离，每个任务独立工作空间。但这只是缓解，不是根治。真正的解法可能需要 Agent 之间的通信协调------在动手之前先"打招呼"。

挑战 2：安全

全流程编排是全自动的，安全问题更严重：

• 谁有权限触发全自动流程？不能随便一个人就能让 AI 改代码
• 自动创建子任务会不会死循环？A 创建 B，B 又触发 A
• 多个流程同时跑会不会打架？
• 服务挂了重启，进度丢不丢？

挑战 3：状态管理

编排器需要"记忆"：当前在哪个阶段？上一步做了什么？下一步该干什么？出问题了怎么恢复？服务重启了能不能接着跑？

这些问题没有银弹，但方向是清晰的：把状态持久化，把流程原子化，把权限收紧。

工具权限收敛：不同阶段不同能力

这是个容易被忽略但很重要的思路。

你让 Agent 写 PRD，它可能顺手就把代码改了。你让它做 Review，它可能直接帮你 merge 了。LLM 会"越权"，这是它的特性。

解决思路：不同阶段给不同的工具。

• 写 PRD 的时候，只能读文件、搜索、分析，不能写代码
• 拆任务的时候，只能创建Task，不能动代码
• 写代码的时候，不能自己 merge
• 做 Review 的时候，只能评论，不能改代码

核心原则：禁止靠提示，要靠权限。

Prompt 里说"不要做 X"是软约束，工具层面不给它 X 的能力才是硬约束。就像你不会给实习生 root 权限然后告诉他"别乱删东西"。

2026 年的 Vibe Coding 趋势

Steve Yegge 对 2026 年的预测：

1. 开源模型之年：开源模型目前落后前沿模型约七个月，差距在缩小。到明年夏天，开源模型可能达到当前顶尖闭源模型的水平。
1. 模型不再是瓶颈：真正的挑战变成工具必须更聪明地拆解任务，把子任务分配给"合适规模、合适成本"的模型。
1. 重写比修补更快：Joel Spolsky 的"永远不要重写代码"开始失效。对于越来越多的代码库，从零重写比修修补补更快、更好。
1. 工程师角色转变：未来的工程师更像是一个拥有深厚工程背景的产品经理，站在更高的抽象层级上工作。你不再关心"怎么写"，而是关心"它是怎么工作的"。

我的思考：人类参与会降到多少？

回顾一下 AI 编程的进化路径：

阶段	模型	交互方式	人类参与度
Tab 补全	GPT-3.5 / Sonnet 3.5	手写 + Tab 补全	90%+
Copilot 时代	GPT-4 / Sonnet 3.5	写注释 → 生成代码	70%
Vibe Coding	Sonnet 4 / Opus 4.5	描述需求 → Agent 实现	10-30%
编排器时代	?	定义目标 → 全自动流水线	1-5%?

从 Sonnet 3.5 到 Sonnet 4.5，模型能力跃升了一个量级。AI 编程也从"Tab 补全"进化到了"Vibe Coding"------从最初的手写代码 + Tab 补全，到现在完全交给 Claude Code / Codex。

人工参与会慢慢降到 5%，甚至 1%。

这不是危言耸听。想想看：

• Tab 时代：手工 > AI，你写代码，AI 补全
• Vibe Coding 时代：Review > Coding，AI 写代码，你审查
• 编排器时代：连 Review 都交给 AI？

AI 越来越快，效率越来越高，人还有必要参与 Coding 工作吗？

怎么说呢，LLM 虽然是按 Token 操作的，但它仍然比人类快太多了。一个 Agent 跑 10 分钟能产出的代码量，人类可能要写一天。而且 Agent 不会累、不会分心、不会忘记上下文（好吧，会忘记，但可以通过工程手段解决）。

测试怎么办？视觉模型来了

开发完成了，测试怎么办？这是很多人的疑问。

答案是：视觉模型 + 浏览器自动化。

随着视觉模型的迭代，特别是 Google Gemini 的多模态能力，给 AI 接入浏览器 MCP 让它自动测试变成了可运行的方案。AutoGLM 和豆包手机已经给出了答案------AI 可以像人一样操作界面、点击按钮、填写表单、验证结果。

想象一下这个流程：

1. Agent 写完代码，自动部署到测试环境
1. 视觉 Agent 打开浏览器，按照测试用例操作
1. 截图、对比、验证，发现问题自动提 Bug
1. 开发 Agent 接收 Bug，修复，再测试
1. 循环直到通过

这不是科幻，这是正在发生的事情。

把 AI 能做的发挥到极致

我的核心观点：把 AI 能做的，尽可能发挥到极致。

人类在 AI 面前还是太慢了。不是说人类不重要，而是说人类应该做人类擅长的事情：

• 定义目标和约束
• 做关键决策
• 处理模糊和创造性的问题
• 承担责任

而不是：

• 手写 for 循环
• 调试 CSS 对齐问题
• 写单元测试
• 做重复性的 Code Review

那么，还有什么是 AI 不能做的？

AI 能做的	AI 还差点意思的
写代码	定义"什么是好的产品"
测试	理解用户真正想要什么
Code Review	做商业决策
修 Bug	承担法律和道德责任
重构	处理完全未知的问题
写文档	跨领域的创造性整合

编排器的意义就在于：把 AI 能做的事情串起来，让它自己跑。人类只需要在关键节点介入------定义目标、做决策、处理异常。

这不是"AI 取代人类"，而是"人类站在更高的抽象层"。就像 Steve Yegge 说的：未来的工程师更像是一个拥有深厚工程背景的产品经理。

总结

Steve Yegge 说的编排器时代确实在来。Claude Code、Cursor 这些工具是过渡品，它们证明了 Agent 编程可行，但交互方式还是"人盯着 Agent 跑"。下一步是"Agent 自己跑，人只管决策"。

编排器的核心思路就三句话：

• 让 Agent 自己跑：从人驱动变成事件驱动
• 让 Agent 有记忆：知道在哪、该干什么、出问题能恢复
• 让 Agent 有边界：不同阶段不同能力，硬约束比软提示靠谱

2026 年还用 IDE？不至于那么夸张。但如果你还没开始思考"怎么让 Agent 自己跑起来"，确实该抓紧了。

参考资料：

• Steve Yegge AI Engineer Summit 访谈 https://www.youtube.com/watch?v=zuJyJP517Uw
• VibeBuilder https://vibebuilder.cc