AI 让一个人干一家公司？现实卡在 Vibe Coding 这一关

Karpathy 已经走到 Agentic Engineering，大部分人还停在 Vibe Coding。

4 月底，Karpathy 站在红杉资本 AI Ascent 的舞台上，演讲题目印着 From Vibe Coding to Agentic Engineering------按字面翻，是「从凭感觉写代码，到工程化地编排 Agent」。

图片来源：YouTube / Sequoia Capital AI Ascent 2026

同一周，朋友圈在刷的是另一句话------「AI 让一个人就能干一家公司的活」。

同一个 AI，跑得最快的人在喊「质量底线」，跑得最慢的旁观者在喊「颠覆生产力」。这场温差，比任何评测都更说明问题。

我自己的体感是------大部分人对 AI 工具的使用，其实还停留在 Vibe Coding 阶段。所谓「一个人 = 一家公司」，多半是自欺欺人。

你以为的「AI 编程」，可能只是 Vibe Coding

「Vibe Coding」这个词，是 Karpathy 自己 2025 年 2 月在 X 上随手发的一条推文里造出来的。原话是这样的------

「There is a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.」

翻成中文是：「有种新的编程方式我叫它'凭感觉写代码'------你完全交给感觉、拥抱指数曲线、忘记代码的存在。」

这条推文当时有 4500 万浏览，「Vibe Coding」后来还被 Collins 字典选为 2025 年度词汇。说白了：把目标抛给 AI，让它边跑边写、自己决定下一步------你只看结果。

Vibe Coding 当然有它真实的进步。Karpathy 在 AI Ascent 上自己说------「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」从去年 12 月起，他不再亲自写大段代码了，因为 AI 给出来的东西「就是能跑」。

普通人也一样------现在拿 Cursor 加语音输入，一晚上就能搓出一个能演示的网页；hackathon 上已经几乎没人还在敲键盘。这是真实的变化，不能否认。

只是 Vibe Coding 的天花板，也清楚得近乎残酷。

最近最有代表性的一个例子是 Lovable。这家估值 66 亿美元的 vibe coding 平台，今年 3 月 3 日被人发现存在 BOLA 漏洞------「thousands」（成千上万）个用户项目的源代码、数据库凭证、Stripe 客户 ID 全部对公网暴露，受影响的账号里包括 Nvidia、Microsoft、Uber、Spotify 员工。这个漏洞，从被通报到被修复，整整开放了 48 天。

发现并报告这件事的安全机构 Trend Micro 给了一句很准确的判断------

「The real risk of vibe coding isn't AI writing insecure code. It's humans shipping code they never had a chance to secure.」

（Vibe Coding 真正的风险，不是 AI 写出了不安全的代码，而是人类发布了自己根本没机会审查的代码。）

工具的发明者其实自己也警惕。Claude Code 里有一个被 Anthropic 收编为官方插件的命令叫「Ralph Loop」（正式名 Ralph Wiggum，致敬辛普森一家里那个又蠢又执着的小孩）------它的原型只是一行 bash 脚本：

bash 复制代码

while :; do cat PROMPT.md | claude-code; done

意思就是「拿同一个目标反复让 AI 自己跑，直到跑完为止」。这套循环的发明者是澳大利亚开发者 Geoffrey Huntley。The Register 在 1 月报道这个工具时，引述他自己的原话------「nauseous」（恶心、反胃）。他怕「自己以糟糕的方式改变了软件开发」，并因此暂停了 2025 年的部分工作。

工具的作者都在公开警惕，外行的旁观者却在喊「一个人 = 一家公司」。这本身就是答案。

Karpathy 给的下一站，叫 Agentic Engineering

回到红杉那场访谈。Karpathy 把 2024 年 12 月单独标出来------「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」12 月是个清晰的转折点，AI 写出来的代码块就是能跑，他要更多、AI 还能继续给出来。从那以后，他自己就几乎不再亲手写代码了。

媒体后来把这段话翻译成了「80% / 20% 翻转」------以前 80% 自己写、20% AI 辅助，12 月后比例反过来。但 transcript 里 Karpathy 没说过这个具体数字。他给的是定性判断，不是统计。

这个区别其实很重要------重要在于：AI 跑得最快的那个人，从去年冬天起，就主动把「写代码」这件事从自己的工作清单里划掉了。

接下来才是关键。Karpathy 给这种新方式起了一个框架------Software 1.0 / 2.0 / 3.0。

Software 1.0：人写显式代码（程序员的传统活）
Software 2.0：人定义数据集和损失函数，让"程序"被训练进神经网络的权重里（深度学习时代）
Software 3.0：人通过 prompt、context、examples、tools，去编排 LLM

图片来源：宝玉 baoyu.io

他在访谈里给了一个很形象的类比------

「Programming through prompting. What's in the context window is your lever over the interpreter, and the interpreter is the LLM.」

LLM 是一种新型计算机：模型权重是 CPU（固定的算力底座），context window 是 RAM（短期工作记忆），prompt 就是程序。

简单说：过去你给 CPU 写指令，现在你给 LLM 摆道具。

那 Agentic Engineering 又是什么？Karpathy 在访谈里这样说------「Agentic engineering is about preserving the quality bar of professional software.」「Agentic Engineering 的关键，是守住专业软件的质量底线。」

也就是说：Vibe Coding 抬高了「谁能写软件」的下限------本来不会写代码的人也能搓出 demo。但要保住「专业软件的质量底线」，需要的不是把目标抛给 AI 然后看运气，而是要主动地------定义问题、组织上下文、编排 Agent、验证结果。程序员的角色，从「代码编写者」变成了「编排者」。

这是范式跃迁，不是工具升级。

国内外开源生态走到哪里了

但 Karpathy 喊的「Agentic Engineering」，落到工具层，开源生态目前其实只走到了三档里的前两档。

flowchart LR A["第一档 Vibe Coding Codex /goal、Ralph Loop"] -- 抬下限 --> A1["Demo / 玩具"] B["第二档 单项目编排 Superpowers、OpenSpec"] -- 加纪律 --> B1["项目内 Feature 迭代"] C["第三档 多 Agent 编排 Claude Code Agent Teams"] -- 撑上限 --> C1["跨服务 / 长跑研究 (企业级目标)"]

第一档:Vibe Coding 系 。代表是 OpenAI Codex 的 /goal 命令，和 Claude Code 的 Ralph Loop。我自己这两个都用过,体感很简单------它们是「更高级的 Vibe Coding 工具」。Codex 的 /goal 严谨一些,会跑 plan → act → test → review → iterate 的 5 状态机；Ralph Loop 更原始,就是循环。但工作单元一致------把目标抛给 AI、让它自己跑,跑出什么算什么。HN 上一句话评得很到位------「Ralph-generated codebases run, but they lack structural coherence」。代码能跑,但架构没有结构。

第二档：单项目编排系。代表是 Superpowers 和 OpenSpec。前者由独立开发者 Jesse Vincent 主导（GitHub 用户名 obra），今年 1 月被 Anthropic 收编进官方插件市场；它有 14 个 skill 组成的 7 步开发方法论------brainstorm → plan → subagent TDD → review → finish------把「写代码」从 vibe 升级为有结构的 workflow。OpenSpec 是 YC 项目，由 Fission-AI 维护，主推「spec-driven development」------人和 AI 在写代码之前先把意图写成 spec，然后状态机走 propose → apply → archive。

我自己用下来，这两个工具的体感是一样的------它们更强调开发流程上的编排能力，更适合现有项目的 feature 开发。但工作单元仍然是「单 repo 内的一条 feature branch」。OpenSpec 自己最新的 v1.3 加了一个叫「Coordination Workspaces」的实验性功能，想做跨 repo 的协调，但官方文档明确写着------

「is under active development and is not ready for use yet. Do not build external automation, integrations, or long-lived workflows on top of workspace behavior.」

连工具方自己都在说「不要拿这个去搭长生命周期的工作流」。

第三档：多 Agent 编排系 。代表是 Anthropic 官方上线的 Claude Code Agent Teams（v2.1.32+，目前还是 experimental，需要打开 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 环境变量）。它的设计已经接近「真正的多 Agent 协作」------四个组件：Team Lead 派活、多个 Teammate 各自带独立 context window 干活、共享一份 Task List、彼此之间还有 Mailbox 直接通信。

我自己用过 Agent Teams------它确实能做到 multi-agent 的并行协作，但可控性相对较难。整体上，业界目前还没有看到一套非常成熟的、能够覆盖全流程的 Agent Teams 编排工具。

但工具能力分层只解决了「工具该怎么造」的问题。真正的难，其实在更下面------

真正的难，是企业级项目从来不是一个 feature

把任何企业级软件项目拆开，里面没有「一个人写一晚上」这回事。它至少要走完------

flowchart LR A["a. 前期需求讨论 + 商业化分析"] --> B["b. 需求文档 + 设计落实"] B --> C["c. 前后端开发 (接口对齐等强依赖通信)"] C --> D["d. QA 测试"] D --> E["e. 运维部署 + 发布上线"]

每一个阶段都需要 Agent 协作、状态共享、跨阶段通信。Vibe Coding 在 (c) 之前就会迷失，单项目编排能扛住 (b)+(c)，但碰到 (a) 商业化分析和 (d)(e) 测试运维就不得不靠人手工接力。多 Agent 编排是设计上唯一接近这种全流程协作的方向------但接近不等于到达。

这就是为什么 Karpathy 喊的是 Agentic Engineering，不是 Vibe Coding。

所谓「AI 让一个人干一家公司的活」，更准确的说法是------

AI 让一个人能假装在干一家公司的活，直到上线。

我会继续观察的，是国内开源生态会不会真的走出一套面向多 Agent 编排的方法论。Anthropic 自家的 Multi-Agent Research System 用一组多 Agent 协作的实验跑出了 90%+ 的评测提升，但成本贵 ~15×------这只是起点，不是答案。

在那之前，「一个人 = 一家公司」更像是营销话术，不是工程现实。

你愿不愿意承认这个差别，决定了你看到的 AI 是 Vibe Coding 工具，还是 Software 3.0 的入口。