Karpathy 已经走到 Agentic Engineering,大部分人还停在 Vibe Coding。
4 月底,Karpathy 站在红杉资本 AI Ascent 的舞台上,演讲题目印着 From Vibe Coding to Agentic Engineering------按字面翻,是「从凭感觉写代码,到工程化地编排 Agent」。

图片来源:YouTube / Sequoia Capital AI Ascent 2026
同一周,朋友圈在刷的是另一句话------「AI 让一个人就能干一家公司的活」。
同一个 AI,跑得最快的人在喊「质量底线」,跑得最慢的旁观者在喊「颠覆生产力」。这场温差,比任何评测都更说明问题。
我自己的体感是------大部分人对 AI 工具的使用,其实还停留在 Vibe Coding 阶段。所谓「一个人 = 一家公司」,多半是自欺欺人。
你以为的「AI 编程」,可能只是 Vibe Coding
「Vibe Coding」这个词,是 Karpathy 自己 2025 年 2 月在 X 上随手发的一条推文里造出来的。原话是这样的------
「There is a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.」
翻成中文是:「有种新的编程方式我叫它'凭感觉写代码'------你完全交给感觉、拥抱指数曲线、忘记代码的存在。」
这条推文当时有 4500 万浏览,「Vibe Coding」后来还被 Collins 字典选为 2025 年度词汇。说白了:把目标抛给 AI,让它边跑边写、自己决定下一步------你只看结果。
Vibe Coding 当然有它真实的进步。Karpathy 在 AI Ascent 上自己说------「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」从去年 12 月起,他不再亲自写大段代码了,因为 AI 给出来的东西「就是能跑」。
普通人也一样------现在拿 Cursor 加语音输入,一晚上就能搓出一个能演示的网页;hackathon 上已经几乎没人还在敲键盘。这是真实的变化,不能否认。
只是 Vibe Coding 的天花板,也清楚得近乎残酷。
最近最有代表性的一个例子是 Lovable。这家估值 66 亿美元的 vibe coding 平台,今年 3 月 3 日被人发现存在 BOLA 漏洞------「thousands」(成千上万)个用户项目的源代码、数据库凭证、Stripe 客户 ID 全部对公网暴露,受影响的账号里包括 Nvidia、Microsoft、Uber、Spotify 员工。这个漏洞,从被通报到被修复,整整开放了 48 天。
发现并报告这件事的安全机构 Trend Micro 给了一句很准确的判断------
「The real risk of vibe coding isn't AI writing insecure code. It's humans shipping code they never had a chance to secure.」
(Vibe Coding 真正的风险,不是 AI 写出了不安全的代码,而是人类发布了自己根本没机会审查的代码。)
工具的发明者其实自己也警惕。Claude Code 里有一个被 Anthropic 收编为官方插件的命令叫「Ralph Loop」(正式名 Ralph Wiggum,致敬辛普森一家里那个又蠢又执着的小孩)------它的原型只是一行 bash 脚本:
bash
while :; do cat PROMPT.md | claude-code; done
意思就是「拿同一个目标反复让 AI 自己跑,直到跑完为止」。这套循环的发明者是澳大利亚开发者 Geoffrey Huntley。The Register 在 1 月报道这个工具时,引述他自己的原话------「nauseous」(恶心、反胃)。他怕「自己以糟糕的方式改变了软件开发」,并因此暂停了 2025 年的部分工作。
工具的作者都在公开警惕,外行的旁观者却在喊「一个人 = 一家公司」。这本身就是答案。
Karpathy 给的下一站,叫 Agentic Engineering
回到红杉那场访谈。Karpathy 把 2024 年 12 月单独标出来------「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」12 月是个清晰的转折点,AI 写出来的代码块就是能跑,他要更多、AI 还能继续给出来。从那以后,他自己就几乎不再亲手写代码了。
媒体后来把这段话翻译成了「80% / 20% 翻转」------以前 80% 自己写、20% AI 辅助,12 月后比例反过来。但 transcript 里 Karpathy 没说过这个具体数字。他给的是定性判断,不是统计。
这个区别其实很重要------重要在于:AI 跑得最快的那个人,从去年冬天起,就主动把「写代码」这件事从自己的工作清单里划掉了。
接下来才是关键。Karpathy 给这种新方式起了一个框架------Software 1.0 / 2.0 / 3.0。
- Software 1.0:人写显式代码(程序员的传统活)
- Software 2.0:人定义数据集和损失函数,让"程序"被训练进神经网络的权重里(深度学习时代)
- Software 3.0:人通过 prompt、context、examples、tools,去编排 LLM

图片来源:宝玉 baoyu.io
他在访谈里给了一个很形象的类比------
「Programming through prompting. What's in the context window is your lever over the interpreter, and the interpreter is the LLM.」
LLM 是一种新型计算机:模型权重是 CPU(固定的算力底座),context window 是 RAM(短期工作记忆),prompt 就是程序。
简单说:过去你给 CPU 写指令,现在你给 LLM 摆道具。
那 Agentic Engineering 又是什么?Karpathy 在访谈里这样说------「Agentic engineering is about preserving the quality bar of professional software.」「Agentic Engineering 的关键,是守住专业软件的质量底线。」
也就是说:Vibe Coding 抬高了「谁能写软件」的下限------本来不会写代码的人也能搓出 demo。但要保住「专业软件的质量底线」,需要的不是把目标抛给 AI 然后看运气,而是要主动地------定义问题、组织上下文、编排 Agent、验证结果。程序员的角色,从「代码编写者」变成了「编排者」。
这是范式跃迁,不是工具升级。
国内外开源生态走到哪里了
但 Karpathy 喊的「Agentic Engineering」,落到工具层,开源生态目前其实只走到了三档里的前两档。
Vibe Coding
Codex /goal、Ralph Loop"] -- 抬下限 --> A1["Demo / 玩具"] B["第二档
单项目编排
Superpowers、OpenSpec"] -- 加纪律 --> B1["项目内 Feature 迭代"] C["第三档
多 Agent 编排
Claude Code Agent Teams"] -- 撑上限 --> C1["跨服务 / 长跑研究
(企业级目标)"]
第一档:Vibe Coding 系 。代表是 OpenAI Codex 的 /goal 命令,和 Claude Code 的 Ralph Loop。我自己这两个都用过,体感很简单------它们是「更高级的 Vibe Coding 工具」。Codex 的 /goal 严谨一些,会跑 plan → act → test → review → iterate 的 5 状态机;Ralph Loop 更原始,就是循环。但工作单元一致------把目标抛给 AI、让它自己跑,跑出什么算什么。HN 上一句话评得很到位------「Ralph-generated codebases run, but they lack structural coherence」。代码能跑,但架构没有结构。
第二档:单项目编排系。代表是 Superpowers 和 OpenSpec。前者由独立开发者 Jesse Vincent 主导(GitHub 用户名 obra),今年 1 月被 Anthropic 收编进官方插件市场;它有 14 个 skill 组成的 7 步开发方法论------brainstorm → plan → subagent TDD → review → finish------把「写代码」从 vibe 升级为有结构的 workflow。OpenSpec 是 YC 项目,由 Fission-AI 维护,主推「spec-driven development」------人和 AI 在写代码之前先把意图写成 spec,然后状态机走 propose → apply → archive。
我自己用下来,这两个工具的体感是一样的------它们更强调开发流程上的编排能力,更适合现有项目的 feature 开发。但工作单元仍然是「单 repo 内的一条 feature branch」。OpenSpec 自己最新的 v1.3 加了一个叫「Coordination Workspaces」的实验性功能,想做跨 repo 的协调,但官方文档明确写着------
「is under active development and is not ready for use yet. Do not build external automation, integrations, or long-lived workflows on top of workspace behavior.」
连工具方自己都在说「不要拿这个去搭长生命周期的工作流」。
第三档:多 Agent 编排系 。代表是 Anthropic 官方上线的 Claude Code Agent Teams(v2.1.32+,目前还是 experimental,需要打开 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 环境变量)。它的设计已经接近「真正的多 Agent 协作」------四个组件:Team Lead 派活、多个 Teammate 各自带独立 context window 干活、共享一份 Task List、彼此之间还有 Mailbox 直接通信。
我自己用过 Agent Teams------它确实能做到 multi-agent 的并行协作,但可控性相对较难。整体上,业界目前还没有看到一套非常成熟的、能够覆盖全流程的 Agent Teams 编排工具。
但工具能力分层只解决了「工具该怎么造」的问题。真正的难,其实在更下面------
真正的难,是企业级项目从来不是一个 feature
把任何企业级软件项目拆开,里面没有「一个人写一晚上」这回事。它至少要走完------
+ 商业化分析"] --> B["b. 需求文档
+ 设计落实"] B --> C["c. 前后端开发
(接口对齐等强依赖通信)"] C --> D["d. QA 测试"] D --> E["e. 运维部署
+ 发布上线"]
每一个阶段都需要 Agent 协作、状态共享、跨阶段通信。Vibe Coding 在 (c) 之前就会迷失,单项目编排能扛住 (b)+(c),但碰到 (a) 商业化分析和 (d)(e) 测试运维就不得不靠人手工接力。多 Agent 编排是设计上唯一接近这种全流程协作的方向------但接近不等于到达。
这就是为什么 Karpathy 喊的是 Agentic Engineering,不是 Vibe Coding。
所谓「AI 让一个人干一家公司的活」,更准确的说法是------
AI 让一个人能假装在干一家公司的活,直到上线。
我会继续观察的,是国内开源生态会不会真的走出一套面向多 Agent 编排的方法论。Anthropic 自家的 Multi-Agent Research System 用一组多 Agent 协作的实验跑出了 90%+ 的评测提升,但成本贵 ~15×------这只是起点,不是答案。
在那之前,「一个人 = 一家公司」更像是营销话术,不是工程现实。
你愿不愿意承认这个差别,决定了你看到的 AI 是 Vibe Coding 工具,还是 Software 3.0 的入口。