从 Vibe Coding 到 Agentic Engineering

2026红杉AI - Andrej Karpathy

  • 2024年12月是明显转折点,LLM生成代码的正确率从"经常需要修正"变为"基本不需要修正"
  • Software 3.0范式 :不再写代码,而是写 prompt,上下文窗口是操纵解释器的杠杆
  • Vibe Coding vs Agentic Engineering :前者提升所有人的下限,后者保持专业软件的质量标准
  • 可验证性(Verifiability)是关键框架,LLM擅长自动化"可验证"的任务,这解释了为什么模型能力呈现"锯齿状"
  • 人类的核心价值 :品味(taste)、判断力、理解力 ------ "你可以外包思考,但无法外包理解"

一、从"感觉落后"到"AI加速开发"

为什么说"从未如此落后"

Karpathy 在访谈中提到,2024年12月是一个明显的转折点:

"我使用代码相关的AI工具已经一年多了,有时候它表现得很好,有时候会出错需要修正。但12月份,我开始注意到最新模型生成的内容一次性就正确了。我不断提出更多要求,也都一次性正确。我不记得上一次修正它是什么时候了。"

这种体验让他意识到:

  • AI能力已经发生了根本性变化,不只是"稍微好一点"
  • 很多人在2024年把AI当作"ChatGPT adjacent(类似ChatGPT的工具)",但需要重新审视,因为情况已经完全改变
  • 特别是**a agents 的 coherent workflow(连贯工作流)**开始真正奏效

影响:

  • side project 文件夹变得"extremely full"(极其充实)
  • 持续"quanta-ing"(不断提问/查询),大量项目得以完成
  • 体验是"exhilarating and unsettling"(兴奋与不安并存)的混合

二、Software 1.0 → 2.0 → 3.0

计算范式的理论框架:

2.1 对比

范式 核心机制 程序员的工作
Software 1.0 显式规则 编写代码(if/else, 函数等)
Software 2.0 学习权重 创建数据集、定义目标函数、设计网络架构
Software 3.0 上下文驱动 编写 prompt(上下文窗口成为操纵LLM的杠杆)

2.2 为什么LLM是"可编程计算机"

当在大规模任务数据集上训练 LLM 时,由于需要在数据上进行多任务学习,这些模型实际上变成了:

"一种可编程的计算机。从某种意义上说,你的 prompt 就是给这个解释器的指令,LLM 在数字信息空间中进行计算。"

2.3 具体案例对比

OpenClaw 安装

传统:

  • 复杂的 shell 脚本,跨平台安装逻辑膨胀
  • 工作在 Software 1.0 范式中

AI 时代:

  • 直接把一段文字复制粘贴给 agent
  • agent 有自己的智能,能够理解你的环境、平台,执行智能操作,调试问题
  • prompt 本身就是编程

Menugen 应用

Karpathy 自己开发的应用:

  • 拍照 → OCR 识别菜单项 → 调用图像生成器获取菜品图片 → 重新渲染菜单
  • 运行在 Vercel 上

Gemini 版本(让他震惊):

  • 拍一张照发给 Gemini,只说"use nanana banana overlay the things onto the menu"
  • Gemini 直接返回一张图片,把菜品图片嵌入原始菜单照片的像素中

结论

"我的 Menugen 其实是不必要的,工作在旧范式中。Software 3.0 范式更加原生,神经网络做更多工作,prompt 就是输入图像,输出也是图像,不需要中间的 app。"

LLM Knowledge Base

之前不可能存在的东西:

  • 没有什么代码能从一堆文档中创建一个知识库
  • 现在可以:把文档丢给 LLM,重新编译、重组,创建新的、有趣的知识框架

三、可验证性框架(Verifiability Framework)

Karpathy 花费大量时间研究可验证性问题:

"传统计算机可以轻松自动化'能用代码指定'的事物;这一代 ==LLM 可以轻松自动化'能验证'==的事物。"

原因 :前沿实验室训练 LLM 时,使用的是巨型强化学习环境,给予定证奖励(verification rewards)。因此模型在可验证领域(数学、代码等)能力突出,而在其他领域表现粗糙。

3.2 模型能力的"锯齿状"特征(Jaggedness)

Karpathy 用"jagged intelligence"(锯齿状智能)来描述:

案例

  • 草莓问题("strawberry中有几个字母r"):模型长期答错
  • 洗车问题:目的地距50米,模型建议步行而非开车

矛盾

  • Opus 4.7 能同时重构10万行代码库
  • 却建议你步行去50米外的洗车场

3.3 可验证性受实验室控制

案例:G3.5 到 G4 的国际象棋能力跃升

  • 公众认为这是能力自然进步
  • 实际上:有人把大量象棋数据加入了预训练语料
  • 模型在该领域能力峰值大幅提升

启示

"我们多少受制于实验室的决策------他们把什么放入了数据混合中。你必须探索这个'没有说明书'的工具,在某些设置下有效,在某些设置下无效。如果你在 RL 的 circuit 中,就飞;如果你不在 distribution 的 circuit 中,就会挣扎。"

建议:

对于想建立可验证领域 AI 应用的创始人:

  • 可验证性使得某事在当前范式中 tractable(可处理),因为可以投入大量 RL
  • 即使实验室不直接关注某个领域,只要你能创建验证环境,你就可以自己微调(fine-tuning)
  • 关键:你需要有大量多样的验证环境数据集,然后使用你喜欢的微调框架

四、Vibe Coding vs Agentic Engineering

4.1 区分

概念 目标 特点
Vibe Coding 提升所有人的下限(raise the floor) 任何人都可以 vibe code 任何东西
Agentic Engineering 保持专业软件的质量标准 不允许引入漏洞,必须保证软件质量如前

4.2 为什么叫"Agentic Engineering"

Agentic Engineering 本质上是一种工程学科

  • Agents 是"spiky entities"(参差不齐的实体)
  • 它们有点不可靠(fallible),有点随机(stochastic)
  • 但极其强大

如何协调它们以加速,同时不牺牲质量标准?

能力放大效应:

"人们以前谈论 10X 工程师,我认为这个放大效应要大得多。10X 不是你获得的速度提升。对于非常擅长此道的人来说,峰值远超 10X。"

4.4 AI Native vs 传统编码者的差异

如果两个人用 OpenClaw/Codex/Code X,一个你认为平庸,一个你认为完全 AI native,区别是什么?

答案:就像过去用 VIM 或 VS Code 的区别------

  • 充分利用可用工具的功能
  • 投资自己的 setup
  • 充分利用所有可用工具

改变

"大多数人的招聘流程还没有为工程师能力重新设计。如果你在出谜题让他们解决,这是旧范式

招聘应该变成:给我一个大项目,让他实现,做得很好、很安全,然后让 agents 模拟一些活动,我用 Codex 5.4 X 高级版来尝试破解你的网站,他们不应该能破解。"


五、人类在未来仍然不可或缺

5.1 代理仍然需要人类把控的领域

当被问到"随着 agents 做更多工作,什么人类技能会变得更有价值"时:

Karpathy 指出 agents 仍然会犯的典型错误:

Menugen 的真实案例

  • 用户用 Google 账号注册,用 Stripe 购买积分
  • 两个服务可能有不同的邮箱地址
  • Agent 尝试用 Stripe 的邮箱地址去匹配 Google 账号
  • 结果:如果用户两个服务用了不同邮箱,余额无法关联

"为什么会用邮箱地址来交叉关联资金?邮箱可以完全不同。这是一件很奇怪的事情。"

5.2 人类的角色

人类负责 Agents 处理
Spec(规格说明) 实现细节
Top-level categories(顶层分类) 底层代码
品味(Taste) API 细节(keep_dims vs keep_dim, reshape vs permute 等)
判断(Judgment) 确定性任务
理解(Understanding) 工具调用

"你不需要记住 API 的细节,比如 keep_dims 还是 keep_dim,是 dim 还是 axis,是 reshape 还是 permute。这些是 agents 处理的细节。但你仍然需要知道底层有 tensor,有 view,view 是同一存储的视图,还是不同存储------后者效率更低。这些基础知识仍然需要掌握"

5.3 品味和判断力会随时间改善吗?

Karpathy 认为目前不改善的原因是:

  • 没有美学奖励或惩罚在 RL 训练中
  • 或者评估不够好

对代码质量的观察

  • 有时代码不是超级棒,很冗长(bloy)
  • 大量复制粘贴
  • 抽象笨拙脆弱
  • 能工作但"很恶心"(gross)

对简化的抗拒

  • 他尝试简化 LLM 训练(microgP 项目)
  • 模型无法做到简化
  • 感觉像在"拔牙"(pulling teeth),不是在光速运行

结论

"我认为人们仍然在掌控这些。但我不认为有什么根本性的东西阻止它。只是实验室还没做。"


六、"Animals vs Ghosts":对LLM本质的哲学思考

Karpathy 写过关于"animals vs ghosts"的思想实验:

  • 我们不是在构建 animals(动物)
  • 我们是在 summoning ghosts(召唤幽灵)
Animals(动物) Ghosts(幽灵)
内在动机(intrinsic motivation) 无内在动机
好奇心(curiosity) 无好奇心
Empowerment(自我提升感) 无自我提升感
通过进化发展 由数据和奖励函数塑造

"这些不是动物智能。对它们吼叫不会让它们表现更好或更差。这只是一种统计模拟电路,底层是预训练的统计,但 RL 在上面增加了能力边缘。"

作用:帮助建立正确的心理模型,理解什么可能有效、什么可能无效,以及如何调整。


七、Agent Native 基础设施的未来

7.1 当前问题

"所有东西都是为人写的。当我想让 agent 工作时,我不想做什么,我只想知道应该复制什么给 agent。"

例如:

  • 访问某个 URL
  • 配置 DNS
  • 在各种服务的设置菜单中操作

7.2 什么是 Agent Native

最终目标:

  • 工作负载分解为 sensors over the world (对世界的感知)和 actuators over the world(对世界的执行器)
  • 描述系统时首先面向 agents
  • 围绕数据结构构建自动化,使 LLM 容易理解

Menugen 的部署经历

  • 写代码其实不是最难的
  • 最麻烦的是在 Vercel 部署:需要操作各种服务、进入设置、配置菜单
  • 他理想中的 Menugen:给 LLM 一个 prompt"Build menugen",然后就部署好了,不需要他碰任何东西

7.3 Agent-to-Agent 交互的未来

"最终,我认为我们正在走向一个 agent 代表人类和组织的世界。我的 agent 会和你的 agent 交流,讨论我们会议的一些细节。"

evomap!


八、教育与学习的未来

Karpathy 引用了一条让他深受启发的推文:

"你可以外包你的思考,但你无法外包你的理解。"

8.2 为什么理解仍然关键

  • 即使有了 agents,你仍然是系统的一部分
  • 信息仍然需要进入你的大脑
  • 你需要知道"我们在试图构建什么""为什么值得做""如何指导 agents"
  • 人类成为"bottleneck"(瓶颈)------ 知道要什么、方向在哪里

8.3 工具推荐

  • 读到文章后,用这些文章构建 wiki
  • 通过不同角度的信息投影获得洞察
  • 把固定数据上的合成数据生成作为处理信息的工具

"工具可以增强理解,但这仍然是一个瓶颈。因为只有你才能做好的导演。LLM 不擅长理解。你仍然独特地负责理解这件事。"


附录

英文 中文
Vibe Coding 通过自然语言"凭感觉"编程,AI生成大部分代码
Agentic Engineering Agentic工程:协调AI agents进行可靠软件开发
Verifiability 可验证性:输出能被自动验证的难易程度
Jagged Intelligence 锯齿状智能:能力在不同领域参差不齐
Software 3.0 prompt为编程范式的新一代软件
RL Circuits 强化学习电路:模型在训练中形成的特定能力路径
Agent Native Agent原生:基础设施和服务首先面向AI agents设计
Sensors/Actuators 感知器/执行器:Agent理解世界和采取行动的方式
  1. "December was this clear point where...the chunks just came out fine. And then I kept asking for more and just came out fine. And then I can't remember the last time I corrected it."

  2. "Your prompt or context is just the image. And the output is an image. And there's no need to have any of the app in between."

  3. "I keep trying to get back to as to not only what can we do that existed that is faster now. But I think there's new opportunities, just things that couldn't be possible before."

  4. "Agents are these like spiky entities, they are a bit fallible, a bit stochastic, but they are extremely powerful."

  5. "You can outsource your thinking, but you can't outsource your understanding."

相关推荐
kay_5451 小时前
YOLO26改进| 主干网络 | 提升长距离特征建模与全局上下文理解能力【CVPR】
人工智能·目标检测·计算机视觉·目标跟踪·论文·yolo26·yolo26改进
ting94520001 小时前
Huddle01 VMs 支持 AI 助手一键部署,MCP 协议重塑云基础设施管理
人工智能
地理探险家1 小时前
我整理了一份动物数据集合集,做深度学习的直接省掉80%时间(附使用建议)
人工智能·深度学习·数据集·图像·动物
硅谷秋水2 小时前
语言智体的Harness工程:Harness层作为控制、智体和运行时
人工智能·深度学习·机器学习·语言模型
老黄编程2 小时前
大型工地实时数据处理与三维重构系统方案(极简中心化部署版)
人工智能·数码相机·计算机视觉·大数据处理·入侵检测·三维重构
狙击主力投资工具2 小时前
26年5月4日本周复盘总结,好票机会,下周大盘方向,热门板块方向,操作建议,实用干货
人工智能·区块链
生物信息与育种2 小时前
黄三文院士领衔植物星球计划(PLANeT)发表Cell
人工智能·深度学习·算法·面试·transformer
Data-Miner2 小时前
10个最佳表格Agent工具深度评测:让数据处理效率翻倍的智能助手
人工智能