
2026红杉AI - Andrej Karpathy
- 2024年12月是明显转折点,LLM生成代码的正确率从"经常需要修正"变为"基本不需要修正"
Software 3.0范式 :不再写代码,而是写 prompt,上下文窗口是操纵解释器的杠杆- Vibe Coding vs Agentic Engineering :前者提升所有人的下限,后者保持
专业软件的质量标准 - 可验证性(Verifiability)是关键框架,LLM擅长
自动化"可验证"的任务,这解释了为什么模型能力呈现"锯齿状" - 人类的核心价值 :品味(taste)、判断力、理解力 ------ "你可以外包思考,但无法外包理解"
一、从"感觉落后"到"AI加速开发"
为什么说"从未如此落后"
Karpathy 在访谈中提到,2024年12月是一个明显的转折点:
"我使用代码相关的AI工具已经一年多了,有时候它表现得很好,有时候会出错需要修正。但12月份,我开始注意到最新模型生成的内容一次性就正确了。我不断提出更多要求,也都一次性正确。我不记得上一次修正它是什么时候了。"
这种体验让他意识到:
- AI能力已经发生了根本性变化,不只是"稍微好一点"
- 很多人在2024年把AI当作"ChatGPT adjacent(类似ChatGPT的工具)",但需要重新审视,因为情况已经完全改变
- 特别是**a agents 的
coherent workflow(连贯工作流)**开始真正奏效
影响:
- side project 文件夹变得"extremely full"(极其充实)
- 持续"quanta-ing"(不断提问/查询),大量项目得以完成
- 体验是"exhilarating and unsettling"(兴奋与不安并存)的混合
二、Software 1.0 → 2.0 → 3.0
计算范式的理论框架:
2.1 对比
| 范式 | 核心机制 | 程序员的工作 |
|---|---|---|
| Software 1.0 | 显式规则 | 编写代码(if/else, 函数等) |
| Software 2.0 | 学习权重 | 创建数据集、定义目标函数、设计网络架构 |
| Software 3.0 | 上下文驱动 | 编写 prompt(上下文窗口成为操纵LLM的杠杆) |
2.2 为什么LLM是"可编程计算机"
当在大规模任务数据集上训练 LLM 时,由于需要在数据上进行多任务学习,这些模型实际上变成了:
"一种可编程的计算机。从某种意义上说,你的 prompt 就是给这个解释器的指令,
LLM 在数字信息空间中进行计算。"
2.3 具体案例对比
OpenClaw 安装
传统:
- 复杂的 shell 脚本,跨平台安装逻辑膨胀
- 工作在 Software 1.0 范式中
AI 时代:
直接把一段文字复制粘贴给 agent- agent 有自己的智能,能够理解你的环境、平台,执行智能操作,调试问题
- prompt 本身就是编程
Menugen 应用
Karpathy 自己开发的应用:
- 拍照 → OCR 识别菜单项 → 调用图像生成器获取菜品图片 → 重新渲染菜单
- 运行在 Vercel 上
Gemini 版本(让他震惊):
- 拍一张照发给 Gemini,只说"use nanana banana overlay the things onto the menu"
- Gemini 直接返回一张图片,把菜品图片嵌入原始菜单照片的像素中
结论:
"我的 Menugen 其实是不必要的,工作在旧范式中。Software 3.0 范式更加原生,
神经网络做更多工作,prompt 就是输入图像,输出也是图像,不需要中间的 app。"
LLM Knowledge Base
之前不可能存在的东西:
- 没有什么代码能从一堆文档中创建一个知识库
- 现在可以:把文档丢给 LLM,重新编译、重组,创建新的、有趣的知识框架
三、可验证性框架(Verifiability Framework)
Karpathy 花费大量时间研究可验证性问题:
"传统计算机可以轻松自动化'
能用代码指定'的事物;这一代 ==LLM 可以轻松自动化'能验证'==的事物。"
原因 :前沿实验室训练 LLM 时,使用的是巨型强化学习环境,给予定证奖励(verification rewards)。因此模型在可验证领域(数学、代码等)能力突出,而在其他领域表现粗糙。
3.2 模型能力的"锯齿状"特征(Jaggedness)
Karpathy 用"jagged intelligence"(锯齿状智能)来描述:
案例:
- 草莓问题("strawberry中有几个字母r"):模型长期答错
- 洗车问题:目的地距50米,模型建议步行而非开车
矛盾:
- Opus 4.7 能同时重构10万行代码库
- 却建议你步行去50米外的洗车场
3.3 可验证性受实验室控制
案例:G3.5 到 G4 的国际象棋能力跃升
- 公众认为这是能力自然进步
- 实际上:有人
把大量象棋数据加入了预训练语料 - 模型在该领域能力峰值大幅提升
启示:
"我们多少受制于实验室的决策------他们把什么放入了数据混合中。你必须探索这个'没有说明书'的工具,在某些设置下有效,在某些设置下无效。如果你在 RL 的 circuit 中,就飞;如果你不在 distribution 的 circuit 中,就会挣扎。"
建议:
对于想建立可验证领域 AI 应用的创始人:
- 可验证性使得某事在当前范式中 tractable(可处理),因为可以投入大量 RL
- 即使实验室不直接关注某个领域,只要你能创建验证环境,你就可以自己微调(fine-tuning)
- 关键:你需要有
大量多样的验证环境数据集,然后使用你喜欢的微调框架
四、Vibe Coding vs Agentic Engineering
4.1 区分
| 概念 | 目标 | 特点 |
|---|---|---|
| Vibe Coding | 提升所有人的下限(raise the floor) | 任何人都可以 vibe code 任何东西 |
| Agentic Engineering | 保持专业软件的质量标准 | 不允许引入漏洞,必须保证软件质量如前 |
4.2 为什么叫"Agentic Engineering"
Agentic Engineering 本质上是一种工程学科:
- Agents 是"spiky entities"(参差不齐的实体)
- 它们有点不可靠(fallible),有点随机(stochastic)
- 但极其强大
如何协调它们以加速,同时不牺牲质量标准?
能力放大效应:
"人们以前谈论 10X 工程师,我认为这个放大效应要大得多。10X 不是你获得的速度提升。对于非常擅长此道的人来说,峰值远超 10X。"
4.4 AI Native vs 传统编码者的差异
如果两个人用 OpenClaw/Codex/Code X,一个你认为平庸,一个你认为完全 AI native,区别是什么?
答案:就像过去用 VIM 或 VS Code 的区别------
- 充分利用可用工具的功能
- 投资自己的 setup
- 充分利用所有可用工具
改变:
"大多数人的招聘流程还没有为工程师能力重新设计。如果你在出谜题让他们解决,这是旧范式
招聘应该变成:给我一个大项目,让他实现,做得很好、很安全,然后让 agents 模拟一些活动,我
用 Codex 5.4 X 高级版来尝试破解你的网站,他们不应该能破解。"
五、人类在未来仍然不可或缺
5.1 代理仍然需要人类把控的领域
当被问到"随着 agents 做更多工作,什么人类技能会变得更有价值"时:
Karpathy 指出 agents 仍然会犯的典型错误:
Menugen 的真实案例:
- 用户用 Google 账号注册,用 Stripe 购买积分
- 两个服务可能有不同的邮箱地址
- Agent 尝试用 Stripe 的邮箱地址去匹配 Google 账号
- 结果:如果用户两个服务用了不同邮箱,余额无法关联
"为什么会用邮箱地址来交叉关联资金?邮箱可以完全不同。这是一件很奇怪的事情。"
5.2 人类的角色
| 人类负责 | Agents 处理 |
|---|---|
| Spec(规格说明) | 实现细节 |
| Top-level categories(顶层分类) | 底层代码 |
| 品味(Taste) | API 细节(keep_dims vs keep_dim, reshape vs permute 等) |
| 判断(Judgment) | 确定性任务 |
| 理解(Understanding) | 工具调用 |
"你不需要记住 API 的细节,比如 keep_dims 还是 keep_dim,是 dim 还是 axis,是 reshape 还是 permute。这些是 agents 处理的细节。但你仍然需要知道底层有 tensor,有 view,view 是同一存储的视图,还是不同存储------后者效率更低。这些基础知识仍然需要掌握"
5.3 品味和判断力会随时间改善吗?
Karpathy 认为目前不改善的原因是:
没有美学奖励或惩罚在 RL 训练中- 或者评估不够好
对代码质量的观察:
- 有时代码不是超级棒,很冗长(bloy)
- 大量复制粘贴
- 抽象笨拙脆弱
- 能工作但"很恶心"(gross)
对简化的抗拒:
- 他尝试简化 LLM 训练(microgP 项目)
模型无法做到简化- 感觉像在"拔牙"(pulling teeth),不是在光速运行
结论:
"我认为人们仍然在掌控这些。但我不认为有什么根本性的东西阻止它。只是实验室还没做。"
六、"Animals vs Ghosts":对LLM本质的哲学思考
Karpathy 写过关于"animals vs ghosts"的思想实验:
- 我们不是在构建 animals(动物)
- 我们是在 summoning ghosts(召唤幽灵)
| Animals(动物) | Ghosts(幽灵) |
|---|---|
| 内在动机(intrinsic motivation) | 无内在动机 |
| 好奇心(curiosity) | 无好奇心 |
| Empowerment(自我提升感) | 无自我提升感 |
通过进化发展 |
由数据和奖励函数塑造 |
"这些不是动物智能。对它们吼叫不会让它们表现更好或更差。这只是一种统计模拟电路,底层是预训练的统计,但 RL 在上面增加了能力边缘。"
作用:帮助建立正确的心理模型,理解什么可能有效、什么可能无效,以及如何调整。
七、Agent Native 基础设施的未来
7.1 当前问题
"所有东西都是为人写的。当我想让 agent 工作时,我不想做什么,我
只想知道应该复制什么给 agent。"
例如:
- 访问某个 URL
- 配置 DNS
- 在各种服务的设置菜单中操作
7.2 什么是 Agent Native
最终目标:
- 工作负载分解为 sensors over the world (对世界的感知)和 actuators over the world(对世界的执行器)
- 描述系统时首先面向 agents
- 围绕数据结构构建自动化,使 LLM 容易理解
Menugen 的部署经历:
- 写代码其实不是最难的
- 最麻烦的是在 Vercel 部署:需要操作各种服务、进入设置、配置菜单
- 他理想中的 Menugen:给 LLM 一个
prompt"Build menugen",然后就部署好了,不需要他碰任何东西
7.3 Agent-to-Agent 交互的未来
"最终,我认为我们正在走向一个 agent 代表人类和组织的世界。我的 agent 会和你的 agent 交流,讨论我们会议的一些细节。"
evomap!
八、教育与学习的未来
Karpathy 引用了一条让他深受启发的推文:
"你可以外包你的思考,但你无法外包你的理解。"
8.2 为什么理解仍然关键
- 即使有了 agents,你仍然是系统的一部分
- 信息仍然需要进入你的大脑
- 你需要知道"我们在
试图构建什么""为什么值得做""如何指导 agents" - 人类成为"bottleneck"(瓶颈)------
知道要什么、方向在哪里
8.3 工具推荐
- 读到文章后,用这些文章
构建 wiki - 通过不同角度的信息投影获得洞察
- 把固定数据上的合成数据生成作为
处理信息的工具
"工具可以增强理解,但这仍然是一个瓶颈。因为只有你才能做好的导演。
LLM 不擅长理解。你仍然独特地负责理解这件事。"
附录
| 英文 | 中文 |
|---|---|
| Vibe Coding | 通过自然语言"凭感觉"编程,AI生成大部分代码 |
| Agentic Engineering | Agentic工程:协调AI agents进行可靠软件开发 |
| Verifiability | 可验证性:输出能被自动验证的难易程度 |
| Jagged Intelligence | 锯齿状智能:能力在不同领域参差不齐 |
| Software 3.0 | 以prompt为编程范式的新一代软件 |
| RL Circuits | 强化学习电路:模型在训练中形成的特定能力路径 |
| Agent Native | Agent原生:基础设施和服务首先面向AI agents设计 |
| Sensors/Actuators | 感知器/执行器:Agent理解世界和采取行动的方式 |
-
"December was this clear point where...the chunks just came out fine. And then I kept asking for more and just came out fine. And then I can't remember the last time I corrected it."
-
"Your prompt or context is
just the image. And the output is an image. And there's no need to have any of the app in between." -
"I keep trying to get back to as to not only what can we do that existed that is faster now. But I think there's new opportunities,
just things that couldn't be possible before." -
"Agents are these like spiky entities, they are a bit fallible, a bit stochastic, but they are extremely powerful."
-
"
You can outsource your thinking, but you can't outsource your understanding."