Andrej Karpathy:过去一年大模型的六个关键转折

Andrej Karpathy:过去一年大模型的六个关键转折

本文共 2836 字,阅读预计需要 4 分钟。

一边是模型光靠"多想一会儿"就能解出奥数题,另一边是刷爆排行榜的选手被用户吐槽"中看不中用"。

2025年的AI圈,弥漫着一股诡异的气息:

参数规模不再是唯一的军备竞赛指标,但模型能力却在某些维度上狂飙突进。

这到底发生了什么?

Andrej Karpathy------前OpenAI研究总监、曾掌舵特斯拉AI团队的技术大牛------在年终复盘中抛出了一个判断:

2025年LLM的真正突破,不在于模型变大,而在于我们"驯养"它的方式、理解它的视角、以及使用它的姿势,都发生了根本性的变化。

这篇文章,我会带你拆解Karpathy眼中的六个范式转变,聊聊它们对普通人意味着什么,以及有哪些坑是你现在就该绕开的。

一、RLVR:训练范式的静默换代

2024年之前,大模型训练三板斧:预训练、监督微调、RLHF。但RLHF的瓶颈很明显------依赖人工标注,成本高、速度慢

2025年,RLVR(基于可验证奖励的强化学习)开始上位。核心逻辑很简单:用有标准答案的任务来训练。数学题对不对?代码能不能跑?机器自己就能验证。

打个比方:RLHF像请老师批改作文,标准不一;RLVR像做数学卷子,对就是对、错就是错。

RLVR还解锁了一个调节旋钮:让模型"多想一会儿"

生成更长的推理链,就能换来更强能力。OpenAI的o1到o3,DeepSeek的R1,都是这条路线的产物。

以前比谁模型参数多,现在比谁的强化学习跑得久。

二、召唤幽灵,而非驯养动物

Karpathy用了一个隐喻:我们不是在"培育动物",而是在"召唤幽灵"

动物智能是进化塑造的,能力配合天衣无缝。

但LLM的"大脑"是为了预测下一个词、在数学题里拿分------这些目标和生存没关系

结果就是"锯齿状智能":某些任务碾压专家,另一些任务犯低级错误。

它能写出逻辑严密的报告,但是转头就被越狱提示词骗了。

实际后果是:别迷信基准测试。 LLM团队为了刷榜,围绕测试题大量生成训练数据,榜单漂亮,实际用起来翻车。

幽灵的能力是尖刺的、不可预测的。用的时候,得时刻警惕。

三、Cursor与新应用层:上下文工程的价值爆发

2025年,Cursor没有自己训练模型,但估值从4亿飙到99亿美元。它做对了什么?

答案是上下文工程------在调用大模型时,精心设计给它的信息环境:提示词怎么写、代码库怎么索引、多次调用怎么编排。

Karpathy的观点是:LLM实验室培养"通才大学生",应用层把他们培养成"垂直专家"。桥梁就是上下文工程。

直接问ChatGPT和用Cursor写代码,体验天差地别。Cursor自动索引代码仓库,理解文件依赖,提问时自动塞入相关上下文。这不是模型能力差距,是信息组织方式的差距

启示很清晰:模型会迭代,但上下文工程能力可以沉淀,能无缝迁移到下一代模型。

这也是我一直以来坚持上下文工程优先的原因。

四、Claude Code:AI从"网站"变成"室友"

Claude Code是Anthropic推出的命令行工具,特别之处在于:直接运行在本地电脑上,访问你的文件、配置、密钥。后续Copilot等工具也相继推出了这样的开发模式。

Karpathy说:它不再是需要打开浏览器的网站,而是"寄居"在电脑里的小精灵

本地运行的好处:AI直接读取电脑上的上下文------装了哪些软件、项目代码长什么样,不需要手动复制粘贴。

更重要的是延迟和隐私------云端来回几百毫秒,敏感数据发到第三方合规部门不同意。

当然也有隐患:一个能操作本地文件的AI,权限边界怎么划定?

五、Vibe Coding:代码正在变得廉价

Karpathy造了个词叫"Vibe Coding"------氛围编程。

用自然语言描述需求,AI帮你写代码,你甚至不需要"懂"代码

2025年这事跨过了临界点。之前AI写代码问题多,需要人debug。现在很多简单项目,从想法到可运行程序,一气呵成。

Karpathy自己用它写了Rust版tokenizer(不需要学Rust)、做了好几个小应用原型、甚至写过临时应用定位bug------用完就扔。

他的原话是:代码变得廉价、短暂、可塑、用完即弃。

对普通人意味着什么?"我有想法但不会代码"这个门槛,正在消失。

六、Nano Banana:LLM的GUI时代前奏

Google的Gemini Nano Banana让Karpathy特别兴奋。

核心不是图像生成能力,而是文本、图像与世界知识在模型权重中的深度融合

现在"跟LLM对话"像1980年代敲命令。文本是机器原生语言,但人更喜欢视觉化呈现------这正是GUI被发明的原因。

LLM也需要自己的GUI------用图片、信息图、动画跟我们沟通。Nano Banana就是这个方向的早期预演。

写在最后:可立即落地的三个建议

拉回来说说,这六个范式转变对你意味着什么。

如果你是创业者,最重要的启示是:模型能力会继续涨,但涨的方式变了。与其追着模型跑,不如在上下文工程上建立壁垒。Cursor的成功已经证明了这条路。

如果你是开发者,Vibe Coding值得你认真对待。不是说它会取代你,而是说它能让你的生产力翻倍。把重复性的代码工作交给AI,把精力放在架构设计和业务逻辑上。

如果你是普通用户,最重要的是调整预期。AI既不是全能的神,也不是彻底的废物------它是一个能力极度不均匀的"幽灵"。用好它的尖刺能力,同时对它的盲区保持警惕。

三个行动建议,作为结束:

投资上下文工程能力。学会设计提示词、组织RAG检索、编排多步调用,这是当下性价比最高的AI技能。

用Vibe Coding降低创意落地门槛。你脑子里的想法,别再等"等我学会编程再说",现在就可以试着让AI帮你实现。

理解锯齿状智能,设置人工校验。在享受AI效率提升的同时,别忘了在关键环节保留人工把关。

2025年是LLM的分水岭。规则变了,玩法也得跟着变。

2026年,又会有什么新的成果出现呢?评论区聊聊你的看法

既然看到这了,如果觉得不错,随手点个赞、收藏、转发三连吧~

我是Carl,大厂研发裸辞的AI创业者,只讲能落地的AI干货。

关注我,更多AI趋势与实战,我们下期再见!

数据来源

Karpathy 2025年终复盘原文 [数据|2025|https://karpathy.bearblog.dev/year-in-review-2025/\]

RLVR训练范式说明:基于可验证奖励的强化学习 [数据|2025|Karpathy原文]

DeepSeek R1推理能力展示 [数据|2025|DeepSeek R1论文]

Cursor估值变化:400M(2024.8) → 9.9B(2025.6) [数据|2024-2025|https://techcrunch.com/tag/cursor/\]

OpenAI o1/o3推理模型发布 [数据|2024-2025|OpenAI官方]

Claude Code产品发布与功能说明 [数据|2025|Anthropic官方]

Vibe Coding概念由Karpathy在Twitter提出 [数据|2025|https://x.com/karpathy/status/1886192184808149383\]

Google Gemini Nano Banana多模态融合能力 [数据|2025|Google官方]

相关推荐
:mnong2 小时前
通过手写识别数字可视化学习卷积神经网络原理
人工智能·学习·cnn
俊哥V2 小时前
[本周看点]AI算力扩张的“隐形瓶颈”——电网接入为何成为最大制约?
人工智能·ai
X54先生(人文科技)2 小时前
碳硅协同对位法:从对抗博弈到共生协奏的元协议
人工智能·架构·零知识证明
阿里云大数据AI技术2 小时前
寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启
人工智能·阿里云·云计算·天池大赛
Oflycomm3 小时前
CES 2026:高通扩展 IE-IoT 产品组合,边缘 AI 进入“平台化竞争”阶段
人工智能·物联网·高通·wifi7·ces2026·qogrisys
jay神3 小时前
指纹识别考勤打卡系统 - 完整源码项目
人工智能·深度学习·机器学习·计算机视觉·毕业设计
智慧医院运行管理解决方案专家3 小时前
当医院安全进入“自动驾驶”时代:AI机器人医院安全值守日记
人工智能·安全·自动驾驶
码农三叔3 小时前
(2-3)人形机器人的总体架构与系统工程:人形机器人的关键性能指标
人工智能·机器人·人形机器人
2501_941507943 小时前
【目标检测】YOLO13-C3k2-PFDConv实现长颈鹿与斑马精准检测,完整教程与代码解析_1
人工智能·目标检测·目标跟踪