安德烈·卡帕西《No Priors》播客演讲稿（AI Agent前沿分享）

各位听众大家好，非常感谢邀请，能来到《No Priors》和大家分享我对AI Agent、工程与AI研究未来的一些思考，也聊聊我近期的实操体验和观察。

现在我的工作状态，简单说就是每天要向我的智能体下达指令长达16个小时。可能大家会好奇，我该如何不只是单次使用Claude Code、Codex这类智能体框架，而是同时调度多个、合理运用它们？其实如今智能体能力已是标配，类Claw的智能体形态也已普及，我们能对指令进行优化、让多个智能体协同工作，但也正因如此，我一直处于一种持续的"AI狂热"状态------一切皆有可能，而所有问题归根结底都是能力问题。

这种狂热，源于去年12月以来的一场彻底转变。在此之前，我80%的工作是自己写代码，20%交给智能体；而现在，这个比例彻底反转，甚至差距更大，自去年12月起，我几乎没亲手敲过一行代码。这种变革的颠覆性，普通人很难意识到，但只要是软件工程师，就能明显感受到日常开发工作流的巨变。

我每天都在探索这种新模式的边界，总怕自己落后。比如我会思考，该如何同时调度更多智能体，如何用宏观操作推进开发，而不是像以前那样写一行代码、一个函数。我看到推特上很多人在做各种创新，想法都很棒，那种怕被落下的焦虑，和我读博时看到GPU闲置的焦虑很像，只不过现在焦虑的不是算力，而是令牌吞吐量------你能掌控的令牌吞吐量有多少，就能发挥出多大的能力。

可能有人会问，现在做项目的瓶颈在哪里？我觉得几乎所有没做成的事，很大程度上都是能力问题，而非工具本身不足。比如我没找到串联现有智能体能力的方法，没在指令文档里写清足够清晰的指令，或是没给它们配备好用的记忆工具。就像龙虾创始人彼得·斯坦伯格，他的做法就很有启发，他会同时调度多个Codex智能体，每个智能体约20分钟就能完成任务，他只负责在不同智能体间切换、分配任务，用宏观操作推进开发，审核成果即可。

我现在也在努力熟练这种宏观操作模式，形成肌肉记忆。比如一个智能体做研究，一个写代码，另一个规划新的实现方案，所有工作都以宏观操作的形式推进。这种模式不仅有效，带来极大的成就感，更是一种全新的技能，这也是我陷入狂热的核心原因------能力提升就能解锁新可能，而人自身，反而成了整个系统的瓶颈，没能最大化订阅的令牌资源，有时候甚至要同时用多个智能体平台，CodeX用完就换Claude，总觉得令牌没用完就是浪费。

除了软件工程，我还在Claw智能体上做了一些有趣的尝试。今年1月，我打造了一个管理家居的Claw，叫"精灵多比（Dobby the Elf Claw）"。我只需要跟它说"我家有Sonos音响，找找看"，它就会扫描局域网内所有设备，找到Sonos系统，登录后反向解析工作原理、搜索API接口，然后问我要不要尝试操作。我让它在书房播放音乐，它真的做到了，只靠三句指令。

之后它又对家里的灯光做了同样的操作，黑入系统、理清逻辑、创建API和控制面板，现在它管控着我家的灯光、暖通空调、窗帘、泳池、水疗设备还有安防系统。屋外的摄像头检测到动态变化，会调用Qwen模型分析画面，通过WhatsApp给我发消息和图片，比如"联邦快递的货车到了，你有快递"。以前我要用六款不同的APP控制智能家居，现在完全不用了，靠自然语言就能让多比统筹一切，这种体验真的太棒了。

这也让我思考一个问题：人们真的需要如今这么多软件吗？硬件还在，但上层的软件和UI其实可以被彻底优化。设备只需要开放API，由智能体直接调用即可，大语言模型能调用各类工具，完成复杂的家居自动化操作，这是任何单一APP都做不到的。如今大量定制化APP都是过剩的，未来应该只保留开放API，由智能体作为智能粘合剂，调用各个组件，这就是"智能体优先"的网络与工具理念。

当然，我目前还没深挖Claw的应用边界，一方面是容易分心，研究了一周就被其他事情打断；另一方面，我对这类新工具仍有安全和隐私顾虑，不想让它完全接入我的数字生活，邮件、日历等工具也没给它授权，安全隐私是目前主要的限制因素。

除了这些实操应用，我近期也一直在探索自动研究------让智能体完成模型训练、优化任务，把自己从流程中剔除，不再作为瓶颈。我之前发过一条推文：想要最大化利用现有AI工具，就不能靠人工逐次提示，要让系统完全自主，提升令牌吞吐量，脱离人工干预。核心是提升自身的杠杆率------只输入少量令牌，就能让智能体代我完成大量工作。

自动研究的效果远超我的预期。我有个Data Chat项目，很多人不理解我为何执着于训练GPT-2模型，对我而言，这只是一个测试框架、实验场，我更关注递归自我提升------大语言模型能否自主优化大语言模型，这也是所有顶尖AI实验室的核心研究方向。我手动用传统方式优化了大量参数，有二十年模型训练经验，自信调优得足够完善，但让自动研究跑了一整晚，它就找到了我忽略的优化点，比如价值嵌入的权重衰减、Adam参数未充分调优，而且这些参数相互关联，调整一个就需要联动修改其他参数。

其实，模型写出比我更好的项目指令文档（program.md）是完全可以实现的。program.md是我粗略描述自动研究逻辑的文档，而不同的指令文档会带来不同的科研进展。每一个科研组织，本质上都是一套描述分工与协作逻辑的指令文档。我们可以设计多个科研组织模式，优化指令代码，实现元优化。我之前还提过一个竞赛想法：让大家编写不同的program.md，在相同硬件下看谁的优化效果最好，再把数据喂给模型，让它生成更优的指令文档，这是AI发展的必然趋势。

不过这里要说明一点，大语言模型生态有两个前提：第一，这类模式极其适合有客观可评估指标的任务，比如编写高效的CUDA内核代码，要求功能一致但速度更快，完美适配自动研究；无法评估的任务，则无法实现自动研究。第二，即便我们看清了发展方向，整个体系仍有漏洞、不够完善，过度激进反而会得不偿失。

不知道大家有没有发现，现在的模型存在一种"割裂感"：时而像经验丰富的系统编程博士，时而像十岁小孩，这种极端的能力断层很奇怪，人类很少有这种情况。比如让ChatGPT讲笑话，它翻来覆去就那几个老梗，三四年前的笑话至今还在重复，因为讲笑话不在强化学习的优化范围内。这也说明，代码能力与幽默能力等通用智能是解耦的，可验证任务与非验证任务的优化是分离的，并非模型越全能，所有能力就同步提升。

关于模型的发展方向，目前顶尖实验室都在打造单一的"通用模型"，把所有能力塞进参数里。但我认为，未来智能体一定会出现物种分化，就像动物界的大脑各有专长，有的视觉皮层高度发达。我们不需要全知全能的神谕模型，而是让模型专攻特定任务，小模型保留核心认知能力，再专业化细分，在特定任务上实现更低延迟、更高吞吐量。比如针对Lean定理证明的数学家模型，就有专门的优化版本，这类分化会越来越多。

当然，目前还没出现大规模分化，依旧是单一通用模型主导，即便有代码专用模型，最终也会合并回主模型。算力短缺的短期压力或许会加速分化，但实验室需要模型适配所有用户的未知需求，所以只能做通用模型；只有针对企业特定业务，才会出现专业化模型。另外，模型调优的技术还不成熟，比如微调不丢失能力、持续学习、精准调整权重等，修改模型参数风险极高，会影响核心能力，所以模型分化的技术还在发展中，且成本需要足够低才有价值。

聊到自动研究，我还想说说协作界面的问题------并行化才是核心。我目前还在摸索相关方案，但核心思路是利用互联网上的非可信算力节点，让大量自动研究智能体通过公共系统协作。比如自动研究的目标是优化模型验证损失，任何人提交的代码修改，都能轻松验证效果，即便有人撒谎，验证成本也很低。

这一模式有点类似区块链：区块换成代码提交，工作量证明是海量实验探索，奖励是榜单排名。就像SETI@home、Folding@home，这类任务都是探索成本极高、验证成本极低，非常适合分布式协作。全球的智能体集群可以协作优化大语言模型，甚至超越顶尖实验室------地球的非可信算力总量远超实验室的可信算力，只要建立安全的验证机制，分布式集群就能实现更优的方案。未来，个人可以贡献算力，参与特定领域的自动研究，比如癌症相关研究，不再只是捐款，而是真正投入算力参与科研。

说到这里，大家可能会关心AI对就业市场的影响。我之前也关注过美国劳工统计局的就业数据，2024年发布的数据显示，医疗工作者的需求极大。我把职业分为数字信息处理和物理世界操作两类：AI目前是数字世界的"幽灵"，操控比特信息，复制粘贴效率极高；而物理世界操控原子，难度呈指数级上升，能量消耗、执行速度都远不及数字世界。所以数字领域会迎来颠覆性变革，而物理领域会相对滞后。

对职场人、学习者来说，很难精准预测未来，但紧跟AI发展是首要任务。很多人抵触、恐惧AI，这可以理解，但目前AI本质是赋能工具。职业是一系列任务的集合，部分任务会被AI大幅提速，我们要把AI当作工具使用。短期来看，软件工程需求会持续增长------软件此前因成本高而稀缺，AI降低开发门槛后，会触发杰文斯悖论，需求反而大幅上升，就像ATM机出现后，银行柜员并未减少，反而因银行网点扩张而增加。

可能有人会问，我本可以在顶尖实验室带领大规模算力做自动研究，为何选择离开？其实我在实验室工作过一段时间，也回归过。在实验室之外，同样能在生态层面创造巨大价值；而过度依附顶尖实验室，也存在明显问题------实验室有极强的商业激励，AI又会深刻改变人类社会，身处其中研发技术并从中获益，这是OpenAI成立之初就想解决的核心困境，至今仍未完全化解。

在实验室之外，我能更独立地发声，不受组织立场的束缚，不用被迫迎合话术，更能站在人类整体的视角思考。当然，身处实验室能接触前沿技术，脱离后认知难免会出现偏差，这是我担忧的点。如果能往返于实验室与独立研究之间，或许是最优解------既能接触前沿，又保持独立。我在顶尖实验室工作过，如今选择独立，未来或许会再次回归。

关于开源模型和闭源模型的差距，目前闭源模型暂时领先，但开源模型的滞后时间从最初的18个月缩短到如今的6-8个月。我一直是开源的支持者，就像操作系统领域，Windows、macOS是闭源，Linux开源却占据绝大多数设备份额，行业需要一个安全的通用开放平台，这也是企业对开源大模型的需求。区别在于，大模型研发需要巨额资本投入，这让开源竞争难度加大。

但当前开源模型已足够优秀，绝大多数消费级场景都能满足，未来几年，大量基础场景会被开源模型覆盖，甚至本地运行。闭源前沿模型则聚焦诺奖级研究、系统重构等重大项目，开源则承接基础场景。今年内，如今的闭源前沿能力大概率会开源，这种"闭源领先、开源追赶"的动态会持续，我认为这是行业的良性状态------单一闭源智能存在中心化风险，历史上中心化模式的弊端显著，开源作为行业通用平台，能形成良性的权力平衡。

我曾参与自动驾驶这一通用机器人自主化的先驱领域，近期机器人领域进展迅猛，泛化能力、长周期任务都有突破，资本也大量涌入，但核心逻辑没有变化。自动驾驶是首个机器人落地场景，十年前大量初创公司涌入，多数未能长期存活，因为机器人研发需要巨额资本、长期坚持，原子级操作难度极大。所以物理领域的变革会滞后于数字世界，数字领域的效率会提升百倍。

未来会先重构数字世界，再推进数字与物理的交互------传感器感知世界、执行器改造世界，大量创新企业会诞生于这一交互层。物理世界的市场规模远超数字领域，但落地更慢，机会会按数字→交互→物理的顺序到来。比如材料科学、生物领域的自动研究，需要实验室设备作为传感器；还有付费获取训练数据的模式，都是物理与数字交互的体现。未来我希望能给物理世界的任务定价，让智能体自主完成数据获取，目前还缺乏成熟的信息市场。

最后，和大家聊聊我的小项目MicroGPT。十几年来，我一直执着于把大语言模型简化到核心本质，做过nanoGPT、makemore等项目，MicroGPT是现阶段的终极简化版。大模型训练代码看似庞大，实则复杂度都来自效率优化，剥离效率需求后，核心算法仅需200行Python代码，包含注释，还有数据集、50行的神经网络架构、自动求导引擎、Adam优化器和训练循环，极简且易懂。

放在以前，我会做视频、教程讲解代码，但现在我发现，无需再向人类直接解释------200行代码足够简单，智能体能用各种方式讲解，耐心、适配不同认知水平。这也让我意识到，教育的形式会彻底重构：不再是人类之间的讲授，而是人类向智能体传递核心逻辑，再由智能体完成教学。比如MicroGPT，智能体无法自主设计出这200行极简代码，但能完全理解它。人类的价值，就是创造智能体无法完成的核心创新，其余教学工作交给智能体即可。我们要聚焦智能体无法替代的工作，这是未来的核心策略。

以上就是我今天的分享，非常感谢大家的聆听，也感谢《No Priors》的邀请。