看了一下姚顺宇的访谈,确实太顶了。

看了一下张小珺对姚顺宇播客的访谈,收获非常大。

4 个小时的时长,放在现在来说能好好听完的人想必也不多。

于是我就把重点给大家罗列了出来。

不得不说这种播客的方式,虽然时间长,但确实能学到很多东西,这也是老外很喜欢的一种形式。

关于嘉宾身份的重要澄清

硅谷 AI 圈有 两位清华同届毕业、英文都叫 Shunyu Yao 的研究者,中文媒体常混淆:

姚顺雨(另一位)

姚顺宇(本期嘉宾)

本科

清华姚班(计算机)

清华物理系(基科班/学堂物理班)

博士

Princeton(NLP)

Stanford(理论物理)

代表作

ReAct、Tree of Thoughts、《AI 下半场》

Non-Hermitian Skin Effect(非厄米趋肤效应)、Scramblon 理论

路径

OpenAI → 腾讯首席 AI 科学家(2025)

Anthropic → Google DeepMind(2025)

本期嘉宾姚顺宇的公开履历校核:

  • 2015--2019 清华物理系本科,特等奖学金 + 叶企孙物理奖
  • 本科期间 3 篇顶刊(2 篇 PRL + 1 篇 PRB),第一作者与清华王中合作提出 非厄米系统拓扑能带理论新方法
  • 2019--2024 斯坦福大学理论与数学物理博士,导师 Douglas StanfordStephen Shenker,研究量子场论与量子引力动力学
  • 短暂加入伯克利做博士后(正式两周,节目中他说实际待了两三个月)
  • 2024 年 10 月 加入 Anthropic,从事强化学习方向,参与 Claude 3.7、4、4.5 的训练
  • 2025 年 9 月 19 日 从 Anthropic 离职, 9 月 29 日 加入 Google DeepMind,Senior Staff Research Scientist
  • 参与 Gemini 3、Gemini 3 Deep Think、Gemini 3.1 Pro 的开发

字幕中所有"顺宇"与"舜宇"、"Anthropic"被译为"人类学/人本主义/人形生物/人为因素/人猿科技/安特罗皮克"等均为同一指代;"双子座/双子星"即 Gemini。

一、两个 Shunyu Yao(01:26)

姚顺宇主动介绍另一位姚顺雨:"我们的主要职业发展道路有一些重叠,所以看起来可能很难把我们区分开来。"他强调两人最大区别是: 另一位从一开始就做计算机科学,而自己是物理出身,只是"某种意义上走到了这一步"

两人清华本科同届(姚顺雨在姚班,他在基科班),研究生一个去了 Princeton,一个去了 Stanford------"很奇怪,全世界都觉得 Stanford 是 CS 圣地,Princeton 才是物理圣地,我们俩恰好反着来。"

  • 两人在硅谷时每几周见一次,主要就是"瞎玩"------散步、吃饭、打扑克。
  • 对于另一位姚顺雨提出的 "AI 进入下半场",姚顺宇坦言:"我一直不太懂上半场、下半场什么意思,这个定义我始终没搞清。"
  • 他自己的阶段定义是: "大家开始不再那么担心一件事,AI 能不能做到这个问题本身是不是定义明确,这是最大的变化。" 一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力;现在 Gemini、OpenAI、Anthropic 三家没谁真担心"赶不上进度"了------ 难的是想清楚到底该做什么
  • 模型同质化、商品化了,纸面(benchmark)上差距缩到 1--2 个百分点, "大部分是噪声,不是信号",真正的差异只在实际用户体验里:Claude 工具使用最强,Codex 最近追平,Gemini 日常推理更好、智能体编码还在追赶。

二、竞争与逃逸(07:15)

关于 OpenClaw(字幕原文,疑为某款 2026 年初爆火的智能体 Wrapper 产品)的产品判断

  • "圈内人其实不紧张。圈外比圈内紧张。"他认为 OpenClaw 没有证明什么新东西------Claude 4.5 Opus 发布时,工具使用能力已经领先 OpenAI 和 Gemini 3,只是当时没人包装成产品。
  • Manus 被 Meta 收购(注:节目录制后该收购已被撤销)、OpenClaw 被 OpenAI 收购 ,这说明"包装层"目前还无法摆脱模型公司的控制------ "逃逸速度不够"
  • Wrapper 要活下来只有两条路:
  • "成长够快"(Cursor 的打法)------在模型公司反应过来前占据足够用户心智,并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系"已经到了非常微妙的阶段",Cursor 在训自己的 Composer,双方从亲密伙伴变成竞争对手。
  • "市场小到模型公司看不上"(Midjourney 的打法)------"有损 Gemini 尊严的"那种细分市场。
  • 被问到 Lovart 是否算:"我觉得他们有机会。"
  • 对 2026 年的预测 :模型应当实现 "训练时有限上下文,使用时无限上下文"(train with finite context, use with infinite context)------模型边和你持续交互边判断、丢弃不重要信息,成为真正的私人助理。今年肯定能做到,但有多条技术路径,还要实验验证。
  • 关于 Meta 收购 Manus:他"没完全想明白",猜测最大好处是拿到一个 强大的亚洲产品团队,"中国在产品端比美国更有天赋";但 Meta 为什么自己做不出这种产品?他也没想清楚。

三、"Pre-train 没有到头"(25:22)

这是他最反主流的判断之一。

  • "2026 年第一季度,模型改进速度完全没有放缓。"
  • 他拒绝用 benchmark 增长来衡量:"benchmark 是定义在 0, 100 里的,越接近 100 增长当然越慢,但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。"
  • 他的判断基于研究者的体感: 模型越来越容易学------过去要花很大力气教会模型一件事,现在只要问题定义清楚 + 数据/环境构建对,模型几乎"自动就会"。
  • 预训练(pre-training)过去几个月一直在变强。"几个月前很多人说 Scaling Law 撞墙了,我的经验是没撞墙,接下来四个月也看不到到头的迹象。"
  • 为什么有人觉得撞墙了?他给出三种可能,并直指第三条最常见:
  • 觉得这个范式本身到头了(可能但只是猜测)
  • 觉得数据等条件不再满足
  • "他们自己的工作里有 bug,但没意识到------我观察到绝大多数'撞墙'的人属于这一类。" 修一个 bug 带来的进步,往往比花哨的技巧多得多。
  • 遇到撞墙应该是 心态问题:相信问题可解,就会系统性地做消融实验排查------"Gemini 和 Anthropic 在这件事上都做得很好。"
  • 当前主驱动: 数据和算力(二者强相关)。算法更像阶段性跃迁(如 Transformer),之后是渐进提效。
  • "在相对清晰的范式(pre-train / post-train)内,主驱动是数据和算力。多模态生成算法还没收敛,仍是 科学问题;但自然语言生成已经不是科学问题,只剩工程问题。"
  • "如果我估一个时间线,接下来四个月还会有进步。但 AI 领域谁也没法预测四个月以后。"
  • 谁在兴奋?" 做产品的人兴奋于 OpenClaw,做模型的人兴奋于模型进展。Anthropic 和 Gemini 里的人更多在想:AI 很快会把我们取代,我们接下来该干嘛------而不是担心撞墙。"

四、Coding 的爆发(35:08)

为什么编程领域这一年半发展最快?他认为有两大结构性优势:

  1. 奖励信号(reward signal)定义清晰:SWE 任务天然可测,输入输出一匹配就是成功。
  2. 数据基座天然存在:GitHub 几十年沉淀了海量高质量代码,构建环境非常方便。

从产品角度,编码还有一个独特性: 好程序员写的代码风格高度相似(简洁、结构清晰、易扩展、抽象合理),所以不需要像社交/游戏那种推荐算法去适应每个用户的口味------这大大简化了产品形态。

  • 他自己的代码产出中 90% 以上由模型生成(保守估计,实际可能 99%);但他花大量时间审 review 代码。"AI 辅助之后,最重要的变成了如何设计它、如何给它合适的 context。"
  • 被问谷歌允不允许用 Claude Code:"你这个问题差点让我丢工作了------谷歌不允许用 Claude Code。"(笑)
  • 工作效率提升 20--50 倍(相比一年半前),但他的工作时间反而更长:"因为能试的想法更多了,以前要等同事几小时才能搞懂一个文件,现在问 Claude 或 Gemini 5 秒就行。"
  • 对谷歌文化的吐槽: "谷歌已经不是那个沿岸划船(coast along)的谷歌了。GenAI 里没人摸鱼,除非你对技术彻底失去兴趣。" 他自己每天 9 点起查邮件和夜间实验,10 点到办公室,单身时干到 10--11 点,妻子在也会带回家干。
  • 下一个 Coding 级别的爆发点? "如果我看得清,我早就去创业了。" (笑)除了编程,其他方向市场都不够大------AIGC 市场受限于"人一天只有 24 小时";最可能的大市场候选是 交互式教育,但也远小于编程。
  • 关于程序员的未来:AI 最终会取代程序员,但是渐进过程; "AI 是高度集中化的技术,让少数人更强,让大多数人失去独特价值";传统软件工程的终局可能是**"千分之一的人做完所有人的活,拿 100 倍的工资"**。"千分之一只是个比喻数字,也可能是万分之一或十万分之一......别太悲观,我是著名的悲观主义者。"
  • 活下来的那群程序员特征: 技术强(充分不必要条件)+ 理解自己在大组织中的定位 + 规划能力强(能把复杂事切成小块分发给不同 AI)。
  • AI 研究本身是淘金热还是科学革命? "都有" 。他说训练 AI 产品经理目前不太可能------因为"什么是好产品"没有客观标准, 反馈信号太模糊

五、Seedance(50:10)

对字节跳动 Seedance(字节系视频生成模型)的评价:

  • "可能会让 DeepMind 多模态团队有压力,但不是 范式级 的变化。字节在多模态生成上一直相对强,主要是数据和细节做得好。"
  • 猜测原因是 数据,因为多模态算法层面还没根本创新;但他"没在字节工作过,只能瞎猜"。
  • 评价从谷歌跳去字节的吴永辉:"偷偷看过他过去的代码提交和领导项目,他是我见过极少数 资深但技术能力还特别强 的人之一,我还不到评价他的水平。"
  • 中美模型差距:过去一年半 明显在缩小,但是否会完全消失甚至反超,"是个悬而未决的问题"。
  • "中国在实际算力上处于明显劣势,但这个劣势反而催生了一些有趣的东西------ 中国模型公司非常擅长从其他模型蒸馏。"

六、"硬蒸"和"软蒸"(54:30)

回应 Dario Amodei 最近公开指控三家中国公司蒸馏他们模型:

  • "蒸馏本身是公开的秘密。"
  • 他把蒸馏分为两种:
  • "硬蒸"(brute-force distillation) :直接拿 Claude 生成的 token 去强制训练自己的模型。 "商业上不道德,智商上相当蠢------等于承认你连自己要做什么都不知道,只能模仿别人,把 benchmark 数字做得好看些。"
  • "软蒸"(smart distillation) :在自己的数据 pipeline 里用其他模型做助手,或者用其他模型当 evaluator。 "商业上灰色,但技术上其实很有意思------中国实验室可能是 multi-agent 训练领域的先驱:如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统,这才是真正的 multi-agent。"
  • 点名(后期应消音处理):硬蒸某家"之前可能做过,后来逐渐转软蒸"; "蒸得最少的是字节跳动,它的模型仍然非常独特。"
  • 关于豆包:
  • "豆包肯定不如 Gemini 或 Claude 聪明。但 豆包的语音生成真的是世界最好的(直白说就是最好,委婉点说是之一)。"
  • 美国公司为什么不做这种方向? "数据问题 + 用户群差异。美国人更关注生产力,中国人才有那么多'人生问题'要问'豆包'。我自己生活很无聊,没什么有趣的人生问题------日常技术问题问 Gemini 就好。"(笑)
  • 豆包手机:"想法很好,但我不知道技术实现上开销多大------ 不能你让模型帮你订张高铁票,最后花的钱比票本身还贵,那是不能接受的。 "
  • 苹果 AI 策略:" 表面看上去不在乎,其实太在乎了,只是如果太在乎又做不成,就显得自己太蠢。面子问题。 "

七、机器人(1:04:07)

  • 春晚看过演出,还去亚马逊搜过人形机器人价格,"比我想的便宜多了",反映了 中国硬件产业链的优势
  • 但软件侧:"机器人模型还处在 特征工程时代------给定场景,针对这个场景做 RL 优化,每个人都知道怎么做,但泛化能力不强。"
  • "是否具备泛化能力,实际上是 AI 很多方向的分水岭。" 确定性单一场景做好不难,十几年前就能做到;语言模型是在 Transformer / GPT 之后才越过这个阈值------"在一个层面训练就能全面提升所有能力"。机器人还远没到。
  • 参观过 Google DeepMind 自己的机器人实验室和 Physical Intelligence:"实验室比语言模型实验室有趣多了------语言模型实验室就像普通办公室,机器人实验室真的是人工遥控机器人去各种货架取东西。"
  • 机器人目前 连 GPT-1 阶段都没到 ,和多模态生成一样,都 还没找到 scale 的办法

八、在 Underdog 之地赌一把(1:08:45)------成长经历

出生在宁夏大武口(一座因煤矿而生的城市),小学到高中在上海。性格自述:" 我总是喜欢做我不擅长的事情。 "

关键人生选择------高中择校 :他本可以被上海四大名校(上中、华二、交大附中、复旦附中)的普通班录取,但为了进**"稍差一些"的格致中学的竞赛班** 而放弃------ "赤脚的不怕穿鞋的,值得一试。"

参加物理竞赛未能进国家集训队(没拿到保送),后来高考也考不上清华。但命运转折: 高三清华夏令营期间,听说清华对北京学生有独立招生,他当场给清华招生办老师发短信------"你给北京学生考试,凭什么不让上海学生也考?"------争取到考试机会,考过后签了"第一档降分"协议,最终录取清华。

人生最大的经验: "大胆一些。如果你不争取,就永远得不到。即使你争取,也未必能得到。但如果你不争取,就肯定得不到。"

对父母的评价:"中国家长能做到让孩子'讨论'已经不错了, 我一般只是通知他们。我父母最好的地方是,当他们无法理解我在做什么时,他们选择不干涉。"

性格:"在意自己想做的事,别试图阻止我,我会竭尽全力;但我不想做的事,你逼也没用。"、"我更多是和自己竞争,不太愿意和别人竞争------当然如果你也很在乎,那我一定要比你厉害。"

九、非厄米系统与量子物理(1:19:44)

选择凝聚态理论"就是命运的安排"。清华基科班传统是"学生可以做物理以外的事,鼓励早进实验室做研究"------ "基科班三分之二的学生最后都不做物理。"

本科导师是 王中(Zhong Wang) (字幕写作"王忠"),当时还很年轻、学生不多。王中的博士导师是 张首晟(Shoucheng Zhang)(字幕写作"张守成/寿城",斯坦福著名凝聚态物理学家,2018 年去世)。"王老师话不多,但很擅长把问题看清楚。"

非厄米系统工作的通俗讲解(他自己给出的进度条提示:不想听可以跳过):

  • 量子力学的基本假设:孤立系统演化由 Hamiltonian(厄米算符)描述。
  • 现实中绝大多数不是孤立系统(和环境交换粒子/能量), 对应的 Hamiltonian 是非厄米的
  • 他们最初研究开放量子系统的拓扑现象时,发现 解析计算(周期性边界条件)与数值计算(开放边界条件)的结果完全对不上
  • 后来发现:厄米系统的基本范式------ 布洛赫波假设 ------在非厄米系统里 完全崩溃 。非厄米系统的能量本征态 全部会堆积在系统边界 (即后来广为人知的 Non-Hermitian Skin Effect,非厄米趋肤效应)。
  • 他们建立了一整套描述开放边界非厄米系统本征态和动力学的框架------这是**范式级(paradigm shift)**的工作。

为什么没继续做下去?

  • "范式转变很难 catch,已经 catch 了一次就不想再 catch 同一次。"
  • "这是人性的弱点------我总想挑战自己不知道的事。"
  • 现在回头看,"如果当时继续做下去,那工作会成为这个方向上最重要的工作,我会更有名、更多引用、更好的教职;但科研生涯会变得不那么兴奋。"
  • 所以博士阶段转去搞 理论高能物理(量子场论与量子引力),这两个方向"几乎没有任何联系"。

对"挑战难事"的反思: "说得好听点是挑战自己,说得难听点就是自虐。"、"如果一个人只为受虐而受虐,那是心理问题;但如果是为了获得信息、丰富经验和能力,那值得。"

本科学物理最大的收获: "把事情想清楚、做深度阅读、不要过分相信纯理论。"------因为非厄米那个发现本身就源于"数值计算和理论不符,深入追查才找到问题"。

十、高能物理(1:36:27)

承认博士阶段" 对世界没有贡献 ":

  • "高能物理已经发展到实验完全跟不上理论的程度。" 没有客观评判标准,靠"领域里几位老前辈的主观判断"。
  • "人的一生并不长,何必浪费时间为老年人服务。"
  • 五年博士学到的最重要一课: "做事情要有相对客观的评价标准" ,或者说 "做对世界有影响的事"
  • 自我评价:"说实话,我的博士论文没人会说不好,但对世界的影响几乎没有。我个人非常不满意,但也没糟糕到让别人说我偷懒的程度------ 你可以满足所有外部期望,但自己骗不了自己。"
  • 满足小圈子标准 = 训练一个模型: "一旦进了那个小圈子,你知道评价标准是什么,做好很容易,即使你不认同这些标准。"
  • 博士后两三个月实际在伯克利(正式记录只有两周)后离职,伯克利老师很好:"我告诉他们我可能要去做 AI,他们说不急,先把现有工作保住再说。"

十一、物理与 AI(1:43:09)

物理学家做 AI 的优势

  • 硬技能上帮助其实很少。
  • 真正的帮助在 性格 /品味:探究本质、做事系统化(无论实验还是理论方法论)。
  • "这不是物理独有------CS、化学、生物背景的人也有这种特质。"
  • Anthropic 特别多物理出身的人,"主要是联系(connection)------联合创始人里两个技术一把手都是物理背景,于是就招了这类人。但到我加入时,这个惯性已经结束了。"

关于 AI 是不是黑箱

  • "一切都是黑箱,连物理也是。" 我们也不知道最微观层面的动力学。
  • 语言模型还没到"神经外科级别"的理解(除了 Anthropic 的 Interpretability 团队在极小网络上能做)。
  • 但 Scaling Law 已经是 经验定律------"经验定律和科学定律的界限是模糊的。热力学定律最初也是经验定律,后来有了微观机制的理解才变成科学定律。未来 Scaling Law 可能也会这么演化。"
  • "智能涌现"这个词本身不科学 ------"对我来说,这更多是主观感受。真正的质变只有一个: 技术上能 scale 起来,全面提升所有能力。这是我对'涌现'的唯一定义。"

为什么最终选 AI 而不是量子计算?

  • 两者都给年轻人机会,但量子计算 瓶颈在实验平台------"那是我不擅长的,和我兴趣无关的东西很多"。
  • AI 更像 "17 世纪做热力学"------那时候人们甚至还不知道"热"是什么(还相信燃素说),但这并不妨碍做实验、总结出第一定律、第二定律、Clapeyron 方程等经验定律,最终推动热机发明改变世界。
  • "理论物理到实验物理的距离,比理论物理到 AI 还要远。AI 对我来说就是数值实验------有想法,设计实验验证,本质和做物理数值计算没区别。"
  • 对实验物理的敬畏:"大家都知道怎么搭光学平台,有人能搭出来,有人六年搭不出来------这种动手能力我不理解,感觉相当神秘。"

十二、在 Anthropic 训练 Claude 3.7 和 4.5(1:52:32)

入职经过

  • 2024 年 8--9 月,通过前同事联系上 Anthropic(第一个 manager 也是理论物理背景)。
  • 同期也联系了 OpenAI 和 DeepMind------ "DeepMind 当时太慢了,最后是 Anthropic 谈成。" OpenAI 没找到合适位置。
  • 面试前把能自学的课程都过了一遍,手写实现了 Andrej Karpathy 的 nanoGPT。
  • 有两个团队接洽他(评估 vs 强化学习), 他选了更不确定的 RL 方向

当时 Anthropic 的状态

  • 全公司 700--800 人,他加入的 "Horizon" 大团队只有 10--11 人,几乎就是整个后来的 RL 团队前身。
  • 对 Anthropic 的第一印象:"执行力非常强,相对自上而下的公司;人与人之间没有隐瞒,氛围非常好------因为规模小大家都认识。"
  • Anthropic 为什么能自上而下? 因为 技术决策人就是公司联合创始人(Jared Kaplan 和 Sam McCandlish),而且 Dario 与他们互信足够。"其他公司做不到------Ilya 在的时候 OpenAI 或许能,但他后来莫名其妙丧失了决策权,然后就走了。"
  • 他与 Jared Kaplan 合作最多。
  • Anthropic 联合创始人团队 "没有一个离开过","他们是真正并肩战斗过的一群人------Scaling Law 论文、GPT-3 论文都是联名作者(Jared、Sam、Dario、Tom Brown、Benjamin Mann 等)。"------这是很多公司做不到的互信基础。

Claude 3.5 → 3.6 → 3.7

  • "Claude 3.5new 被外界叫 3.6,是因为 Anthropic 早期没产品能力------两个模型都叫一个名字(3.5),后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5new(=3.6)→ 3.7。"
  • Claude 3 发布后 Twitter 上就有人发现它编码比 GPT-4 强; "这是 Anthropic 押注编程的一个信号来源,但最初可能是随机试出来的------纯粹技术原因,先自下而上冒出来,后来自上而下 all-in。"
  • 3.7 是 Anthropic 后训练(post-training)的分水岭:之前 post-training 是"打补丁"模式;3.7 之后才真正大规模 RL。
  • "在我加入时,大家已经知道要做大规模 RL,但不知道具体怎么做。" 2024 年 8--9 月,o1 还没发布,只知道 OpenAI 有个神秘项目叫 Strawberry。
  • 真正的秘诀(他能公开谈的部分): "把简单的事做得比所有人都干净。" RL 最简单的算法是 policy gradient,有很多复杂的算法但会带来 infra 难题; 如何 trade-off 这些 detail 才是真正的 expertise
  • 他的一个重要观察: "很多 trick 其实没用。" 不同公司 sampler 和 trainer 的 numerical 差异依赖各自 infra,所以"你照抄别人的算法不一定有用------算法是整个系统的一部分"。"这就是我为什么不爱回答别人问 Anthropic / Gemini 怎么做------回答会误导他们。"

3.7 → 4.5

  • 他离开时 Anthropic 已经接近 2000 人(比他加入时翻倍以上)。
  • "我赶上了小公司的尾声"------三四个月后公司突然变大,文化开始混乱,"有些从外面进来的人带来和原文化的冲突"。
  • 他不喜欢的人"我觉得 'ideas are cheap'。真正难的是 implementation。我不喜欢那种每天大部分时间泡在 Slack 里谈 grand principles 的人------没什么用。"(笑)

离职原因

  • 主因: 想学不一样的东西。"Anthropic 非常聚焦,只做语言模型相关,不做多模态生成、不太做底层工程和 infra------我想学这些。"
  • 约 40% 原因:不认同 Dario 的反华立场。"作为 CEO 个人他怎么想都可以,但把这种观点推到如此极端,是非常情绪化的反应。"
  • 40% 不是主因,但也不是无关紧要,更不是**"控股股东的原因"**。(笑)
  • 对 Anthropic 未来的看法(离开时): 悲观------"API 卖 token 是门烂生意,价格战会来,只有谷歌能赢(供应链优势)。"但后来证明他太悲观了,Anthropic 在产品层面做得非常好(Claude Code、Cowork 等)。
  • 被问会不会后悔:"不太会。我的动机是换位置学东西。"
  • Claude Code 的诞生: "那几乎是当代少有的、还展现个人英雄主义的时刻。" 创始人 Boris Cherny(字幕译为"鲍里斯·切尔尼")本来只是想给自己和同事提效,最后变成了整个产品。"很可能是和抖音同级别的交互层面变革产品。"

关于"英雄主义已经过去了"

这是贯穿访谈的核心观点之一:

"个人英雄主义在语言模型领域可能已经过去了------也就是 Transformer 那个时刻之后。"

"现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。"

"没有英雄,有时候甚至觉得旧时代的英雄有点蠢。"

"我对任何模型的贡献,我的 statement 永远是:我自己对那件事没那么重要;更多是我很幸运,有机会在那时候加入了一个重要项目,做了一些事。"

他特别指出:编程上 Anthropic 的成功确实还有"公司级英雄主义"(敢不敢赌、赌得够不够快),但模型内部的每个技术细节都是集体的。

对 AI Safety 的批评(非常犀利):

  • Anthropic 成立的初衷是 AI safety,但又要训练前沿模型------Anthropic 自己的解释是"必须做最强的模型才有话语权推动 safety 议程"。
  • **"这个想法非常天真------**现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型,没人能阻止任何事。"
  • 真正的机制类比是 核武器多方持有、互相威慑------"靠一家公司自我立法去规制是不可控的------它只能自我规制,但自我规制等于没规制。"
  • 对 Anthropic 可解释性团队:只在非常稀疏、小的网络上有有趣进展,实用语言模型层面还没达到"神经外科级别"。

十三、"AI 本质是简单的"(2:35:03)

核心命题"AI 本质是简单的。"(他强调这是 statement 不是 conclusion)

解释:

  • 因为你可以做实验。相比物理(能量尺度限制了实验数据),AI 不受这种约束------想做什么实验都能做,只是需要时间扩算力、准备 infra,但没有根本性困难。
  • "AI 不会给人撞墙的感觉,不是因为方法穷尽了,而是因为想法太多了,挨个试不过来。"
  • 未来 6--12 个月 AI 会开始 自己做实验 ------不是只写代码,而是 运行实验 → 分析结果 → 提出新假设 → 设计新代码 → 跑新实验,这条链会逐渐闭合。

十四、在 Google DeepMind 训练 Gemini 3(2:41:10)

加入 DeepMind 的理由

  • 反对那种"研究员离开大厂加入小厂"的惯性------他反其道而行, 因为他当时想要"学更多、更广"
  • "如果你真想把某个想法塞进最终产品模型里,谷歌可能是非常烂的地方;但如果你要的是研究自由、广阔视野,世界上找不到比 Gemini 更强的第二名。"
  • 加入时点(2025 年 9 月底)已经看好 Gemini------Gemini 2.5 那代让业内意识到"Google 正在搞明白"。
  • 他是因为个人联系被挖进去的,双向选择。
  • 为什么没去 OpenAI? "文化让我非常担心。直白说,真正能把事做成的人没 Gemini 那么多,甚至比 Anthropic 还少。"(笑)内部政治斗争也开始显现。
  • xAI: "我不理解。"(笑)"接触过的人后来都走了,我也不知道他们现在怎么样。"

Gemini 3 的转折点

  • Gemini 3 和 Nano Banana 两次叠加才是真正的转折点:Nano Banana 把很多新用户引到 Gemini App,Gemini 3 把他们留住。"只有 Gemini 3 不够------市场份额低于 10% 时,模型再好传播也慢。"
  • Gemini 当前市场份额可能在 20% 左右(他还没精确核查)。
  • "从局外人角度看,是 OpenAI 救了谷歌的命。" 如果 ChatGPT 当时真的完全吞掉了搜索,谷歌就完蛋了;但 OpenAI 做到了"让谷歌意识到重要性,但没做到吞掉搜索",让谷歌得以反扑。
  • Chatbot 为什么没完全吞掉搜索?
  • 搜索有大量"非常蠢"的需求------"我就搜一下在哪买米、哪里点好,不想等聊天机器人转半天最后给个链接还要再点一次。"
  • Chatbot 形态还没达到终点。
  • "聊天机器人凭什么就是终极形态?过了这么多年,居然还只有一个聊天框,我真的觉得很蠢。" ------ "需要一个产品经理来解锁模型的全部能力。"(笑)

谷歌内部发生了什么

  • 外部看到模型性能大跳;内部是 组织逻辑开始清晰
  • 预训练阶段已经有清晰框架------谁负责哪个 node 非常明确(以前非常混乱)。
  • 谷歌 工程管理能力极强 ,预训练已经进入"谷歌的舒适区",能 可控地知道下一代不会坏,甚至能预估好到什么程度
  • Anthropic 走自上而下;谷歌仍然相对自下而上,但比过去更偏自上而下。
  • "不同文化都能 work"------大公司和创业公司的打法本质不同。
  • 谷歌的杀手锏: "找到一个极简的产品表达形式,所有人看起来都一样,然后在技术层面无情地碾压你,你根本竞争不过。" 搜索就是典型例子。
  • OpenAI 的位置: "现在没人的位置是稳固的。" Chatbot 是否是 super app 的终极形态?---"我完全没有理性答案,但感觉事情还没结束。"
  • 对国内"超级应用"叙事的吐槽: "我真的不懂------大家在抢一个 super app,前提是 chatbot 就是 super app 的形态。但我真的觉得 chatbot 很蠢,终极形态凭什么非是这个?"

谷歌的"英雄"

  • 后台的英雄: Sergey Brin("重大决定最终还得他拍板")。
  • 前线的英雄: Koray Kavukcuoglu(Google DeepMind CTO / 谷歌高级副总裁)。
  • Demis Hassabis 更偏科学方向(Isomorphic Labs 等),Gemini 日常他见到最多的是 Koray。

十五、技术预测和组织搭建(3:01:28)

预训练 vs 后训练

  • 纯技术上两者本质区别不大------ 最大区别在数据分布 :预训练要 广 (不需要 quality 特别高);后训练要 窄而精(quality 要求极高)。
  • 不同实验室组织方式:
  • Anthropic / Gemini:pre-train 和 post-train 分两支队伍。
  • OpenAI :更混乱------最早三队(pre-train、RL "Strawberry"、post-train),而且他们的 post-train 本身就是产品团队,"训模型的人也参与产品"。

对"下一个范式转变"的判断

  • 大概率 不是 范式级变化,但对谷歌特别有价值的两件事:
  • 机器学习编码(ML coding):让 AI 能加速 AI 自身的研究闭环------谷歌是 AI 研究最完整平台(硬件 + 连接 + 模型),这件事对谷歌价值巨大。
  • 长远规划 / 长时程(long horizon):每个人都觉得重要。
  • 对实现方向:
  • 预训练侧: sparse attention(稀疏注意力,DeepSeek 和学术界都在做)。
  • 后训练侧:类似 Cursor 那种 外部上下文管理(让模型选择保留或扔掉哪部分)。
  • 两者本质相同------上下文 token 的 KV cache 也是一种权重。
  • "**一万个人有一万种'世界模型'**的定义。Gemini 的世界模型更像端到端训练(条件生成下一刻场景);李飞飞那种是另一回事------我不太懂她们实验室在做什么。"
  • Continual learning(持续学习)和 long horizon 本质没区别。
  • 主要精力在后训练方法(预训练不做正式工作)。
  • "Gemini 在 long context 上的一些技巧真的让我惊讶。"(笑)

AI 人才稀缺性质疑

  • 高薪是因为大家觉得稀缺,但**"可能没那么稀缺------训练一个人不难,只是你需要遇到做这件事的环境。过去有这种机会的人不多,所以市场上相对稀缺。另一方面,可能对某些人的吹捧也过头了,大家特别爱神话某些人。"**

他设计的面试题(可公开)

  • 要求候选人 24 小时从零做一个 RL 项目------自己选模型、数据、算法,然后和他讨论一小时。
  • 两个目的:
  • 看候选人 与 AI 合作的能力 (现在写代码本身不再稀缺)------ 有个陷阱:如果完全把活丢给 AI 自己不理解,讨论一小时就暴露了
  • " 24 小时限制是看他重不重视这个机会------能不能熬夜。不重视的人连这 24 小时都熬不住。 "(笑)"这里面还有些阴暗的小巧思。"

工程 vs 科学

  • "谷歌的预训练现在已经变成 工程项目------自上而下、节点清晰、可评估。这是谷歌的强项。"
  • 后训练不确定性更大,仍是自下而上、每个人尝试不同方法。

组织的核心原则

  • "系统稳固 + 个人英雄不闪耀""允许个人英雄闪耀但系统脆弱" 的 trade-off。
  • 他倾向前者------ "系统不稳固的一个例子就是 OpenAI:一个人走,整个结构就可能塌。"
  • 对自己的要求: "研究员必须为整体考虑,不然不是好研究员。在学术界是'一人吃饱全家不愁';在公司里你要对公司负责------这是两种完全不同的心态。"
  • 他承认:"我可能就是拉不下脸------既然签了合约,我觉得不按合约做没什么道理。"

TPU vs GPU

  • 大规模商业部署上 没有优劣差异。开源生态 GPU 更好,但这对大规模部署不是瓶颈。
  • 设计理念不同:
  • GPU(尤其 Hopper 一代):单 pod 内 NVLink 带宽极高,但 pod 内卡少(8 张)。
  • TPU :放弃卡间两两互联,用 3D Torus 拓扑 把更多卡组成一个大 rack,每张卡只与 3 个最近邻相连。如果编译器/分片写得好, 总内存容量更大、通信瓶颈更少
  • TPU 缺点: 小规模用不灵活、通用性差

对 xAI 的评价

简短、尖锐: "我不理解。他们一直都挺动荡的。"(笑)

十六、集体主义胜利(3:23:33)

对新实验室潮的吐槽

  • 最近硅谷一堆新 AI 实验室:" 绝大多数新实验室会倒闭。 "
  • Thinking Machines 还在持续出新东西;但某些新实验室(后期消音)------ "我完全不知道他们想干嘛,创始人其实已经离开赛场很久了。"

中美路线分化

  • 中美已分道扬镳 。中国优势在 消费侧
  • "中国能想出非常复杂、看起来很不自然的产品结构,让利润滚雪球------抖音你看视频不收 0.2 美元,但偷偷加广告、直播、电商。"
  • 美国这种玩法玩不转------"生产力软件:我帮你写代码,150 成本,200 卖给你,我赚 50,就这么简单。"
  • "Meta 就应该直接抄字节跳动------它又找不到自己的定位,做消费产品的能力又远不如字节。但美国过去十年有个正反馈循环:B2B 太容易赚钱,大家都不想烧脑研究如何赚消费端的钱。"

AI 人工神话

  • "我进这个行业的时候,个人英雄主义时代已经过去了------所以没有英雄。"
  • "没有哪个老登是你的亲戚------所以你觉得他傻,他就是傻,可以直接说他傻,无所谓。"(笑)
  • 为什么敢这么讲?
  • "我在这个行业没有什么导师,没有什么旧友,我当然想喷谁就喷谁。"
  • "这个领域足够客观------ 你在这个领域做得怎么样是有客观评价标准的,最终大家会尊重你。只要你观点自洽、不是乱喷,不用太担心因为观点得罪谁。"
  • 为什么来 AI: "AI 这个事本来也不太需要脑子,真的不太需要脑子。这个行业最重要的特质就是靠谱、做事细、对自己做的事情负责任。" 在物理里,他见过比自己聪明得多的人(比如他的博士导师 Douglas Stanford)------"他在那里,哪还需要我?"
  • 对旧时代 AI"英雄"的评价(点名后期消音,但线索明显):
  • XXX(某位以模糊表述见长的人) "我觉得他一直都挺蠢的" ------" 用 Pauli 的话说,他甚至不能算错,因为他说的东西都没有明确定义------我最讨厌这种模糊的人,模糊的东西没有意义。 "
  • 他愿意承认的英雄:
    • Haldane(霍尔丹,凝聚态物理拓扑态的奠基人)------"他第一次提出 Haldane model 和分数量子霍尔相关的东西,离后来整个领域搞明白拓扑态还隔了几十年,但他当时就能感觉到这件事重要,一直推动。"
    • Geoffrey Hinton(字幕译为"杰弗里·辛顿")------"在大家都觉得 AI 这条路不确定时,他一直朝这个方向。这或许是英雄级别的人物。"
    • Transformer 集体(Noam Shazeer、Ashish Vaswani、Niki Parmar 等)------"这可能是一个英雄集体。"
  • 对"老登"(中文网络对守旧老年男性的贬称)的态度:
  • "大多数老登其实挺好的------人老了会分成两种:一种是德高望重、不再挑刺、真正指导年轻人;另一种是根本不知道自己在说什么,还特别爱挑刺和对人指手画脚。变老不一定就是老登。 "
  • 他不是一开始就这么直接的------"学生时代比较克制,但后来发现克制对自己没好处,对别人也没好处。进 AI 之后变得更直接------没有任何东西会阻挡我,而且这个领域足够客观。"

给年轻人的建议

  • 纯语言模型方向: "蓝海已经不是蓝海了,我赶上了末班车。"
  • 但 AI 是非常大的领域------ 多模态生成、机器人、用 AI 解决实际科学问题(如量子控制)都还是蓝海。
  • "对足够年轻的人,做现在最热的事未必是对的;做没人做的事,可能是更好的选择。"

关于自己的未来

  • 不会在谷歌长留("如此公开地表达这一点------我觉得可能不会。")。
  • "我还是会去挑战自己,需要折磨自己,只是得先找到值得折磨自己的东西。"
  • 不太可能再跳大厂;也没想做 AI for Physics------"很多人已经在做,多我一个不多,少我一个不少。"
  • 当前首要任务:把 ML coding 和 long horizon 推到相对稳定的状态。

推荐

  • 改变人生的书: "说实话我没有。" 最近读的是 汤川秀树(Hideki Yukawa,1949 年诺贝尔物理学奖)自传《旅人》(Tabibito)------"能看到一位后来非常成功的科学家,年轻时真实的挣扎。"
  • 休闲读物: 《来自新世界》(贵志佑介,日本小说)。
  • 最喜欢的地方: 夏威夷(因为喜欢大海)。
  • 食物:寿司。
  • 他认为最有影响力的 AI 论文:
  • Seq2Seq
  • Scaling Law 论文(Jared Kaplan 等 OpenAI 那篇)------"虽然具体方法可能不完全对,但它是第一篇把这种系统性研究方法引入领域的论文,至关重要。"
  • MBTI? "不知道。"

最后一问:"关键的赌注是什么?"

"Long horizon.(长时程)"

补充:几个交叉验证与背景注释

  1. 离职 Anthropic 原因的对照 :姚顺宇在个人博客(alfredyao.github.io)的说法与访谈一致------强调"不想让自己的经验被特定实验室局限,尤其现在核心研究很少发表论文"。访谈中他直接说出 约 40% 是反对 Dario 反华立场,这在其博客和 36kr、新智元等公开报道中也有交叉证据。

  2. 参与的模型的可靠性:36kr 报道证实他参与了 Claude 3.7(agentic coding)和 Claude 4 family(RL numerics);Gemini 3 Deep Think 的参与也有谷歌自家公告确认。

  3. 非厄米趋肤效应:访谈中他描述的"周期/开放边界结果完全对不上、本征态全部堆积在边界"正是 PRL 论文

    Edge States and Topological Invariants of Non-Hermitian Systems

    (Yao & Wang 2018)的核心发现,与本人描述完全吻合------字幕里的"王忠"实为 王中(Zhong Wang)张守成 /寿城实为张首晟(Shoucheng Zhang)

  4. 博士导师:Douglas Stanford 和 Stephen Shenker 是 Stanford Institute for Theoretical Physics 的顶级高能/量子引力学家,访谈中他特别说 Douglas Stanford "比我聪明得多"------是真诚的敬畏。

  5. "Claude 3.6 其实是 3.5 new":这点与 Anthropic 官方命名历史一致,外部社区确实因 Claude 3.5 出了两个版本而自发叫后者"3.6"。

  6. 节目录制时间(2026 年 3 月)与发布时间(2026 年 5 月)之间 已发生:Meta 对 Manus 收购被撤销、Cursor 可能被 SpaceX 收购、xAI 并入 SpaceX------文中相关表述按录制时状态保留,访谈中嘉宾对 xAI 的吐槽("一直挺动荡")反而被事态坐实。

核心观点速览

维度

姚顺宇的判断

预训练

远没到头,过去几个月一直在变强;觉得撞墙多半是代码 bug 没找到

后训练

真正大规模化始于 Claude 3.7;关键在数据分布是窄而精

Coding

爆发源于奖励信号清晰 + GitHub 数据基座;已是 AI-native 唯一大规模成功场景

机器人 / 多模态生成

都还没到 GPT-1 阶段,还在特征工程时代

Chatbot 形态

蠢,远不是终极形态,需要产品经理解锁

Wrapper 生存

要么成长够快(Cursor),要么市场够小(Midjourney);否则都被收购

AI 安全

Anthropic 的"造最强模型才有话语权"太天真;真正的机制类比是核武器多方威慑

蒸馏

硬蒸可耻且蠢;软蒸是 multi-agent 训练的先驱,技术上有趣

组织

系统稳固 > 个人英雄闪耀;OpenAI 是反例

英雄主义

语言模型领域已经过去;现在都是冲浪者,本质是那个浪

AI 本质

简单------因为可以做实验,受限的只是算力和 infra,无根本困难

给年轻人

语言模型蓝海已过;做没人做的事

个人风格

直接、可以喷人、"老登不是你亲戚"、拒绝模糊表述

相关推荐
小旭Coding1 分钟前
卧靠!Go 传给前端的 int64 竟然变成了这个?
后端
用户298698530142 分钟前
Word 文档文本查找与替换的 Java 实现方案
java·后端
kunge20135 分钟前
深度剖析Claude Code 的CLAUDE.md加载逻辑
后端·vibecoding
米沙AI6 分钟前
MSYS2 快速使用版本
后端
武子康8 分钟前
调查研究-196 CEO-Bench:Agent 不再只是“做任务“,而是要学会“经营一个系统“
人工智能
用户3299016750512 分钟前
把AI返回的Markdown表格渲染成可排序表格
人工智能
还好还好不是吗14 分钟前
MatrixMedia HTTP 发布接口:让 AI 工作流直接驱动多平台视频发布
人工智能
Csvn15 分钟前
Docker 进阶 — 网络模型、数据持久化与多阶段构建
后端
贵慜_Derek16 分钟前
复杂系统没法一把梭重构:Semi-Autoresearch 怎么小步迁移还不掉功能
人工智能·agent·ai编程