看了一下姚顺宇的访谈，确实太顶了。

看了一下张小珺对姚顺宇播客的访谈，收获非常大。

4 个小时的时长，放在现在来说能好好听完的人想必也不多。

于是我就把重点给大家罗列了出来。

不得不说这种播客的方式，虽然时间长，但确实能学到很多东西，这也是老外很喜欢的一种形式。

关于嘉宾身份的重要澄清

硅谷 AI 圈有 两位清华同届毕业、英文都叫 Shunyu Yao 的研究者，中文媒体常混淆：

姚顺雨（另一位）

姚顺宇（本期嘉宾）

本科

清华姚班（计算机）

清华物理系（基科班/学堂物理班）

博士

Princeton（NLP）

Stanford（理论物理）

代表作

ReAct、Tree of Thoughts、《AI 下半场》

Non-Hermitian Skin Effect（非厄米趋肤效应）、Scramblon 理论

路径

OpenAI → 腾讯首席 AI 科学家（2025）

Anthropic → Google DeepMind（2025）

本期嘉宾姚顺宇的公开履历校核：

2015--2019 清华物理系本科，特等奖学金 + 叶企孙物理奖
本科期间 3 篇顶刊（2 篇 PRL + 1 篇 PRB），第一作者与清华王中合作提出 非厄米系统拓扑能带理论新方法
2019--2024 斯坦福大学理论与数学物理博士，导师 Douglas Stanford 与 Stephen Shenker，研究量子场论与量子引力动力学
短暂加入伯克利做博士后（正式两周，节目中他说实际待了两三个月）
2024 年 10 月 加入 Anthropic，从事强化学习方向，参与 Claude 3.7、4、4.5 的训练
2025 年 9 月 19 日 从 Anthropic 离职， 9 月 29 日 加入 Google DeepMind，Senior Staff Research Scientist
参与 Gemini 3、Gemini 3 Deep Think、Gemini 3.1 Pro 的开发

字幕中所有"顺宇"与"舜宇"、"Anthropic"被译为"人类学/人本主义/人形生物/人为因素/人猿科技/安特罗皮克"等均为同一指代；"双子座/双子星"即 Gemini。

一、两个 Shunyu Yao（01:26）

姚顺宇主动介绍另一位姚顺雨："我们的主要职业发展道路有一些重叠，所以看起来可能很难把我们区分开来。"他强调两人最大区别是： 另一位从一开始就做计算机科学，而自己是物理出身，只是"某种意义上走到了这一步"。

两人清华本科同届（姚顺雨在姚班，他在基科班），研究生一个去了 Princeton，一个去了 Stanford------"很奇怪，全世界都觉得 Stanford 是 CS 圣地，Princeton 才是物理圣地，我们俩恰好反着来。"

两人在硅谷时每几周见一次，主要就是"瞎玩"------散步、吃饭、打扑克。
对于另一位姚顺雨提出的 "AI 进入下半场"，姚顺宇坦言："我一直不太懂上半场、下半场什么意思，这个定义我始终没搞清。"
他自己的阶段定义是： "大家开始不再那么担心一件事，AI 能不能做到这个问题本身是不是定义明确，这是最大的变化。" 一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力；现在 Gemini、OpenAI、Anthropic 三家没谁真担心"赶不上进度"了------ 难的是想清楚到底该做什么。
模型同质化、商品化了，纸面（benchmark）上差距缩到 1--2 个百分点， "大部分是噪声，不是信号"，真正的差异只在实际用户体验里：Claude 工具使用最强，Codex 最近追平，Gemini 日常推理更好、智能体编码还在追赶。

二、竞争与逃逸（07:15）

关于 OpenClaw（字幕原文，疑为某款 2026 年初爆火的智能体 Wrapper 产品）的产品判断：

"圈内人其实不紧张。圈外比圈内紧张。"他认为 OpenClaw 没有证明什么新东西------Claude 4.5 Opus 发布时，工具使用能力已经领先 OpenAI 和 Gemini 3，只是当时没人包装成产品。
Manus 被 Meta 收购（注：节目录制后该收购已被撤销）、OpenClaw 被 OpenAI 收购 ，这说明"包装层"目前还无法摆脱模型公司的控制------ "逃逸速度不够"。
Wrapper 要活下来只有两条路：
"成长够快"（Cursor 的打法）------在模型公司反应过来前占据足够用户心智，并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系"已经到了非常微妙的阶段"，Cursor 在训自己的 Composer，双方从亲密伙伴变成竞争对手。
"市场小到模型公司看不上"（Midjourney 的打法）------"有损 Gemini 尊严的"那种细分市场。
被问到 Lovart 是否算："我觉得他们有机会。"
对 2026 年的预测 ：模型应当实现 "训练时有限上下文，使用时无限上下文"（train with finite context, use with infinite context）------模型边和你持续交互边判断、丢弃不重要信息，成为真正的私人助理。今年肯定能做到，但有多条技术路径，还要实验验证。
关于 Meta 收购 Manus：他"没完全想明白"，猜测最大好处是拿到一个 强大的亚洲产品团队，"中国在产品端比美国更有天赋"；但 Meta 为什么自己做不出这种产品？他也没想清楚。

三、"Pre-train 没有到头"（25:22）

这是他最反主流的判断之一。

"2026 年第一季度，模型改进速度完全没有放缓。"
他拒绝用 benchmark 增长来衡量："benchmark 是定义在 $0, 100$ 里的，越接近 100 增长当然越慢，但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。"
他的判断基于研究者的体感： 模型越来越容易学------过去要花很大力气教会模型一件事，现在只要问题定义清楚 + 数据/环境构建对，模型几乎"自动就会"。
预训练（pre-training）过去几个月一直在变强。"几个月前很多人说 Scaling Law 撞墙了，我的经验是没撞墙，接下来四个月也看不到到头的迹象。"
为什么有人觉得撞墙了？他给出三种可能，并直指第三条最常见：
觉得这个范式本身到头了（可能但只是猜测）
觉得数据等条件不再满足
"他们自己的工作里有 bug，但没意识到------我观察到绝大多数'撞墙'的人属于这一类。" 修一个 bug 带来的进步，往往比花哨的技巧多得多。
遇到撞墙应该是 心态问题：相信问题可解，就会系统性地做消融实验排查------"Gemini 和 Anthropic 在这件事上都做得很好。"
当前主驱动： 数据和算力（二者强相关）。算法更像阶段性跃迁（如 Transformer），之后是渐进提效。
"在相对清晰的范式（pre-train / post-train）内，主驱动是数据和算力。多模态生成算法还没收敛，仍是 科学问题；但自然语言生成已经不是科学问题，只剩工程问题。"
"如果我估一个时间线，接下来四个月还会有进步。但 AI 领域谁也没法预测四个月以后。"
谁在兴奋？" 做产品的人兴奋于 OpenClaw，做模型的人兴奋于模型进展。Anthropic 和 Gemini 里的人更多在想：AI 很快会把我们取代，我们接下来该干嘛------而不是担心撞墙。"

四、Coding 的爆发（35:08）

为什么编程领域这一年半发展最快？他认为有两大结构性优势：

奖励信号（reward signal）定义清晰：SWE 任务天然可测，输入输出一匹配就是成功。
数据基座天然存在：GitHub 几十年沉淀了海量高质量代码，构建环境非常方便。

从产品角度，编码还有一个独特性： 好程序员写的代码风格高度相似（简洁、结构清晰、易扩展、抽象合理），所以不需要像社交/游戏那种推荐算法去适应每个用户的口味------这大大简化了产品形态。

他自己的代码产出中 90% 以上由模型生成（保守估计，实际可能 99%）；但他花大量时间审 review 代码。"AI 辅助之后，最重要的变成了如何设计它、如何给它合适的 context。"
被问谷歌允不允许用 Claude Code："你这个问题差点让我丢工作了------谷歌不允许用 Claude Code。"（笑）
工作效率提升 20--50 倍（相比一年半前），但他的工作时间反而更长："因为能试的想法更多了，以前要等同事几小时才能搞懂一个文件，现在问 Claude 或 Gemini 5 秒就行。"
对谷歌文化的吐槽： "谷歌已经不是那个沿岸划船（coast along）的谷歌了。GenAI 里没人摸鱼，除非你对技术彻底失去兴趣。" 他自己每天 9 点起查邮件和夜间实验，10 点到办公室，单身时干到 10--11 点，妻子在也会带回家干。
下一个 Coding 级别的爆发点？ "如果我看得清，我早就去创业了。" （笑）除了编程，其他方向市场都不够大------AIGC 市场受限于"人一天只有 24 小时"；最可能的大市场候选是 交互式教育，但也远小于编程。
关于程序员的未来：AI 最终会取代程序员，但是渐进过程； "AI 是高度集中化的技术，让少数人更强，让大多数人失去独特价值"；传统软件工程的终局可能是**"千分之一的人做完所有人的活，拿 100 倍的工资"**。"千分之一只是个比喻数字，也可能是万分之一或十万分之一......别太悲观，我是著名的悲观主义者。"
活下来的那群程序员特征： 技术强（充分不必要条件）+ 理解自己在大组织中的定位 + 规划能力强（能把复杂事切成小块分发给不同 AI）。
AI 研究本身是淘金热还是科学革命？ "都有" 。他说训练 AI 产品经理目前不太可能------因为"什么是好产品"没有客观标准， 反馈信号太模糊。

五、Seedance（50:10）

对字节跳动 Seedance（字节系视频生成模型）的评价：

"可能会让 DeepMind 多模态团队有压力，但不是 范式级 的变化。字节在多模态生成上一直相对强，主要是数据和细节做得好。"
猜测原因是数据，因为多模态算法层面还没根本创新；但他"没在字节工作过，只能瞎猜"。
评价从谷歌跳去字节的吴永辉："偷偷看过他过去的代码提交和领导项目，他是我见过极少数 资深但技术能力还特别强 的人之一，我还不到评价他的水平。"
中美模型差距：过去一年半 明显在缩小，但是否会完全消失甚至反超，"是个悬而未决的问题"。
"中国在实际算力上处于明显劣势，但这个劣势反而催生了一些有趣的东西------ 中国模型公司非常擅长从其他模型蒸馏。"

六、"硬蒸"和"软蒸"（54:30）

回应 Dario Amodei 最近公开指控三家中国公司蒸馏他们模型：

"蒸馏本身是公开的秘密。"
他把蒸馏分为两种：
"硬蒸"（brute-force distillation） ：直接拿 Claude 生成的 token 去强制训练自己的模型。 "商业上不道德，智商上相当蠢------等于承认你连自己要做什么都不知道，只能模仿别人，把 benchmark 数字做得好看些。"
"软蒸"（smart distillation） ：在自己的数据 pipeline 里用其他模型做助手，或者用其他模型当 evaluator。 "商业上灰色，但技术上其实很有意思------中国实验室可能是 multi-agent 训练领域的先驱：如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统，这才是真正的 multi-agent。"
点名（后期应消音处理）：硬蒸某家"之前可能做过，后来逐渐转软蒸"； "蒸得最少的是字节跳动，它的模型仍然非常独特。"
关于豆包：
"豆包肯定不如 Gemini 或 Claude 聪明。但 豆包的语音生成真的是世界最好的（直白说就是最好，委婉点说是之一）。"
美国公司为什么不做这种方向？ "数据问题 + 用户群差异。美国人更关注生产力，中国人才有那么多'人生问题'要问'豆包'。我自己生活很无聊，没什么有趣的人生问题------日常技术问题问 Gemini 就好。"（笑）
豆包手机："想法很好，但我不知道技术实现上开销多大------ 不能你让模型帮你订张高铁票，最后花的钱比票本身还贵，那是不能接受的。 "
苹果 AI 策略：" 表面看上去不在乎，其实太在乎了，只是如果太在乎又做不成，就显得自己太蠢。面子问题。 "

七、机器人（1:04:07）

春晚看过演出，还去亚马逊搜过人形机器人价格，"比我想的便宜多了"，反映了 中国硬件产业链的优势。
但软件侧："机器人模型还处在 特征工程时代------给定场景，针对这个场景做 RL 优化，每个人都知道怎么做，但泛化能力不强。"
"是否具备泛化能力，实际上是 AI 很多方向的分水岭。" 确定性单一场景做好不难，十几年前就能做到；语言模型是在 Transformer / GPT 之后才越过这个阈值------"在一个层面训练就能全面提升所有能力"。机器人还远没到。
参观过 Google DeepMind 自己的机器人实验室和 Physical Intelligence："实验室比语言模型实验室有趣多了------语言模型实验室就像普通办公室，机器人实验室真的是人工遥控机器人去各种货架取东西。"
机器人目前 连 GPT-1 阶段都没到 ，和多模态生成一样，都 还没找到 scale 的办法。

八、在 Underdog 之地赌一把（1:08:45）------成长经历

出生在宁夏大武口（一座因煤矿而生的城市），小学到高中在上海。性格自述：" 我总是喜欢做我不擅长的事情。 "

关键人生选择------高中择校 ：他本可以被上海四大名校（上中、华二、交大附中、复旦附中）的普通班录取，但为了进**"稍差一些"的格致中学的竞赛班** 而放弃------ "赤脚的不怕穿鞋的，值得一试。"

参加物理竞赛未能进国家集训队（没拿到保送），后来高考也考不上清华。但命运转折： 高三清华夏令营期间，听说清华对北京学生有独立招生，他当场给清华招生办老师发短信------"你给北京学生考试，凭什么不让上海学生也考？"------争取到考试机会，考过后签了"第一档降分"协议，最终录取清华。

人生最大的经验： "大胆一些。如果你不争取，就永远得不到。即使你争取，也未必能得到。但如果你不争取，就肯定得不到。"

对父母的评价："中国家长能做到让孩子'讨论'已经不错了， 我一般只是通知他们。我父母最好的地方是，当他们无法理解我在做什么时，他们选择不干涉。"

性格："在意自己想做的事，别试图阻止我，我会竭尽全力；但我不想做的事，你逼也没用。"、"我更多是和自己竞争，不太愿意和别人竞争------当然如果你也很在乎，那我一定要比你厉害。"

九、非厄米系统与量子物理（1:19:44）

选择凝聚态理论"就是命运的安排"。清华基科班传统是"学生可以做物理以外的事，鼓励早进实验室做研究"------ "基科班三分之二的学生最后都不做物理。"

本科导师是 王中（Zhong Wang） （字幕写作"王忠"），当时还很年轻、学生不多。王中的博士导师是 张首晟（Shoucheng Zhang）（字幕写作"张守成/寿城"，斯坦福著名凝聚态物理学家，2018 年去世）。"王老师话不多，但很擅长把问题看清楚。"

非厄米系统工作的通俗讲解（他自己给出的进度条提示：不想听可以跳过）：

量子力学的基本假设：孤立系统演化由 Hamiltonian（厄米算符）描述。
现实中绝大多数不是孤立系统（和环境交换粒子/能量）， 对应的 Hamiltonian 是非厄米的。
他们最初研究开放量子系统的拓扑现象时，发现 解析计算（周期性边界条件）与数值计算（开放边界条件）的结果完全对不上。
后来发现：厄米系统的基本范式------ 布洛赫波假设 ------在非厄米系统里 完全崩溃 。非厄米系统的能量本征态 全部会堆积在系统边界 （即后来广为人知的 Non-Hermitian Skin Effect，非厄米趋肤效应）。
他们建立了一整套描述开放边界非厄米系统本征态和动力学的框架------这是**范式级（paradigm shift）**的工作。

为什么没继续做下去？

"范式转变很难 catch，已经 catch 了一次就不想再 catch 同一次。"
"这是人性的弱点------我总想挑战自己不知道的事。"
现在回头看，"如果当时继续做下去，那工作会成为这个方向上最重要的工作，我会更有名、更多引用、更好的教职；但科研生涯会变得不那么兴奋。"
所以博士阶段转去搞 理论高能物理（量子场论与量子引力），这两个方向"几乎没有任何联系"。

对"挑战难事"的反思： "说得好听点是挑战自己，说得难听点就是自虐。"、"如果一个人只为受虐而受虐，那是心理问题；但如果是为了获得信息、丰富经验和能力，那值得。"

本科学物理最大的收获： "把事情想清楚、做深度阅读、不要过分相信纯理论。"------因为非厄米那个发现本身就源于"数值计算和理论不符，深入追查才找到问题"。

十、高能物理（1:36:27）

承认博士阶段" 对世界没有贡献 "：

"高能物理已经发展到实验完全跟不上理论的程度。" 没有客观评判标准，靠"领域里几位老前辈的主观判断"。
"人的一生并不长，何必浪费时间为老年人服务。"
五年博士学到的最重要一课： "做事情要有相对客观的评价标准" ，或者说 "做对世界有影响的事"。
自我评价："说实话，我的博士论文没人会说不好，但对世界的影响几乎没有。我个人非常不满意，但也没糟糕到让别人说我偷懒的程度------ 你可以满足所有外部期望，但自己骗不了自己。"
满足小圈子标准 = 训练一个模型： "一旦进了那个小圈子，你知道评价标准是什么，做好很容易，即使你不认同这些标准。"
博士后两三个月实际在伯克利（正式记录只有两周）后离职，伯克利老师很好："我告诉他们我可能要去做 AI，他们说不急，先把现有工作保住再说。"

十一、物理与 AI（1:43:09）

物理学家做 AI 的优势：

硬技能上帮助其实很少。
真正的帮助在 性格 /品味：探究本质、做事系统化（无论实验还是理论方法论）。
但 "这不是物理独有------CS、化学、生物背景的人也有这种特质。"
Anthropic 特别多物理出身的人，"主要是联系（connection）------联合创始人里两个技术一把手都是物理背景，于是就招了这类人。但到我加入时，这个惯性已经结束了。"

关于 AI 是不是黑箱：

"一切都是黑箱，连物理也是。" 我们也不知道最微观层面的动力学。
语言模型还没到"神经外科级别"的理解（除了 Anthropic 的 Interpretability 团队在极小网络上能做）。
但 Scaling Law 已经是 经验定律------"经验定律和科学定律的界限是模糊的。热力学定律最初也是经验定律，后来有了微观机制的理解才变成科学定律。未来 Scaling Law 可能也会这么演化。"
"智能涌现"这个词本身不科学 ------"对我来说，这更多是主观感受。真正的质变只有一个： 技术上能 scale 起来，全面提升所有能力。这是我对'涌现'的唯一定义。"

为什么最终选 AI 而不是量子计算？

两者都给年轻人机会，但量子计算 瓶颈在实验平台------"那是我不擅长的，和我兴趣无关的东西很多"。
AI 更像 "17 世纪做热力学"------那时候人们甚至还不知道"热"是什么（还相信燃素说），但这并不妨碍做实验、总结出第一定律、第二定律、Clapeyron 方程等经验定律，最终推动热机发明改变世界。
"理论物理到实验物理的距离，比理论物理到 AI 还要远。AI 对我来说就是数值实验------有想法，设计实验验证，本质和做物理数值计算没区别。"
对实验物理的敬畏："大家都知道怎么搭光学平台，有人能搭出来，有人六年搭不出来------这种动手能力我不理解，感觉相当神秘。"

十二、在 Anthropic 训练 Claude 3.7 和 4.5（1:52:32）

入职经过

2024 年 8--9 月，通过前同事联系上 Anthropic（第一个 manager 也是理论物理背景）。
同期也联系了 OpenAI 和 DeepMind------ "DeepMind 当时太慢了，最后是 Anthropic 谈成。" OpenAI 没找到合适位置。
面试前把能自学的课程都过了一遍，手写实现了 Andrej Karpathy 的 nanoGPT。
有两个团队接洽他（评估 vs 强化学习）， 他选了更不确定的 RL 方向。

当时 Anthropic 的状态

全公司 700--800 人，他加入的 "Horizon" 大团队只有 10--11 人，几乎就是整个后来的 RL 团队前身。
对 Anthropic 的第一印象："执行力非常强，相对自上而下的公司；人与人之间没有隐瞒，氛围非常好------因为规模小大家都认识。"
Anthropic 为什么能自上而下？ 因为 技术决策人就是公司联合创始人（Jared Kaplan 和 Sam McCandlish），而且 Dario 与他们互信足够。"其他公司做不到------Ilya 在的时候 OpenAI 或许能，但他后来莫名其妙丧失了决策权，然后就走了。"
他与 Jared Kaplan 合作最多。
Anthropic 联合创始人团队 "没有一个离开过"，"他们是真正并肩战斗过的一群人------Scaling Law 论文、GPT-3 论文都是联名作者（Jared、Sam、Dario、Tom Brown、Benjamin Mann 等）。"------这是很多公司做不到的互信基础。

Claude 3.5 → 3.6 → 3.7

"Claude 3.5new 被外界叫 3.6，是因为 Anthropic 早期没产品能力------两个模型都叫一个名字（3.5），后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5new（=3.6）→ 3.7。"
Claude 3 发布后 Twitter 上就有人发现它编码比 GPT-4 强； "这是 Anthropic 押注编程的一个信号来源，但最初可能是随机试出来的------纯粹技术原因，先自下而上冒出来，后来自上而下 all-in。"
3.7 是 Anthropic 后训练（post-training）的分水岭：之前 post-training 是"打补丁"模式；3.7 之后才真正大规模 RL。
"在我加入时，大家已经知道要做大规模 RL，但不知道具体怎么做。" 2024 年 8--9 月，o1 还没发布，只知道 OpenAI 有个神秘项目叫 Strawberry。
真正的秘诀（他能公开谈的部分）： "把简单的事做得比所有人都干净。" RL 最简单的算法是 policy gradient，有很多复杂的算法但会带来 infra 难题； 如何 trade-off 这些 detail 才是真正的 expertise。
他的一个重要观察： "很多 trick 其实没用。" 不同公司 sampler 和 trainer 的 numerical 差异依赖各自 infra，所以"你照抄别人的算法不一定有用------算法是整个系统的一部分"。"这就是我为什么不爱回答别人问 Anthropic / Gemini 怎么做------回答会误导他们。"

3.7 → 4.5

他离开时 Anthropic 已经接近 2000 人（比他加入时翻倍以上）。
"我赶上了小公司的尾声"------三四个月后公司突然变大，文化开始混乱，"有些从外面进来的人带来和原文化的冲突"。
他不喜欢的人 ： "我觉得 'ideas are cheap'。真正难的是 implementation。我不喜欢那种每天大部分时间泡在 Slack 里谈 grand principles 的人------没什么用。"（笑）

离职原因

主因： 想学不一样的东西。"Anthropic 非常聚焦，只做语言模型相关，不做多模态生成、不太做底层工程和 infra------我想学这些。"
约 40% 原因：不认同 Dario 的反华立场。"作为 CEO 个人他怎么想都可以，但把这种观点推到如此极端，是非常情绪化的反应。"
40% 不是主因，但也不是无关紧要，更不是**"控股股东的原因"**。（笑）
对 Anthropic 未来的看法（离开时）：悲观------"API 卖 token 是门烂生意，价格战会来，只有谷歌能赢（供应链优势）。"但后来证明他太悲观了，Anthropic 在产品层面做得非常好（Claude Code、Cowork 等）。
被问会不会后悔："不太会。我的动机是换位置学东西。"
Claude Code 的诞生： "那几乎是当代少有的、还展现个人英雄主义的时刻。" 创始人 Boris Cherny（字幕译为"鲍里斯·切尔尼"）本来只是想给自己和同事提效，最后变成了整个产品。"很可能是和抖音同级别的交互层面变革产品。"

关于"英雄主义已经过去了"

这是贯穿访谈的核心观点之一：

"个人英雄主义在语言模型领域可能已经过去了------也就是 Transformer 那个时刻之后。"

"现在大家都是冲浪的人，本质上是那个浪，而不是你那个冲浪的人。"

"没有英雄，有时候甚至觉得旧时代的英雄有点蠢。"

"我对任何模型的贡献，我的 statement 永远是：我自己对那件事没那么重要；更多是我很幸运，有机会在那时候加入了一个重要项目，做了一些事。"

他特别指出：编程上 Anthropic 的成功确实还有"公司级英雄主义"（敢不敢赌、赌得够不够快），但模型内部的每个技术细节都是集体的。

对 AI Safety 的批评（非常犀利）：

Anthropic 成立的初衷是 AI safety，但又要训练前沿模型------Anthropic 自己的解释是"必须做最强的模型才有话语权推动 safety 议程"。
**"这个想法非常天真------**现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型，没人能阻止任何事。"
真正的机制类比是 核武器 ： 多方持有、互相威慑------"靠一家公司自我立法去规制是不可控的------它只能自我规制，但自我规制等于没规制。"
对 Anthropic 可解释性团队：只在非常稀疏、小的网络上有有趣进展，实用语言模型层面还没达到"神经外科级别"。

十三、"AI 本质是简单的"（2:35:03）

核心命题 ： "AI 本质是简单的。"（他强调这是 statement 不是 conclusion）

解释：

因为你可以做实验。相比物理（能量尺度限制了实验数据），AI 不受这种约束------想做什么实验都能做，只是需要时间扩算力、准备 infra，但没有根本性困难。
"AI 不会给人撞墙的感觉，不是因为方法穷尽了，而是因为想法太多了，挨个试不过来。"
未来 6--12 个月 AI 会开始 自己做实验 ------不是只写代码，而是 运行实验 → 分析结果 → 提出新假设 → 设计新代码 → 跑新实验，这条链会逐渐闭合。

十四、在 Google DeepMind 训练 Gemini 3（2:41:10）

加入 DeepMind 的理由

反对那种"研究员离开大厂加入小厂"的惯性------他反其道而行， 因为他当时想要"学更多、更广"。
"如果你真想把某个想法塞进最终产品模型里，谷歌可能是非常烂的地方；但如果你要的是研究自由、广阔视野，世界上找不到比 Gemini 更强的第二名。"
加入时点（2025 年 9 月底）已经看好 Gemini------Gemini 2.5 那代让业内意识到"Google 正在搞明白"。
他是因为个人联系被挖进去的，双向选择。
为什么没去 OpenAI？ "文化让我非常担心。直白说，真正能把事做成的人没 Gemini 那么多，甚至比 Anthropic 还少。"（笑）内部政治斗争也开始显现。
xAI： "我不理解。"（笑）"接触过的人后来都走了，我也不知道他们现在怎么样。"

Gemini 3 的转折点

Gemini 3 和 Nano Banana 两次叠加才是真正的转折点：Nano Banana 把很多新用户引到 Gemini App，Gemini 3 把他们留住。"只有 Gemini 3 不够------市场份额低于 10% 时，模型再好传播也慢。"
Gemini 当前市场份额可能在 20% 左右（他还没精确核查）。
"从局外人角度看，是 OpenAI 救了谷歌的命。" 如果 ChatGPT 当时真的完全吞掉了搜索，谷歌就完蛋了；但 OpenAI 做到了"让谷歌意识到重要性，但没做到吞掉搜索"，让谷歌得以反扑。
Chatbot 为什么没完全吞掉搜索？
搜索有大量"非常蠢"的需求------"我就搜一下在哪买米、哪里点好，不想等聊天机器人转半天最后给个链接还要再点一次。"
Chatbot 形态还没达到终点。
"聊天机器人凭什么就是终极形态？过了这么多年，居然还只有一个聊天框，我真的觉得很蠢。" ------ "需要一个产品经理来解锁模型的全部能力。"（笑）

谷歌内部发生了什么

外部看到模型性能大跳；内部是 组织逻辑开始清晰：
预训练阶段已经有清晰框架------谁负责哪个 node 非常明确（以前非常混乱）。
谷歌 工程管理能力极强 ，预训练已经进入"谷歌的舒适区"，能 可控地知道下一代不会坏，甚至能预估好到什么程度。
Anthropic 走自上而下；谷歌仍然相对自下而上，但比过去更偏自上而下。
"不同文化都能 work"------大公司和创业公司的打法本质不同。
谷歌的杀手锏： "找到一个极简的产品表达形式，所有人看起来都一样，然后在技术层面无情地碾压你，你根本竞争不过。" 搜索就是典型例子。
OpenAI 的位置： "现在没人的位置是稳固的。" Chatbot 是否是 super app 的终极形态？---"我完全没有理性答案，但感觉事情还没结束。"
对国内"超级应用"叙事的吐槽： "我真的不懂------大家在抢一个 super app，前提是 chatbot 就是 super app 的形态。但我真的觉得 chatbot 很蠢，终极形态凭什么非是这个？"

谷歌的"英雄"

后台的英雄： Sergey Brin（"重大决定最终还得他拍板"）。
前线的英雄： Koray Kavukcuoglu（Google DeepMind CTO / 谷歌高级副总裁）。
Demis Hassabis 更偏科学方向（Isomorphic Labs 等），Gemini 日常他见到最多的是 Koray。

十五、技术预测和组织搭建（3:01:28）

预训练 vs 后训练

纯技术上两者本质区别不大------ 最大区别在数据分布 ：预训练要广（不需要 quality 特别高）；后训练要 窄而精（quality 要求极高）。
不同实验室组织方式：
Anthropic / Gemini：pre-train 和 post-train 分两支队伍。
OpenAI ：更混乱------最早三队（pre-train、RL "Strawberry"、post-train），而且他们的 post-train 本身就是产品团队，"训模型的人也参与产品"。

对"下一个范式转变"的判断

大概率不是范式级变化，但对谷歌特别有价值的两件事：
机器学习编码（ML coding）：让 AI 能加速 AI 自身的研究闭环------谷歌是 AI 研究最完整平台（硬件 + 连接 + 模型），这件事对谷歌价值巨大。
长远规划 / 长时程（long horizon）：每个人都觉得重要。
对实现方向：
预训练侧： sparse attention（稀疏注意力，DeepSeek 和学术界都在做）。
后训练侧：类似 Cursor 那种 外部上下文管理（让模型选择保留或扔掉哪部分）。
两者本质相同------上下文 token 的 KV cache 也是一种权重。
"**一万个人有一万种'世界模型'**的定义。Gemini 的世界模型更像端到端训练（条件生成下一刻场景）；李飞飞那种是另一回事------我不太懂她们实验室在做什么。"
Continual learning（持续学习）和 long horizon 本质没区别。
他 主要精力在后训练方法（预训练不做正式工作）。
"Gemini 在 long context 上的一些技巧真的让我惊讶。"（笑）

AI 人才稀缺性质疑

高薪是因为大家觉得稀缺，但**"可能没那么稀缺------训练一个人不难，只是你需要遇到做这件事的环境。过去有这种机会的人不多，所以市场上相对稀缺。另一方面，可能对某些人的吹捧也过头了，大家特别爱神话某些人。"**

他设计的面试题（可公开）

要求候选人 24 小时从零做一个 RL 项目------自己选模型、数据、算法，然后和他讨论一小时。
两个目的：
看候选人 与 AI 合作的能力 （现在写代码本身不再稀缺）------ 有个陷阱：如果完全把活丢给 AI 自己不理解，讨论一小时就暴露了。
" 24 小时限制是看他重不重视这个机会------能不能熬夜。不重视的人连这 24 小时都熬不住。 "（笑）"这里面还有些阴暗的小巧思。"

工程 vs 科学

"谷歌的预训练现在已经变成 工程项目------自上而下、节点清晰、可评估。这是谷歌的强项。"
后训练不确定性更大，仍是自下而上、每个人尝试不同方法。

组织的核心原则

"系统稳固 + 个人英雄不闪耀" 与 "允许个人英雄闪耀但系统脆弱" 的 trade-off。
他倾向前者------ "系统不稳固的一个例子就是 OpenAI：一个人走，整个结构就可能塌。"
对自己的要求： "研究员必须为整体考虑，不然不是好研究员。在学术界是'一人吃饱全家不愁'；在公司里你要对公司负责------这是两种完全不同的心态。"
他承认："我可能就是拉不下脸------既然签了合约，我觉得不按合约做没什么道理。"

TPU vs GPU

大规模商业部署上 没有优劣差异。开源生态 GPU 更好，但这对大规模部署不是瓶颈。
设计理念不同：
GPU（尤其 Hopper 一代）：单 pod 内 NVLink 带宽极高，但 pod 内卡少（8 张）。
TPU ：放弃卡间两两互联，用 3D Torus 拓扑 把更多卡组成一个大 rack，每张卡只与 3 个最近邻相连。如果编译器/分片写得好， 总内存容量更大、通信瓶颈更少。
TPU 缺点： 小规模用不灵活、通用性差。

对 xAI 的评价

简短、尖锐： "我不理解。他们一直都挺动荡的。"（笑）

十六、集体主义胜利（3:23:33）

对新实验室潮的吐槽

最近硅谷一堆新 AI 实验室：" 绝大多数新实验室会倒闭。 "
Thinking Machines 还在持续出新东西；但某些新实验室（后期消音）------ "我完全不知道他们想干嘛，创始人其实已经离开赛场很久了。"

中美路线分化

中美已分道扬镳 。中国优势在 消费侧：
"中国能想出非常复杂、看起来很不自然的产品结构，让利润滚雪球------抖音你看视频不收 0.2 美元，但偷偷加广告、直播、电商。"
美国这种玩法玩不转------"生产力软件：我帮你写代码，150 成本，200 卖给你，我赚 50，就这么简单。"
"Meta 就应该直接抄字节跳动------它又找不到自己的定位，做消费产品的能力又远不如字节。但美国过去十年有个正反馈循环：B2B 太容易赚钱，大家都不想烧脑研究如何赚消费端的钱。"

AI 人工神话

"我进这个行业的时候，个人英雄主义时代已经过去了------所以没有英雄。"
"没有哪个老登是你的亲戚------所以你觉得他傻，他就是傻，可以直接说他傻，无所谓。"（笑）
为什么敢这么讲？
"我在这个行业没有什么导师，没有什么旧友，我当然想喷谁就喷谁。"
"这个领域足够客观------ 你在这个领域做得怎么样是有客观评价标准的，最终大家会尊重你。只要你观点自洽、不是乱喷，不用太担心因为观点得罪谁。"
为什么来 AI： "AI 这个事本来也不太需要脑子，真的不太需要脑子。这个行业最重要的特质就是靠谱、做事细、对自己做的事情负责任。" 在物理里，他见过比自己聪明得多的人（比如他的博士导师 Douglas Stanford）------"他在那里，哪还需要我？"
对旧时代 AI"英雄"的评价（点名后期消音，但线索明显）：
XXX（某位以模糊表述见长的人） "我觉得他一直都挺蠢的" ------" 用 Pauli 的话说，他甚至不能算错，因为他说的东西都没有明确定义------我最讨厌这种模糊的人，模糊的东西没有意义。 "
他愿意承认的英雄：
- Haldane（霍尔丹，凝聚态物理拓扑态的奠基人）------"他第一次提出 Haldane model 和分数量子霍尔相关的东西，离后来整个领域搞明白拓扑态还隔了几十年，但他当时就能感觉到这件事重要，一直推动。"
- Geoffrey Hinton（字幕译为"杰弗里·辛顿"）------"在大家都觉得 AI 这条路不确定时，他一直朝这个方向。这或许是英雄级别的人物。"
- Transformer 集体（Noam Shazeer、Ashish Vaswani、Niki Parmar 等）------"这可能是一个英雄集体。"
对"老登"（中文网络对守旧老年男性的贬称）的态度：
"大多数老登其实挺好的------人老了会分成两种：一种是德高望重、不再挑刺、真正指导年轻人；另一种是根本不知道自己在说什么，还特别爱挑刺和对人指手画脚。变老不一定就是老登。 "
他不是一开始就这么直接的------"学生时代比较克制，但后来发现克制对自己没好处，对别人也没好处。进 AI 之后变得更直接------没有任何东西会阻挡我，而且这个领域足够客观。"

给年轻人的建议

纯语言模型方向： "蓝海已经不是蓝海了，我赶上了末班车。"
但 AI 是非常大的领域------ 多模态生成、机器人、用 AI 解决实际科学问题（如量子控制）都还是蓝海。
"对足够年轻的人，做现在最热的事未必是对的；做没人做的事，可能是更好的选择。"

关于自己的未来

不会在谷歌长留（"如此公开地表达这一点------我觉得可能不会。"）。
"我还是会去挑战自己，需要折磨自己，只是得先找到值得折磨自己的东西。"
不太可能再跳大厂；也没想做 AI for Physics------"很多人已经在做，多我一个不多，少我一个不少。"
当前首要任务：把 ML coding 和 long horizon 推到相对稳定的状态。

最后一问："关键的赌注是什么？"

"Long horizon.（长时程）"

补充：几个交叉验证与背景注释

离职 Anthropic 原因的对照 ：姚顺宇在个人博客（alfredyao.github.io）的说法与访谈一致------强调"不想让自己的经验被特定实验室局限，尤其现在核心研究很少发表论文"。访谈中他直接说出 约 40% 是反对 Dario 反华立场，这在其博客和 36kr、新智元等公开报道中也有交叉证据。
参与的模型的可靠性：36kr 报道证实他参与了 Claude 3.7（agentic coding）和 Claude 4 family（RL numerics）；Gemini 3 Deep Think 的参与也有谷歌自家公告确认。
非厄米趋肤效应：访谈中他描述的"周期/开放边界结果完全对不上、本征态全部堆积在边界"正是 PRL 论文

Edge States and Topological Invariants of Non-Hermitian Systems

（Yao & Wang 2018）的核心发现，与本人描述完全吻合------字幕里的"王忠"实为 王中（Zhong Wang） ， 张守成 /寿城实为张首晟（Shoucheng Zhang）。
博士导师：Douglas Stanford 和 Stephen Shenker 是 Stanford Institute for Theoretical Physics 的顶级高能/量子引力学家，访谈中他特别说 Douglas Stanford "比我聪明得多"------是真诚的敬畏。
"Claude 3.6 其实是 3.5 new"：这点与 Anthropic 官方命名历史一致，外部社区确实因 Claude 3.5 出了两个版本而自发叫后者"3.6"。
节目录制时间（2026 年 3 月）与发布时间（2026 年 5 月）之间 已发生：Meta 对 Manus 收购被撤销、Cursor 可能被 SpaceX 收购、xAI 并入 SpaceX------文中相关表述按录制时状态保留，访谈中嘉宾对 xAI 的吐槽（"一直挺动荡"）反而被事态坐实。

核心观点速览

维度

姚顺宇的判断

预训练

远没到头，过去几个月一直在变强；觉得撞墙多半是代码 bug 没找到

后训练

真正大规模化始于 Claude 3.7；关键在数据分布是窄而精

Coding

爆发源于奖励信号清晰 + GitHub 数据基座；已是 AI-native 唯一大规模成功场景

机器人 / 多模态生成

都还没到 GPT-1 阶段，还在特征工程时代

Chatbot 形态

蠢，远不是终极形态，需要产品经理解锁

Wrapper 生存

要么成长够快（Cursor），要么市场够小（Midjourney）；否则都被收购

AI 安全

Anthropic 的"造最强模型才有话语权"太天真；真正的机制类比是核武器多方威慑

蒸馏

硬蒸可耻且蠢；软蒸是 multi-agent 训练的先驱，技术上有趣

组织

系统稳固 > 个人英雄闪耀；OpenAI 是反例

英雄主义

语言模型领域已经过去；现在都是冲浪者，本质是那个浪

AI 本质

简单------因为可以做实验，受限的只是算力和 infra，无根本困难

给年轻人

语言模型蓝海已过；做没人做的事

个人风格

直接、可以喷人、"老登不是你亲戚"、拒绝模糊表述