"世界是确定的马尔可夫过程,但我们要投资未来。"
大家好,这里是被 AI 比特风暴卷走的蜂蜜 🍯 今天不聊代码,咱们直接对标 OpenAI 核心贡献者翁家翌(Tristan Weng)。
从清华开源作业到OpenAI风暴中心,他凭什么说"工程比算法更重要"?
他是GPT-3.5 → GPT-4 → GPT-5 背后强化学习+后训练+Infra 的核心贡献者
他初中自学微积分,清华把作业开源,CMU做签证查询系统点击量过百万
他说:工程能力比算法创新更关键 ,修好Infra的一个bug,模型效果就能涨一截
他说:代码是一种慈善 ,GitHub Star数是他的KPI,GPA不重要
他还说:世界是确定的马尔可夫过程,人没有自由意志,但依然要拼命"投资未来"
如果你只打算看一篇关于翁家翌(翁嘉译)的总结,看这一篇就够了 。
下面是我根据WhynotTV两小时访谈整理的超全核心笔记 + 深度思考,信息密度极高,建议先收藏再细读。
🧠 一、童年到清华:一个"非典型学霸"的底层代码
🧮 数学兴趣:不是刷题,是构建知识树
- 小学一年级开始学奥数,口算速度全班最快
- 初中提前学完高中数学和微积分
- 他的数学观:数学学习不是死记硬背,而是构建一棵知识树 。每学一个新概念,就挂到已有的节点上。当新知识能帮自己解出更难的题、看懂更酷的东西,正反馈就形成了内生兴趣。
💡 很多家长问"怎么让孩子喜欢数学"?翁家翌的答案:让他早点尝到"懂"的甜头,而不是痛苦的重复。
💻 编程启蒙:从兴趣班到OI竞赛,再到清华降分
- 初一:私立学校的编程兴趣班,第一次接触代码
- 初中后期:为了升学,转向OI(信息学竞赛)
- 高二 :靠一道 "最小双元覆盖" 题拿到省队资格
- 最终 :获清华降60分录取
他不是天生的竞赛机器,而是那种 "发现了工具,就用来解决真实问题" 的人------这个特质贯穿了他整个职业生涯。
📚 清华本科:把作业开源,打破信息差
"信息平权,能让有能力的人活得更好。"
- 大一、大二时,他把清华的课程作业(除版权问题外)全部公开到GitHub。
- 目的很简单:让后面的学弟学妹不用再花时间找资料。
- 这不是为了炫技,而是他心中 "打破信息差" 的具体行动。
同时他兴趣极其广泛:
- 人工智能
- 图形学(课程拿到全班唯二A+)
- 网络安全(发现校园网免费下载成绩单的bug,主动反馈)
但最终,因为科研需要专注,他放弃了图形学,扎进了强化学习(RL)。
🔧 二、工程>算法:为什么OpenAI最需要的是"修bug的人"
先看一张颠覆认知的图:

右边是以为的AI进化 :天才推公式 → 神级算法 → AGI降临。
左边是真实的工业界 :一堆烂代码 → OOM、死锁 → 要么妥协(模型崩溃),要么死磕修bug → 撑起海量RL迭代 → 才涌现出GPT-4/5。
翁家翌,就是左边那条路走到黑的人。
🏗️ Infra才是模型进化的核心引擎
在OpenAI内部,翁家翌负责的是Post-training的RL Infra------也就是RLHF(人类反馈强化学习)背后那套让实验能跑起来、跑得快、跑得稳的系统。
他的核心观点很直接:
"决定模型上限的,不是多聪明的算法,而是单位时间内有效迭代的次数。"
- 一次实验慢10分钟,一天就少跑几十轮
- 一个底层bug卡三天,别人已经迭代了一个版本
- 基础设施的稳定性和吞吐量,直接决定了模型效果
他把自己的角色比作 "卖铲子的人"------不挖金子,但让所有挖金子的人更高效。
🐛 修bug就是训模型
他说:
"大模型未来5-10年的挑战,不是发明新算法,而是榨干现有方法和算力------修复Infra里的bug,提升吞吐量,把迭代次数推到物理极限。"
现在的GPT-4/GPT-5远没到性能天花板。谁能在工程上多挖出10%的效率,谁就领先一个版本。
🎯 面试OpenAI:不刷LeetCode,只秀开源项目
翁家翌2022年加入OpenAI,当时RL领域最前沿的实验室。
他的面试方式很"他":
- 没有刷题
- 而是解决了一个开放性的工程难题
- 面试官看他的GitHub:"天授"强化学习框架------代码抽象清晰、极简、好用
- 结果:当场认可,直接拿下
"教一个研究员写好工程,比教一个工程师学会研究难得多 。"
"而OpenAI要的就是那种两边都能打的人。"
🧪 三、强化学习(RL)与AGI:后训练才是主战场
🎮 Agent的本质 = RL环境换成了真实世界
很多人觉得Agent是新鲜事,翁家翌直接戳破:
Agent和RL post-training没有本质差别 。
核心逻辑都是 "动作 → 环境 → 反馈",只是RL里的"环境"是模拟器,Agent里的"环境"是真实世界的API或工具。
所以在他看来,搞好RL后训练,就是给未来Agent打基础。
🚧 AGI的卡点:数据太少 + 验证太贵
他认为,目前的模型远没到AGI。
- 真正的AGI需要能完成80-90%的有意义任务
- 现在的瓶颈不是算力,而是真实任务的数据占比太低 ,并且验证反馈的成本极高(比如让模型写一段代码,你得真的跑一遍、检查结果,这个成本远高于预训练的下一个token预测)
这也是为什么他如此重视RLHF Infra------只有让"人类反馈"这个环节足够便宜、足够快,后训练才能规模化。
🔥 19年Mila的教训:没有算力,再好的算法也是空中楼阁
2019年,他在Mila跟随Yoshua Bengio做NLP研究。
当时尝试了类似MoE(混合专家模型)的Transformer结构,但因为算力不足,始终没跑出理想结果。
这个经历让他刻骨铭心:
工程能力和算力,才是算法的地基。 地基不牢,再漂亮的房子也盖不起来。
后来他去OpenAI,本质上就是去了一个"地基最牢"的地方。
💝 四、代码即慈善:天授、推学与极客KPI
⚙️ "天授"(Tianshou):因为嫌弃别人难用,自己写了一个
当时RL框架要么太复杂,要么太慢。
翁家翌一不做二不休:自己写一个。
- 代码极简、抽象清晰
- 满足研究者快速迭代的需求
- 结果成了RL领域最流行的开源框架之一,无数论文基于它跑实验
这就是典型的"造轮子造到大家都来用你的轮子"。
🛂 "推学"(Tuixue):免费签证查询系统,点击量超百万
留学圈很多人知道这个工具:输入你的签证申请号,自动追踪位置,不用再去官网反复刷。
完全免费,分文不取。
翁家翌说:
"做工具是一种慈善。我不需要掌声,我只想看到它真的被人用起来,帮到人。"
📊 他的极客KPI:拒绝GPA,拥抱Impact
他不在乎GPA。
他在乎的只有三样:
- 高质量论文
- 竞赛名次
- GitHub Star数(必须3位数起步)
"如果人生是一场游戏,那分数就是记住你名字的人数------不是为了出名,是为了知道我真的影响过别人。"
🌌 五、宿命论与未来:世界是确定的,但我们仍要投资未来
🎲 世界观:马尔可夫过程,没有自由意志
这是他最让人意外的哲学输出。
他认为:如果物理世界是确定的(量子随机性在宏观层面不构成自由意志),那么整个宇宙就是一个巨大的马尔可夫过程 ------每个状态完全决定下一个状态。
所谓的"选择",只是信息不完备时的错觉。
"人其实没有自由意志。"
听到这里,很多人会问:那还努力什么?
💎 他的回答:投资未来,是为了拥有选择的权利
"虽然一切都是注定的,但我们不知道未来是什么。
所以现在做的每一个努力,都是在买入一个看涨期权------当那个确定的未来到来时,你希望自己站在有利的那一侧。"
这就是他反复说的 "投资未来" :
- 不是为了改变命运(命运是确定的)
- 而是为了在命运展开时,自己有更多的选择权
🛤️ 当下状态:迷茫,但正在找产品方向
即使站在GPT-5的浪尖,他也坦言:
"我现在处于人生迷茫期。
'自己到底想要什么',是一个值得用一生去思考的问题。"
他有创业的想法,正在寻找一个能发挥他天赋、同时真正满足用户需求的产品方向。
🧭 六、闭源、人才密度与组织形态
🔒 为什么认同OpenAI闭源?
他观点很现实:
- 通过产品让普通人接触到AI ,比单纯开源一个裸模型更有利于造福人类
- 闭源也有商业博弈的成分------没有商业化,就没有几千张H100的算力
但他依然鼓励个人开源工具(比如"天授"、"推学"),因为那是拉平信息差的最快方式。
🧑🤝🧑 人才密度 > 流程管理
OpenAI从小团队发展到三千人,翁家翌观察到:
- 高人才密度可以自发涌现出成果,不需要太多自上而下的指令
- Infra团队要着眼长远,主动清理技术债务,而不是天天救火
- 要保持小团队架构和信息流通,防止大公司病扼杀创新
📌 最后:干货小结(帮你划重点)
| 维度 | 翁家翌的核心观点 |
|---|---|
| 工程 vs 算法 | 工程能力更重要,Infra的迭代速度直接决定模型效果 |
| 强化学习 | 后训练(RLHF)是AGI的主战场,Agent只是换了个环境 |
| 开源精神 | 代码是一种慈善,打破信息差比炫耀技术更有价值 |
| 评价体系 | 不用GPA,用GitHub Star、竞赛、论文------追求真实影响力 |
| 宿命论 | 世界是确定的马尔可夫过程,但努力是为了"投资未来" |
| 迷茫 | 即使做了GPT-5,也会迷茫。思考"自己要什么"是一生的课题 |
✍️ 写在最后:风暴中心的人,比我们想象中更"人"
这期WhynotTV的访谈,最打动我的不是那些技术判断(虽然确实很硬),而是翁家翌身上那种极致的实用主义 + 理想主义的混合体:
- 他相信工程能改变世界,也相信一行开源代码就是一次慈善
- 他说人没有自由意志,却比谁都拼命地"投资未来"
- 他亲手推动了GPT-5,却说"我也在迷茫"
也许真正的极客,都是这样------
一边拆解世界到马尔可夫链,一边为一行代码的impact热泪盈眶。
👇 评论区聊聊 :
你认同 "工程比算法更重要" 吗?
你也有过"投资未来"却依然迷茫的时刻吗?
咱们评论区见。
如果你觉得这篇笔记有用,欢迎转发、在看、收藏。
让更多人看到:风暴中心的人,到底在思考什么。