【AGI】OpenAI核心贡献者翁家翌：修Infra的人，正在定义GPT-5

"世界是确定的马尔可夫过程，但我们要投资未来。"

大家好，这里是被 AI 比特风暴卷走的蜂蜜 🍯 今天不聊代码，咱们直接对标 OpenAI 核心贡献者翁家翌（Tristan Weng）。

从清华开源作业到OpenAI风暴中心，他凭什么说"工程比算法更重要"？

他是GPT-3.5 → GPT-4 → GPT-5 背后强化学习+后训练+Infra 的核心贡献者

他初中自学微积分，清华把作业开源，CMU做签证查询系统点击量过百万

他说：工程能力比算法创新更关键 ，修好Infra的一个bug，模型效果就能涨一截

他说：代码是一种慈善 ，GitHub Star数是他的KPI，GPA不重要

他还说：世界是确定的马尔可夫过程，人没有自由意志，但依然要拼命"投资未来"

如果你只打算看一篇关于翁家翌（翁嘉译）的总结，看这一篇就够了 。

下面是我根据WhynotTV两小时访谈整理的超全核心笔记 + 深度思考，信息密度极高，建议先收藏再细读。

🧠 一、童年到清华：一个"非典型学霸"的底层代码

🧮 数学兴趣：不是刷题，是构建知识树

小学一年级开始学奥数，口算速度全班最快
初中提前学完高中数学和微积分
他的数学观：数学学习不是死记硬背，而是构建一棵知识树 。每学一个新概念，就挂到已有的节点上。当新知识能帮自己解出更难的题、看懂更酷的东西，正反馈就形成了内生兴趣。

💡 很多家长问"怎么让孩子喜欢数学"？翁家翌的答案：让他早点尝到"懂"的甜头，而不是痛苦的重复。

💻 编程启蒙：从兴趣班到OI竞赛，再到清华降分

初一：私立学校的编程兴趣班，第一次接触代码
初中后期：为了升学，转向OI（信息学竞赛）
高二：靠一道 "最小双元覆盖" 题拿到省队资格
最终：获清华降60分录取

他不是天生的竞赛机器，而是那种 "发现了工具，就用来解决真实问题" 的人------这个特质贯穿了他整个职业生涯。

📚 清华本科：把作业开源，打破信息差

"信息平权，能让有能力的人活得更好。"

大一、大二时，他把清华的课程作业（除版权问题外）全部公开到GitHub。
目的很简单：让后面的学弟学妹不用再花时间找资料。
这不是为了炫技，而是他心中 "打破信息差" 的具体行动。

同时他兴趣极其广泛：

人工智能
图形学（课程拿到全班唯二A+）
网络安全（发现校园网免费下载成绩单的bug，主动反馈）

但最终，因为科研需要专注，他放弃了图形学，扎进了强化学习（RL）。

🔧 二、工程＞算法：为什么OpenAI最需要的是"修bug的人"

先看一张颠覆认知的图：

右边是以为的AI进化 ：天才推公式 → 神级算法 → AGI降临。
左边是真实的工业界 ：一堆烂代码 → OOM、死锁 → 要么妥协（模型崩溃），要么死磕修bug → 撑起海量RL迭代 → 才涌现出GPT-4/5。

翁家翌，就是左边那条路走到黑的人。

🏗️ Infra才是模型进化的核心引擎

在OpenAI内部，翁家翌负责的是Post-training的RL Infra------也就是RLHF（人类反馈强化学习）背后那套让实验能跑起来、跑得快、跑得稳的系统。

他的核心观点很直接：

"决定模型上限的，不是多聪明的算法，而是单位时间内有效迭代的次数。"

一次实验慢10分钟，一天就少跑几十轮
一个底层bug卡三天，别人已经迭代了一个版本
基础设施的稳定性和吞吐量，直接决定了模型效果

他把自己的角色比作 "卖铲子的人"------不挖金子，但让所有挖金子的人更高效。

🐛 修bug就是训模型

他说：

"大模型未来5-10年的挑战，不是发明新算法，而是榨干现有方法和算力------修复Infra里的bug，提升吞吐量，把迭代次数推到物理极限。"

现在的GPT-4/GPT-5远没到性能天花板。谁能在工程上多挖出10%的效率，谁就领先一个版本。

🎯 面试OpenAI：不刷LeetCode，只秀开源项目

翁家翌2022年加入OpenAI，当时RL领域最前沿的实验室。

他的面试方式很"他"：

没有刷题
而是解决了一个开放性的工程难题
面试官看他的GitHub："天授"强化学习框架------代码抽象清晰、极简、好用
结果：当场认可，直接拿下

"教一个研究员写好工程，比教一个工程师学会研究难得多 。"

"而OpenAI要的就是那种两边都能打的人。"

🧪 三、强化学习（RL）与AGI：后训练才是主战场

🎮 Agent的本质 = RL环境换成了真实世界

很多人觉得Agent是新鲜事，翁家翌直接戳破：

Agent和RL post-training没有本质差别 。

核心逻辑都是 "动作 → 环境 → 反馈"，只是RL里的"环境"是模拟器，Agent里的"环境"是真实世界的API或工具。

所以在他看来，搞好RL后训练，就是给未来Agent打基础。

🚧 AGI的卡点：数据太少 + 验证太贵

他认为，目前的模型远没到AGI。

真正的AGI需要能完成80-90%的有意义任务
现在的瓶颈不是算力，而是真实任务的数据占比太低 ，并且验证反馈的成本极高（比如让模型写一段代码，你得真的跑一遍、检查结果，这个成本远高于预训练的下一个token预测）

这也是为什么他如此重视RLHF Infra------只有让"人类反馈"这个环节足够便宜、足够快，后训练才能规模化。

🔥 19年Mila的教训：没有算力，再好的算法也是空中楼阁

2019年，他在Mila跟随Yoshua Bengio做NLP研究。

当时尝试了类似MoE（混合专家模型）的Transformer结构，但因为算力不足，始终没跑出理想结果。

这个经历让他刻骨铭心：

工程能力和算力，才是算法的地基。 地基不牢，再漂亮的房子也盖不起来。

后来他去OpenAI，本质上就是去了一个"地基最牢"的地方。

💝 四、代码即慈善：天授、推学与极客KPI

⚙️ "天授"（Tianshou）：因为嫌弃别人难用，自己写了一个

当时RL框架要么太复杂，要么太慢。

翁家翌一不做二不休：自己写一个。

代码极简、抽象清晰
满足研究者快速迭代的需求
结果成了RL领域最流行的开源框架之一，无数论文基于它跑实验

这就是典型的"造轮子造到大家都来用你的轮子"。

🛂 "推学"（Tuixue）：免费签证查询系统，点击量超百万

留学圈很多人知道这个工具：输入你的签证申请号，自动追踪位置，不用再去官网反复刷。
完全免费，分文不取。

翁家翌说：

"做工具是一种慈善。我不需要掌声，我只想看到它真的被人用起来，帮到人。"

📊 他的极客KPI：拒绝GPA，拥抱Impact

他不在乎GPA。

他在乎的只有三样：

高质量论文
竞赛名次
GitHub Star数（必须3位数起步）

"如果人生是一场游戏，那分数就是记住你名字的人数------不是为了出名，是为了知道我真的影响过别人。"

🌌 五、宿命论与未来：世界是确定的，但我们仍要投资未来

🎲 世界观：马尔可夫过程，没有自由意志

这是他最让人意外的哲学输出。

他认为：如果物理世界是确定的（量子随机性在宏观层面不构成自由意志），那么整个宇宙就是一个巨大的马尔可夫过程 ------每个状态完全决定下一个状态。

所谓的"选择"，只是信息不完备时的错觉。

"人其实没有自由意志。"

听到这里，很多人会问：那还努力什么？

💎 他的回答：投资未来，是为了拥有选择的权利

"虽然一切都是注定的，但我们不知道未来是什么。

所以现在做的每一个努力，都是在买入一个看涨期权------当那个确定的未来到来时，你希望自己站在有利的那一侧。"

这就是他反复说的 "投资未来" ：

不是为了改变命运（命运是确定的）
而是为了在命运展开时，自己有更多的选择权

🛤️ 当下状态：迷茫，但正在找产品方向

即使站在GPT-5的浪尖，他也坦言：

"我现在处于人生迷茫期。
'自己到底想要什么'，是一个值得用一生去思考的问题。"

他有创业的想法，正在寻找一个能发挥他天赋、同时真正满足用户需求的产品方向。

🧭 六、闭源、人才密度与组织形态

🔒 为什么认同OpenAI闭源？

他观点很现实：

通过产品让普通人接触到AI ，比单纯开源一个裸模型更有利于造福人类
闭源也有商业博弈的成分------没有商业化，就没有几千张H100的算力

但他依然鼓励个人开源工具（比如"天授"、"推学"），因为那是拉平信息差的最快方式。

🧑‍🤝‍🧑 人才密度 > 流程管理

OpenAI从小团队发展到三千人，翁家翌观察到：

高人才密度可以自发涌现出成果，不需要太多自上而下的指令
Infra团队要着眼长远，主动清理技术债务，而不是天天救火
要保持小团队架构和信息流通，防止大公司病扼杀创新

📌 最后：干货小结（帮你划重点）

维度	翁家翌的核心观点
工程 vs 算法	工程能力更重要，Infra的迭代速度直接决定模型效果
强化学习	后训练（RLHF）是AGI的主战场，Agent只是换了个环境
开源精神	代码是一种慈善，打破信息差比炫耀技术更有价值
评价体系	不用GPA，用GitHub Star、竞赛、论文------追求真实影响力
宿命论	世界是确定的马尔可夫过程，但努力是为了"投资未来"
迷茫	即使做了GPT-5，也会迷茫。思考"自己要什么"是一生的课题

✍️ 写在最后：风暴中心的人，比我们想象中更"人"

这期WhynotTV的访谈，最打动我的不是那些技术判断（虽然确实很硬），而是翁家翌身上那种极致的实用主义 + 理想主义的混合体：

他相信工程能改变世界，也相信一行开源代码就是一次慈善
他说人没有自由意志，却比谁都拼命地"投资未来"
他亲手推动了GPT-5，却说"我也在迷茫"

也许真正的极客，都是这样------
一边拆解世界到马尔可夫链，一边为一行代码的impact热泪盈眶。

👇 评论区聊聊 ：

你认同 "工程比算法更重要" 吗？

你也有过"投资未来"却依然迷茫的时刻吗？

咱们评论区见。

如果你觉得这篇笔记有用，欢迎转发、在看、收藏。

让更多人看到：风暴中心的人，到底在思考什么。