【AGI】OpenAI核心贡献者翁家翌:修Infra的人,正在定义GPT-5

"世界是确定的马尔可夫过程,但我们要投资未来。"

大家好,这里是被 AI 比特风暴卷走的蜂蜜 🍯 今天不聊代码,咱们直接对标 OpenAI 核心贡献者翁家翌(Tristan Weng)

从清华开源作业到OpenAI风暴中心,他凭什么说"工程比算法更重要"?

他是GPT-3.5 → GPT-4 → GPT-5 背后强化学习+后训练+Infra 的核心贡献者

他初中自学微积分,清华把作业开源,CMU做签证查询系统点击量过百万

他说:工程能力比算法创新更关键 ,修好Infra的一个bug,模型效果就能涨一截

他说:代码是一种慈善 ,GitHub Star数是他的KPI,GPA不重要

他还说:世界是确定的马尔可夫过程,人没有自由意志,但依然要拼命"投资未来"

如果你只打算看一篇关于翁家翌(翁嘉译)的总结,看这一篇就够了

下面是我根据WhynotTV两小时访谈整理的超全核心笔记 + 深度思考,信息密度极高,建议先收藏再细读。


🧠 一、童年到清华:一个"非典型学霸"的底层代码

🧮 数学兴趣:不是刷题,是构建知识树

  • 小学一年级开始学奥数,口算速度全班最快
  • 初中提前学完高中数学和微积分
  • 他的数学观:数学学习不是死记硬背,而是构建一棵知识树 。每学一个新概念,就挂到已有的节点上。当新知识能帮自己解出更难的题、看懂更酷的东西,正反馈就形成了内生兴趣

💡 很多家长问"怎么让孩子喜欢数学"?翁家翌的答案:让他早点尝到"懂"的甜头,而不是痛苦的重复。

💻 编程启蒙:从兴趣班到OI竞赛,再到清华降分

  • 初一:私立学校的编程兴趣班,第一次接触代码
  • 初中后期:为了升学,转向OI(信息学竞赛)
  • 高二 :靠一道 "最小双元覆盖" 题拿到省队资格
  • 最终 :获清华降60分录取

他不是天生的竞赛机器,而是那种 "发现了工具,就用来解决真实问题" 的人------这个特质贯穿了他整个职业生涯。

📚 清华本科:把作业开源,打破信息差

"信息平权,能让有能力的人活得更好。"

  • 大一、大二时,他把清华的课程作业(除版权问题外)全部公开到GitHub
  • 目的很简单:让后面的学弟学妹不用再花时间找资料
  • 这不是为了炫技,而是他心中 "打破信息差" 的具体行动。

同时他兴趣极其广泛:

  • 人工智能
  • 图形学(课程拿到全班唯二A+)
  • 网络安全(发现校园网免费下载成绩单的bug,主动反馈)

但最终,因为科研需要专注,他放弃了图形学,扎进了强化学习(RL)。


🔧 二、工程>算法:为什么OpenAI最需要的是"修bug的人"

先看一张颠覆认知的图:

右边是以为的AI进化 :天才推公式 → 神级算法 → AGI降临。
左边是真实的工业界 :一堆烂代码 → OOM、死锁 → 要么妥协(模型崩溃),要么死磕修bug → 撑起海量RL迭代 → 才涌现出GPT-4/5。

翁家翌,就是左边那条路走到黑的人。

🏗️ Infra才是模型进化的核心引擎

在OpenAI内部,翁家翌负责的是Post-training的RL Infra------也就是RLHF(人类反馈强化学习)背后那套让实验能跑起来、跑得快、跑得稳的系统。

他的核心观点很直接:

"决定模型上限的,不是多聪明的算法,而是单位时间内有效迭代的次数。"

  • 一次实验慢10分钟,一天就少跑几十轮
  • 一个底层bug卡三天,别人已经迭代了一个版本
  • 基础设施的稳定性和吞吐量,直接决定了模型效果

他把自己的角色比作 "卖铲子的人"------不挖金子,但让所有挖金子的人更高效。

🐛 修bug就是训模型

他说:

"大模型未来5-10年的挑战,不是发明新算法,而是榨干现有方法和算力------修复Infra里的bug,提升吞吐量,把迭代次数推到物理极限。"

现在的GPT-4/GPT-5远没到性能天花板。谁能在工程上多挖出10%的效率,谁就领先一个版本。

🎯 面试OpenAI:不刷LeetCode,只秀开源项目

翁家翌2022年加入OpenAI,当时RL领域最前沿的实验室。

他的面试方式很"他":

  • 没有刷题
  • 而是解决了一个开放性的工程难题
  • 面试官看他的GitHub:"天授"强化学习框架------代码抽象清晰、极简、好用
  • 结果:当场认可,直接拿下

"教一个研究员写好工程,比教一个工程师学会研究难得多 。"

"而OpenAI要的就是那种两边都能打的人。"


🧪 三、强化学习(RL)与AGI:后训练才是主战场

🎮 Agent的本质 = RL环境换成了真实世界

很多人觉得Agent是新鲜事,翁家翌直接戳破:

Agent和RL post-training没有本质差别

核心逻辑都是 "动作 → 环境 → 反馈",只是RL里的"环境"是模拟器,Agent里的"环境"是真实世界的API或工具。

所以在他看来,搞好RL后训练,就是给未来Agent打基础

🚧 AGI的卡点:数据太少 + 验证太贵

他认为,目前的模型远没到AGI

  • 真正的AGI需要能完成80-90%的有意义任务
  • 现在的瓶颈不是算力,而是真实任务的数据占比太低 ,并且验证反馈的成本极高(比如让模型写一段代码,你得真的跑一遍、检查结果,这个成本远高于预训练的下一个token预测)

这也是为什么他如此重视RLHF Infra------只有让"人类反馈"这个环节足够便宜、足够快,后训练才能规模化

🔥 19年Mila的教训:没有算力,再好的算法也是空中楼阁

2019年,他在Mila跟随Yoshua Bengio做NLP研究。

当时尝试了类似MoE(混合专家模型)的Transformer结构,但因为算力不足,始终没跑出理想结果。

这个经历让他刻骨铭心:

工程能力和算力,才是算法的地基。 地基不牢,再漂亮的房子也盖不起来。

后来他去OpenAI,本质上就是去了一个"地基最牢"的地方。


💝 四、代码即慈善:天授、推学与极客KPI

⚙️ "天授"(Tianshou):因为嫌弃别人难用,自己写了一个

当时RL框架要么太复杂,要么太慢。

翁家翌一不做二不休:自己写一个

  • 代码极简、抽象清晰
  • 满足研究者快速迭代的需求
  • 结果成了RL领域最流行的开源框架之一,无数论文基于它跑实验

这就是典型的"造轮子造到大家都来用你的轮子"。

🛂 "推学"(Tuixue):免费签证查询系统,点击量超百万

留学圈很多人知道这个工具:输入你的签证申请号,自动追踪位置,不用再去官网反复刷。
完全免费,分文不取

翁家翌说:

"做工具是一种慈善。我不需要掌声,我只想看到它真的被人用起来,帮到人。"

📊 他的极客KPI:拒绝GPA,拥抱Impact

他不在乎GPA。

他在乎的只有三样:

  • 高质量论文
  • 竞赛名次
  • GitHub Star数(必须3位数起步)

"如果人生是一场游戏,那分数就是记住你名字的人数------不是为了出名,是为了知道我真的影响过别人。"


🌌 五、宿命论与未来:世界是确定的,但我们仍要投资未来

🎲 世界观:马尔可夫过程,没有自由意志

这是他最让人意外的哲学输出。

他认为:如果物理世界是确定的(量子随机性在宏观层面不构成自由意志),那么整个宇宙就是一个巨大的马尔可夫过程 ------每个状态完全决定下一个状态。

所谓的"选择",只是信息不完备时的错觉

"人其实没有自由意志。"

听到这里,很多人会问:那还努力什么?

💎 他的回答:投资未来,是为了拥有选择的权利

"虽然一切都是注定的,但我们不知道未来是什么。

所以现在做的每一个努力,都是在买入一个看涨期权------当那个确定的未来到来时,你希望自己站在有利的那一侧。"

这就是他反复说的 "投资未来"

  • 不是为了改变命运(命运是确定的)
  • 而是为了在命运展开时,自己有更多的选择权

🛤️ 当下状态:迷茫,但正在找产品方向

即使站在GPT-5的浪尖,他也坦言:

"我现在处于人生迷茫期。
'自己到底想要什么',是一个值得用一生去思考的问题。"

他有创业的想法,正在寻找一个能发挥他天赋、同时真正满足用户需求的产品方向。


🧭 六、闭源、人才密度与组织形态

🔒 为什么认同OpenAI闭源?

他观点很现实:

  • 通过产品让普通人接触到AI ,比单纯开源一个裸模型更有利于造福人类
  • 闭源也有商业博弈的成分------没有商业化,就没有几千张H100的算力

但他依然鼓励个人开源工具(比如"天授"、"推学"),因为那是拉平信息差的最快方式。

🧑‍🤝‍🧑 人才密度 > 流程管理

OpenAI从小团队发展到三千人,翁家翌观察到:

  • 高人才密度可以自发涌现出成果,不需要太多自上而下的指令
  • Infra团队要着眼长远,主动清理技术债务,而不是天天救火
  • 要保持小团队架构和信息流通,防止大公司病扼杀创新

📌 最后:干货小结(帮你划重点)

维度 翁家翌的核心观点
工程 vs 算法 工程能力更重要,Infra的迭代速度直接决定模型效果
强化学习 后训练(RLHF)是AGI的主战场,Agent只是换了个环境
开源精神 代码是一种慈善,打破信息差比炫耀技术更有价值
评价体系 不用GPA,用GitHub Star、竞赛、论文------追求真实影响力
宿命论 世界是确定的马尔可夫过程,但努力是为了"投资未来"
迷茫 即使做了GPT-5,也会迷茫。思考"自己要什么"是一生的课题

✍️ 写在最后:风暴中心的人,比我们想象中更"人"

这期WhynotTV的访谈,最打动我的不是那些技术判断(虽然确实很硬),而是翁家翌身上那种极致的实用主义 + 理想主义的混合体

  • 他相信工程能改变世界,也相信一行开源代码就是一次慈善
  • 他说人没有自由意志,却比谁都拼命地"投资未来"
  • 他亲手推动了GPT-5,却说"我也在迷茫"

也许真正的极客,都是这样------
一边拆解世界到马尔可夫链,一边为一行代码的impact热泪盈眶。


👇 评论区聊聊

你认同 "工程比算法更重要" 吗?

你也有过"投资未来"却依然迷茫的时刻吗?

咱们评论区见。

如果你觉得这篇笔记有用,欢迎转发、在看、收藏。

让更多人看到:风暴中心的人,到底在思考什么。

相关推荐
幻风_huanfeng4 小时前
人工智能之数学基础:什么是凸优化问题?
人工智能·算法·机器学习·凸优化
愚公搬代码4 小时前
【愚公系列】《剪映+DeepSeek+即梦:短视频制作》046-转场:短视频一气呵成的秘密(什么是转场)
人工智能·音视频
周周爱喝粥呀4 小时前
词元ID是如何转为嵌入向量? 位置嵌入的作用是什么?
人工智能·ai
AI周红伟4 小时前
OpenClaw是什么?OpenClaw能做什么?OpenClaw详细介绍及保姆级部署教程-周红伟
大数据·运维·服务器·人工智能·微信·openclaw
Alvin千里无风4 小时前
在 Ubuntu 上从源码安装 Nanobot:轻量级 AI 助手完整指南
linux·人工智能·ubuntu
环黄金线HHJX.4 小时前
龙虾钳足启发的AI集群语言交互新范式
开发语言·人工智能·算法·编辑器·交互
Omics Pro4 小时前
虚拟细胞:开启HIV/AIDS治疗新纪元的关键?
大数据·数据库·人工智能·深度学习·算法·机器学习·计算机视觉
悦来客栈的老板5 小时前
AI逆向|猿人学逆向反混淆练习平台第七题加密分析
人工智能