访谈者 :今天特别感谢翁家翌老师做客WhynotTV Podcast,咱们从您的童年开始聊吧,小时候您在学习上有什么特别的特点吗?
翁家翌:我从小特别喜欢奥数,一年级就开始学,一直学到六年级,初中也没停。做数学题比别人快,比如二年级口算题,别人刚写一半我就做完了,有点像"条件反射"式解题。不过我学新东西慢,得花别人2-3倍时间理解,但一旦吃透,用起来就特别顺,比如背书,睡前磕磕巴巴背下来,睡一觉第二天就能倒背如流。初中时还提前学数学,初二学完高中内容,初三开始啃微积分,就是觉得初等数学没意思,也想"投资未来",为以后学习打基础。
访谈者 :那您高中怎么接触到编程,又为什么走信息学竞赛(OI)这条路呢?
翁家翌:初一进私立校,学校有编程兴趣班,我爸妈让我试试,没想到就感兴趣了,虽然当时搞编程对升学没帮助。高中选OI是因为升学压力,非北京地区想上清华北大太难了。之前也搞过数学竞赛,但学校没基础,自学费劲,就转OI了。OI流程挺复杂,先参加OIP提高组省选(福建有两轮,寒假和4月),再进省队去NOI国赛,中间还能选清华或北大夏令营拿优惠。我高一省选都没过,高二靠"野路子"------比如一道最小双元覆盖题拿了70分全场最高,才进省队,最后NOI只拿了福建铜牌,还好清华夏令营给了降60分的优惠。
访谈者 :到了清华本科,您最让人印象深刻的就是开源作业,当时为什么想做这件事?
翁家翌:我2016年进清华,大一就把没版权的作业、上古学习资料全放GitHub开源了。清华里"信息差"特别明显,有的同学能力强但不会搜资料,花十几二十小时钻牛角尖做无用功。我想打破这种差距,让大家平等获取信息,不用再疲于奔命找作业、问重点。现在清华计算机系学弟基本都知道我,比捐楼的人知名度还高,也算没白做。
访谈者 :您本科也接触了科研,怎么误打误撞选了强化学习(RL)方向?
翁家翌:大二找实验室,学长推荐了朱军、谭杰、崔鹏三位老师,我按"以为的厉害程度"选了朱军老师。当时有贝叶斯、对抗生成网络(GAN)、RL三个方向,我本来想选GAN(觉得图像有意思),但不知道哪个是,就随便选了RL,结果发现是"打游戏"的方向,还挺有趣。不过最开始做RL科研挺痛苦的,环境单一、全靠调参玄学,比如做Wisdom游戏通关项目,得疯狂避免训练崩掉,全是 heuristic 方法。
访谈者 :2020年疫情期间,您做了"天授"和"tuixue online"两个热门项目,当时怎么想到做这些的?
翁家翌:这俩都是"自驱力"驱动的。做"天授"是因为当时RL框架太难用了,比如RLlib有几十万行代码,抽象层太多,改都没法改。我19年12月就想整合自己的实验代码,20年2月看了一个月RLlib后,决定推倒重来,两周就写出第一版。代码简洁,每个算法不到20行,还能精准定位修改点,特别契合研究者需求,也算帮大家少走弯路。 "tuixue online"是因为疫情期间领事馆开关不定,我自己要查签证,找了一圈没合适工具,就写了个爬虫,开源后免费给大家用,后来总点击量有1000多万。不过疫情后需求少了,美国领事馆网站也升级了,就停更了。这俩项目都没功利心,我把它们当"慈善",能帮到别人、获得正反馈,比发论文还满足。
访谈者 :您从CMU读研时就拿到了很多大厂offer,最后为什么选OpenAI?
翁家翌:我2020年9月入CMU,因为疫情在家上网课一年,读研时就开始找工作。初期投18家只拿到Google和Auto ML的offer,后来又拿到幻方(DeepSeek)、英伟达、TikTok的offer。选OpenAI是因为它当时和DeepMind是RL领域最顶尖的实验室,我想看看前沿科研的"方法论"------不想再像学校里那样,几个PhD手搓项目,没章法。面试最后一轮是John Schulman出题,三小时任务我两小时就做完了,现场还修了个bug,他说觉得我GitHub项目做得好、工程能力够,就把我招进他的组了。
访谈者 :您在OpenAI参与了GPT-3.5到GPT-5的核心开发,能聊聊核心贡献和工作难点吗?
翁家翌:我主要做强化学习、Post-training、Infra这三块。2022年7月加入时,ChatGPT还不是主线,3.5模型已经有了,但PPO pipeline不好用,初期我们做Web GPT后续版本,后来才聚焦Chat优化,用RLHF的instruction following方式。Post-training的概念是后来才明确的,初期都叫RL,没区分Pre和Post。 最难的是RLHF的性能衡量,比如容易出现reward hacking,选哪个checkpoint全靠"感觉",最后只能靠人工交互体验、多人投票来定。而且工业级RL Infra和toy task完全不一样,模型大、要考虑高效采样和训练,不像小任务只卡环境瓶颈。现在还在攻克scale up的问题,比如更多GPU、更高吞吐,得懂RL、ML CS,还要会语言模型inference,挺有挑战的。
访谈者 :您怎么看OpenAI的工作模式和闭源策略?
翁家翌:OpenAI初期像"大号实验室",后来引入谷歌的经验,迭代效率提上来了。最大优势是人才密度高,大家能自发聊出创新想法,但公司规模大了,想保持小团队的硬核风格很难,得简化架构、少开无效会,保证信息流通------比如SAM和GREG能清楚知道全公司的技术进展,这点很重要。 闭源是"商业生存"和"AGI使命"的权衡。理论上开源利于AGI发展,但会被竞争对手抄作业,还影响融资,只能先顾着活下来。不过公司也不怕人才流失,健康的组织得有造血能力,任何人都能替代。现在外部竞争比如DeepSeek迭代快,内部也会警觉,我们更关注"单位时间内的迭代速度和成功率",不是单纯比模型榜单成绩。
访谈者 :最后聊聊您对人生和AI未来的思考吧,比如您之前提到"人生是场游戏,结算分是记得你名字的人数"。 翁家翌:我有点宿命论,觉得世界是确定性的马尔科夫过程,未来能预测,但会假装不知道,专注当下体验------毕竟人生是段旅程,别浪费了。希望AI能解决"预测未来"的难题,虽然可能对个人是灾难,但我想知道世界运行的规律。 现在也有创业想法,但没找到好idea,OpenAI目前还是不错的平台。不过最近有点迷茫,以前喜欢做RL Infra、追求Impact,现在觉得这些事"看到头了",得重新找人生方向。10年后希望有足够资源,能做当时想做的事,比如继续搞点"帮别人"的项目。
访谈者 :您对想进AI领域的年轻人有什么建议?比如选工业界还是学术界?
翁家翌:如果目标是进AI lab,别纠结读不读PhD------现在工业界更看重工程能力,读PhD反而可能错过行业窗口期。不如用Master当跳板,多做Infra相关项目,积累经验,比如搞开源、练代码优化能力。毕竟现在科研拼的是"Infra正确性"和"迭代速度",idea很容易获取,能快速验证想法才是核心。而且别被固有评价体系绑住,比如GPA够用就行,找到自己的价值标准,比什么都重要。