OpenAI科学家Jason Wei专访:思维链灵感来源于冥想

近日,智源社区邀请到了现任 OpenAI 科学家 Jason Wei,谈了谈他做研究的点点滴滴,以及在谷歌和 OpenAI 的工作经历。

在大模型的研发道路上,思维链、指令微调和智能涌现等关键思想备受关注。**正是思维链技术(Chain of Thought)让大模型能够涌现出一系列神奇的能力,成为了现代大语言模型产生「涌现」的底层技术。**思维链旨在通过向大语言模型展示少量的样例,并通过这些样例解释推理过程,让大语言模型学会在生成答案时展示推理过程,并引导其得到更准确的答案。相当于将黑盒深度学习的多步推理过程的中间步骤拆开,结耦了各个步骤的工作,简化了每一步工作上模型的压力,在提高可解释性的同时提升了模型性能。

**研究灵感往往来自某次偶然的一瞥惊鸿,可遇而不可求。**谈起思维链的灵光乍现,CoT 提出者 Jason Wei 表示,他的灵感来源是一本叫做《Waking up》的冥想之书,该书作者为美国无神论者、公共知识分子 Sam Harris,从灵修(spirituality)的角度讲述了思维、意识和自我的关系。

Jason Wei 毕业于达特茅斯大学,在大模型研发领域拥有丰富的经验和杰出成就,在谷歌工作期间曾主导推广了大语言模型中包括思维链提示、指令微调和模型涌现在内一系列关键思想的诞生。

要点速览

  • 对于当时的许多华人家庭来说,美国梦就是供孩子去读常春藤盟校,在华尔街谋求一份体面的工作,赚很多钱。而我成为了当时朋友圈中唯一一个从事人工智能研究的人。

  • 早期的化学研究教会了我何为研究的本质,以及如何提出严格的假设并进行测试。

  • 在 2019 年我创建了第一个对肺癌分类的神经网络。这也是我发表的一篇论文,在论文被接收前被拒了六次。

  • 我对冥想很感兴趣。**冥想的作用是观测到你头脑中出现的所有想法,我称之为思想流(stream of thought),连续不断流动的思想。**参考人类内在的思考过程,我认为模型也可以有思想流。

  • 这项技术上被称为思维链的原因是,思想流更像是杂乱无章地,随机在头脑中涌现的任何东西。而思维链则是一个更有逻辑或组织性质的思维过程。

  • 从谷歌到 OpenAI,最大的变化是每个人从做自己的研究、选择项目转变为在具有核心目标的更大团队中工作。

  • OpenAI 的员工工作非常努力,所有人都对通用人工智能 (AGI) 充满热情。大部分加入 OpenAI 的人都是想参与研究一些更庞大的事项,成为 GPT 这样项目的一员。

  • 我不是非常擅长平衡工作和生活,也不认为每个人都应该渴望做到平衡。事实是,没有哪个超级成功的人是不努力工作的。我的策略是每周休息一天,其他日子都工作,到晚上 10 点或 11 点左右。确保睡眠充足,且每周至少锻炼 3 次。

  • 关于推广宣传,很多研究者做得还远远不够。贝尔实验室著名数学家 Richard Hamming 的建议是,应该花与实际工作(做实验写论文)一样多的时间来做宣传。

华尔街之梦,从银行家到神经网络

Q:能描述下你早年的生活和成长经历,从何时开始接触科研的呢?

A:早年我在弗吉尼亚州的(小镇)上长大,上的公立小学,但考上了一所很有竞争力的高中,也就是 Thomas Jefferson 中学,那是一所你必须参加考试才能被录取的学校,学生 SAT 的平均成绩非常高。

位于弗吉尼亚州的托马斯杰弗逊科技中学(Thomas Jefferson High School for Science and Technology),享有「全美第一公立高中」的美誉,全美排名前 2%

学校里的同学都很拔尖,高中几乎是我人生中最努力的阶段,基本上我在那里学到的最主要的东西就是要「全力拼搏」work hard。大多数人要么喜欢打比赛,要么喜欢研究,我属于后者,从高中阶段就开始做研究了。**最初,我在美国海军研究实验室(Naval Research Lab,简称 NRL)做了一些化学相关的研究。**当时接触研究的机会还很少,但我会尽可能抓住机会。当然,我现在不再从事化学研究了。

Q:早期的化学研究在方法论或思维方式上影响了你后来的工作吗?

A:它教会了我何为研究的本质,以及如何提出严格的假设并进行测试。

Q:了解到你最初的梦想是成为一名华尔街银行家,这个梦想后来发生了哪些变化?

A:对,**过去我们常说美国梦(American dream)。基本上,对于当时的许多华人家庭来说,美国梦就是让你的孩子去读常春藤盟校,在华尔街谋求一份体面的工作,赚很多钱。**我去了达特茅斯,它是比较低调的常春藤盟校,达特茅斯本身和华尔街有很密切的联系,周围所有人都在卷金融去投行,而我大一时没有得到金融方面实习的机会,这就有点像偏离了轨道。正好我母亲有一个朋友在做人工智能初创公司。我联系上了他,于是决定尝试下做 AI,因此我成为了朋友圈当中唯一一个从事人工智能研究的人,有点孤单。(编者注:美国梦通常代表经济上的成功或是企业家的精神。历史学者亚当斯在 1931 年将 "美国梦" 定义为,"无论每个人的社会阶层或出生环境如何,生活都应该变得更好,更丰富,更丰裕,每个人都有机会根据能力或成就而定"。)

Q:能分享更多在达特茅斯大学生活的经历和轶事吗?

A:达特茅斯虽然是排名前 100 的学校,但没有很多从事 AI 研究的教授。当时正好有一个机会做医学图像数据处理,于是我在 2019 年创建了第一个可以对肺癌进行分类的神经网络。这也是我试图发表的一篇论文,**在论文被接收前我被拒了六次。**当时的动机只是单纯地想发表论文,为了申请博士项目。在达特茅斯期间,我也曾经前往丹麦交换。

Q:谈谈你最喜欢的导师以及对你影响最大的人吗?

A:我的校友 Sam Greydanus,他比我大三岁,我们大概交流过五次。他是在达特茅斯为数不多从事 AI 研究的人之一,和我一样后来也去了谷歌的 AI Residency 项目做出很多不错的工作。鉴于当时在达特茅斯 AI 氛围很一般的情况下,他的存在让我鼓舞人心。他给当时作为机器学习 "新学徒" 的我写了一封长邮件,列出了很多有用的建议,比如阅读 Arxiv、经常发布代码并撰写有关研究的博客文章。具体建议如下:

嗨,Jason,我记得你,很高兴收到你的来信!关于如何进行深度学习研究,我有一些(相当固执己见的)建议。这是一个列表(按最重要的内容 / 半时间顺序排列)。

  1. 阅读 Andrej Karpathy 的所有博客文章

  2. 阅读 Chris Olah 的所有博客文章

2.5 阅读你感兴趣的 Distill 上的任何帖子。或者看下我列出的帖子 (Qreydanus.qithub.io/)

  1. 也许 - 参加像 Andrew Ng 的 Coursera 课程这样的在线课程

  2. 绝对 - 使用 Jupyter Notebook、NumPy 和 PyTorch 编写简单的个人项目。当你完成它们时 a) 发布良好的、记录良好的代码(参见我的 github) b) 写一篇关于你所做的事情的简短博客文章(参见我的博客)

  3. 下载 Arx 应用程序,浏览 Arxiv(机器学习预印本的在线存储库)上的论文。每天左右在通勤途中检查一下。遵循 cs.LG、cs.NEstat.ML 标签。另外,请为以下作者加注星标:Yoshua Bengio、Yann LeCunn、Geoffery Hinton、Jason Yosinski、David Duvenaud、Andrej Karpathy、Pieter Abbeel、Quoc Lee、Alex Graves、Koray Kavukcuoglu、Gabor Melis、Oriol Vinyals、Jasch Sohl-Dickstein、Ian Goodfellow 和 Adam Santoro。如果及时了解他们上传的论文,并浏览我提到的三个类别中论文的标题 / 摘要,就可以很快对 SOTA 研究有一个有效的了解。或者:开始每天浏览 Arxiv Sanity Preserver 的 "热门炒作" 和"最近热门"选项卡。

  4. 当 / 如果你开始在达特茅斯进行研究时,请确保涉及深度学习的一些元素。

  5. 如果可以在 PyTorch 和 TensorFlow 之间进行选择,请选择 PyTorch。你会终生感激这个决定。

  6. 值得阅读的热门论文:AlexNet 论文、Alex Graves"生成序列" 论文、Jason Yosinski(他是一位优秀作者)的任何论文、神经图灵机论文、DeepMind Atari 论文,也许还有 Goodfellow 的 GAN 论文,尽管我还没有读过。如果可以的话,远离 GAN。

  7. 在 ML 阶段,简单问题 + 超简单实验 >> 大型、多 GPU 的工作。有很多好的研究(例如,到目前为止我几乎所有的工作)都可以在一台像样的 MacBook 上完成。

  8. 不要被这份清单淹没。你可能会找到更适合自己的道路。我能给出的最好建议就是重复 Richard Feynman 的建议:"以尽可能无纪律、无礼和原创的方式努力学习你最感兴趣的东西。"

Q:在研究道路上,关键的转折点、幸运时刻还有哪些?

A:最幸运的时刻还是加入谷歌 AI Residency 项目,这个项目的接收率大概是 1%,帮助我直接进入工业界。这是一个为期 12 个月的研究项目,参与者不必拥有博士学位,但你可以作为研究人员进行研究。如果在这个项目中表现出色,就可以留在谷歌担任长期研究员。

思维链 CoT,来源于深度冥想,让模型模仿人类的思维流动

Q:在 Google Brain 工作感觉如何,比如思维链的项目,是什么给了你灵感?

A:在 2022 年之前,在 Google Brain 工作被认为是最好的工作之一,当然现在仍然如此。在谷歌,你有很多自由和资源可以做任何你想做的事情。这相当理想。而且也可以发表很多论文,都会署名,也附带很多荣誉。我在的时期有点像 AI 研究的黄金时代,我非常爱谷歌。

Q:关于思维链(Chain of Thought),你给出的关键词是冥想。能详细说明一下吗?

A:对,我对冥想很感兴趣。冥想的作用是观测到你头脑中出现的所有想法,我称之为思想流(stream of thought),基本上就是连续不断流动的思想,为此我写了一篇评论文章 Artificial stream of thought has non-trivial connections to consciousness(jasonwei20.github.io/files/artif...

很多观点文章都认为,语言模型可以有思想流,也暗示着意识的存在。我想到可以参考人类如何解决数学问题的过程,在给出问题的答案之前,人类有一个内在的思考流程**,于是我从数学问题出发,尝试改变 prompt,发现了语言模型也可以具有内在推理能力**(要求模型在回答之前进行一系列思考过程,也就是思维链)。起初效果并不好,和模型大小有关,后来更加强大的 PalM 出现了,模型越大 CoT 可以做得更好。

后来我将这种思维链的技巧嫁接在解决其他类型的问题上,也表现得很好。技术上被称为思维链的原因是,思想流更像是杂乱无章地,随机在头脑中涌现的任何东西。而思维链则是一个更有逻辑或组织性质的思维过程。

Q:这种冥想的灵感是否和宗教有关?

A:不,我不信教,但我受到了 **Sam H****arris 所写的《Waking up--- A Guide to Spirituality Without Religion》一书的启发。**这就是我的灵感来源。

(编者注:《Waking up》一书作者为美国无神论者、公共知识分子、脑神经科学家 Sam Harris,这本书是写给美国人口百分之二十的"spiritual but not religious",即相信灵性的存在,但是没有宗教信仰的人。该书强调如何通过冥想消除人类对于自我的幻象,试图用脑科学研究、思想实验来证明:1)人的思维有更高维度的存在,我们认为的自我、喜怒哀乐其实都是虚幻的,基本就是佛教的世界观 2)人可以籍由冥想练习来达到空性的体验)

《觉醒:通往灵性的非宗教指南》,Sam Harris 著,阅读链接:www.amazon.com/Waking-Up-S...

Q:在谷歌,你也领导了 finetuning(微调)项目,这项工作面临哪些挑战?

A:对当时我们参与了 FLAN 项目,那时我们还不知道如何对语言模型做微调,所以很难防止过拟合。我和团队不得不做的一件事就是**为这些模型手动编写数百条不同的指令,以防止模型过拟合。**其次,要弄清楚实验设计并正确进行实验,当时微调的运算量很大。因此我们必须做出规划,运行消融实验等。同时也考虑设计实验,来评估零样本任务。我们率先在 Google 内部尝试微调大语言模型以遵循指令。

Q:所以你们团队是指令微调的先驱?

A:OpenAI 在我们之前就做过一些指令微调的工作,但他们没有发表相关论文。所以我们应该算是第一个在正式论文中提出指令微调(instruction tuning,原文链接:openreview.net/forum?id=gE...

Q:平时是如何组织团队,与最聪明的人一起开展项目的?

A:当你与真正优秀的合作者一起工作时,他们通常有非常高的标准。你需要不断强迫自己专注在重要的工作上,并拥有雄心勃勃的梦想。和他们一起工作时,每当你展示一个成果,他们都会不断地问,有什么方法可以做得比这个结果更好吗?他们通常会不断地 push 你做得更好。比如我的同事 Quoc V. Le 就经常对我说,如果你能用小 10 倍的模型来实现这个功能,那就太好了,这确实是一件很难实现的事情。

Q:你也写了很多关于涌现的文章,模型最让你兴奋的涌现能力是什么?

A:其中有三篇文章中提到的涌现能力最让我兴奋。

  1. 上下文学习(In-context learning,arxiv.org/abs/2303.03... mappings),而不是仅仅遵循格式;

  2. 思维链推理,尤其是分解。因为这意味着 AI 有一天可能能够解决极具挑战性的问题,例如气候变化;

  3. U 形缩放(U-shape Scaling:arxiv.org/abs/2211.02... U 形。

Q:如果继续沿着这条路走下去,未来可能会涌现什么样的模型能力?

A:我认为如果模型能具有规划能力会很有趣。如果你问它,解决这个数学问题需要哪 5 步,它很可能答不上来。可能单独的步骤能解决得好,但整体规划就做得很差。此外就是更好的通用性表现。当前最主要的问题是有时候语言模型不太可靠,在某些用例中你无法完全信任它,只有 90% 正确率。如果能跨过这个门槛,可能会非常有用。

OpenAI 的指针:无他,唯努力尔

Q:你是如何从 Google Brain 过渡到 OpenAI 的?与在 Google 工作相比,在 OpenAI 工作感觉如何?你喜欢那边的工作氛围吗?

A:我想体验下和不同的人一起工作,确实有很多人从谷歌离职了。在 OpenAI 的工作让人非常兴奋,所有人都对通用人工智能 (AGI) 充满热情。OpenAI 的员工工作非常努力,团队也很专注。你可以自由地从事自己想做的事情,当然大部分加入 OpenAI 的人都是想参与研究一些更庞大的事项,成为 GPT 这样项目的一员。

Q:在 OpenAI 和在 Google 工作最大的区别是什么?

A:谷歌最近也发生了很大的变化。因此很难进行同类比较。最大的变化就是从每个人都做自己的研究、选择项目转变为在核心目标更突出的庞大团队中工作。OpenAI 非常专注于构建 AGI,尤其是安全的 AGI。

Q:你之前的工作和目前 GPT-4 一类的项目联系如何?

A:我以前研究过大型语言模型,现在我仍然研究大型语言模型,很多东西仍然相关,包括前面提及我主导的两篇工作(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,arxiv.org/abs/2201.11... Abilities of Large Language Models,openreview.net/pdf?id=yzkS...

我过去学到的主要技能,其中两个最重要的是注重优先级和沟通能力。我认为这两项技能仍然非常相关,即使我不再写论文了。我仍然在做研究,但并不是我所做的所有研究都发表了。另外,GPT-4 的大部分工作是在我加入之前就已经完成了的,我在评估方面做了一点贡献。

Q:你自己的短期或长期研究目标是什么?

A:长期目标只是构建 AGI。我认为成为构建 AGI 的一员是一件非常深刻和令人兴奋的事情。

Q:所以 AGI 还有很长的路要走对吗?

A:取决于你对长的定义。

Q:构建 AGI 路径有很多,你在整个方案中 AGI 项目的工作定位是什么?

A:我想说这是一个很难回答的问题。我不知道通往 AGI 的道路。我认为我之前的一些工作更加关注语言模型可以进行推理的事实。而且,当你扩展语言模型时,你会获得这些你可能意想不到的新兴能力。我认为这是我在谷歌期间试图推广的两件事。

Q:如何看待人工智能的未来以及个人在该领域未来的研究方向?

A:我一直在思考的一件事是评估。很难进行模型评价的原因之一是:语言模型可以完成非常广泛的任务。它们生成这些非常长的补全内容,甚至人类也需要很长时间才能阅读。通常对于这些类型的任务来讲,没有明确的定义来说明什么样才是完美的实现效果。**在某种程度上,评价指标是研究人员所要优化的目标函数。**如果能深入了解模型的行为和局限性,就可以更好地引导研究人员做出正确的事情。

Q:关于涌现能力,未来的疯狂想象是什么?

A:我觉得未来重要的方向包括,更事实性不会产生幻觉的语言模型,可以使用工具与世界进行交互的多模态模型,以及一般意义上更加安全的模型。

Q:对于想要在这个领域开展职业生涯的人来说,你认为最重要的建议是什么?

A:工作真的要非常努力。不仅涉及研究本身,还涉及研究周期的所有部分,例如选择研究课题,并宣传这项工作,并且我有意识地努力与那些我真正钦佩并且能力非常强的人合作。在谷歌,对我影响很大的人是我的同事 Barret Zoph、Liam Fedus。他们的研究品味深深影响了我,并教会了我很多关于如何思考事物的知识。

Q:你如何定义工****作非常努力,意味着工作时间非常长?

A:工作的时长和专注程度一样重要。因此,你可以增加工作时间,也可以提升专注度。**我认为大多数人都喜欢尝试增加时间,但有时增加专注度可能会更有效。**我同时增加时间和专注度。

Q:你平时每天日程安排是什么样的?

A:我可能早上 10 点左右开始工作,工作到晚上 10 点或 11 点左右。也许每天会开几个小时的会议,当然还有中饭、晚饭以及回复电子邮件等其他事情。如果晚上有事情可能不工作。周末基本上工作一天,休息一天。睡眠和锻炼对我来说非常重要,我要确保自己每天睡眠充足,且每周至少锻炼 3 次。

Q:你会给自己时间思考一些事情吗?像之前说的冥想,工作间隙停下来思考一下,下一步该怎么做?

A:我可能应该这样做,但没来得及。我有点太忙了,然后停止冥想。

Q:如何平衡职业生活与个人爱好、兴趣?除了研究之外,你会利用空闲时间做什么?

我没有太多空余时间做其他事,不是非常擅长平衡工作和生活,也不认为每个人都应该渴望做到平衡。**事实是,能够持续努力工作的人会更加成功。没有哪个超级成功的人是不努力工作的。**我从别人那里听到的一个好策略是每周休息一天,其他日子都工作。当然有时上上推特,也见见朋友,但可能也只是每周几次这样。

不过我很喜欢旅行。在谷歌的时候几乎尝试参加所有外地会议,这会很有趣,而且这是结识新朋友和去新城市的好机会,非常酷。

对研究员的四点建议,推广与宣传不可忽视

Q:对于年轻研究人员如何更有效地发表论文有什么建议吗?

A:这篇博文(原文链接:www.jasonwei.net/blog/practi...

  • 首先,想法选择。

提出或选择一个要研究的课题,即 "研究品味" - 每个人都应该选择让自己感到满足的研究类型,但不同的研究口味的影响力并不相同。我喜欢简单、通用且经得起时间考验的研究课题,并尽量避免复杂、任务特定或短暂的项目。一个好的建议是要么(1)在一个热门课题上做得比其他人更好,要么(2)在可能成为下一个热门课题的领域上工作。策略一风险较低,需要非常努力。策略二风险较高,但潜在回报非常大。刚开始时,向经验丰富的研究人员询问他们的兴趣,并选择他们认为令人兴奋的课题是合理的。

大多数人(包括我自己)在想法选择上会受益匪浅,因为优秀的想法选择可以极大地提升研究的影响力。相反,无论执行得多么出色,如果研究课题狭窄且发展空间有限,项目的影响力都会受到限制。我还学到了识别已投入成本谬误的重要性 - 当我意识到在医学影像人工智能研究中进展不大时,我完全放弃了那个方向,并开始进行自然语言处理的研究。

  • 技能二:实验设计和执行。

在确定了研究课题之后,下一步是设计和执行实验,以证明一个想法有效,或者回答一个科学问题。实验设计通常是直接的,作为严谨性的检查,我喜欢向同事展示我的结果,并询问是否有遗漏的地方。快速执行实验是有益的,因为时间成本很高,而且可以向合作者表明你对项目的承诺。然而,为了速度而牺牲质量是不好的,因为重要的是树立做严谨和全面实验的声誉,即使是出色的想法也可能因为执行混乱而毁掉。

  • 技能三:撰写论文。

论文的写作方式可以极大地改变它的接收结果。从宏观上讲,我仔细考虑如何将实验结果与该领域的广泛背景联系起来,以便读者知道结果的重要性。我努力确保论文的结构清晰,逻辑流畅,并遵循学术写作的规范。此外,我注重使用清晰而准确的语言,避免使用模糊或含糊不清的术语。我还会请同事或导师对论文进行审查,以获取反馈和改进建议。最后,我相信在撰写论文时要保持耐心和恒心,因为这是一个需要时间和精力的过程。

  • 技能四:影响力最大化。

最终的技能主要在论文发表后出现,最大化你工作的影响力。尤其是关于推广工作这部分,很多人做得还远远不够。我认为这是最被低估的技能,也是最容易提高的技能。**最大化影响力的方法有很多,在 Twitter 上宣传工作、发表演讲、在会议上发言、撰写后续论文、录制 YouTube 视频、撰写博客文章等。**Twitter 上打广告可能是单位努力的最高回报。开源代码、数据或模型,以便其他人可以在此基础上运行实验也很重要。

Q:许多研究者觉得推广和宣传工作干扰主线,但实际上推广工作尽管费事,但却非常重要对吧。

A:很同意。虽然有点烦人,也不是研究中最有趣的部分,但贝尔实验室著名数学家 Richard Hamming 的建议是,应该花与实际工作(做实验写论文)一样多的时间来做宣传。

(编者注:Richard Hamming 原话曾经这样说,许多原本优秀的工作因为糟糕的宣传而石沉大海,后来又被其他人重新发现。很多时候,重要工作的发现者懒得把研究结果清楚地表达出来,导致工作的社会价值大打折扣。)

相关推荐
学习前端的小z15 分钟前
【AIGC】如何通过ChatGPT轻松制作个性化GPTs应用
人工智能·chatgpt·aigc
埃菲尔铁塔_CV算法43 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR43 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️1 小时前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
好喜欢吃红柚子1 小时前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python1 小时前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠1 小时前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
Debroon2 小时前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~2 小时前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习