AI 寒冬曾造成机器学习和 AI 对齐之间的分歧，上世纪 90 年代，AI 对齐领域天马行空的畅想与机器学习的惨淡现实形成了鲜明对比，人们普遍对机器学习的发展持悲观态度。自2010年以来，以深度神经网络为代表的 AI 技术飞速发展，AI 对齐随之成为被逐渐重视的研究方向。

AGI 是 AI 技术发展的终极目标，鉴于这项技术的深远影响，近期在旧金山举办的AI对齐论坛的演讲上，OpenAI 首席科学家 Ilya Sutskever 指出，促进人们形成关于 AI 对齐与机器学习的统一，将 AGI 安全纳入机器学习的主流方向十分必要。他还称，通用人工智能和超级智能很有可能在我们有生之年实现，实现巨大的变革，我们不该局限于现有观念，对其潜力设限。

（以下内容由OneFlow编译发布，转载请联系授权。原文：
www.youtube.com/watch?v=OPZ...

作者 | Ilya Sutskever

OneFlow编译

翻译｜杨婷、宛子琳

目前，AI 领域发展迅速，通用人工智能（AGI）已不再是天方夜谭。

现在，我先补充一些相关背景知识，以帮助大家了解当前状况的成因。AI 对齐和机器学习一直在研究相关问题，但直到最近，它们才开始有了交集。

AI 对齐与机器学习

AI 对齐和 AGI 安全的起源可以追溯到早期的科幻文学。当时人们还可以任意发挥想象力，尚未受到现今的技术限制。人们会思考如下问题："如果我们拥有一个足够强大的 AI 系统，它能够执行研究、科学、工程和技术等任务，能够进行 AI 研究、编程和芯片设计，并且还能将上述能力整合到一起进行管理，那将发生什么？"

扪心自问，我们或许会得出这样一个答案：那将会导致重大变革。随之而来的问题自然是：如此强大的 AI 似乎也会带来许多挑战，作为普通人，我们应该如何更好地利用 AI？这就是 AI 对齐诞生的原因。

机器学习领域也有着类似的科幻起源。在1940年代和1950年代，一些有远见的科学家开始思考以下问题，比如：什么是智能？大脑是如何运作的？我们能否在计算机上构建大脑？是否可以创造出人工神经网络？计算机能够进行学习吗？对于以上问题，当时的研究人员十分乐观，他们相信人类水平的 AI 将在五年内实现。

AI 寒冬

但事实证明他们错了，随后 AI 寒冬到来，造成了机器学习和 AI 对齐之间的分歧。AI 寒冬的后果是什么？它阻碍了机器学习的进展，使人们对机器学习的发展前景变得悲观而绝望。

当时，计算机的运行速度十分缓慢，在这种情况下，机器学习难以取得任何成就，传统的符号 AI 成为唯一可用的 AI，在 70、80 甚至 90 年代，符号 AI 主导了 AI 领域。在计算机如此缓慢的情况下，符号 AI 是唯一的选择。这种情况给 AI 领域造成了极大创伤，人们对 AI 的发展普遍持悲观态度。当时，AI 要取得进步是一件十分困难的事，因此，任何进步都值得赞扬。

人们对 AI 的悲观态度持续了很长时间，即使到了2010年代初期，这时早期深度学习已在视觉和语言等多个任务上取得了进展，但人们对 AI 的悲观情绪却仍在持续。我也是悲观者之一，在我看来，尽管 AI 已经发展到了一定程度，但这些都是暂时的，发展一定会停滞，AI 寒冬终将卷土重来。

上述情况导致了 AI 领域的分道扬镳，由此形成了 AI 对齐和机器学习两个领域。在 AI 对齐领域，人们可以尽情发挥想象力，就超级智能和 AI 提出最大胆的问题，想象 AI 在何种情况下会变得更好或更糟。而机器学习虽然对神经网络和一些之前的成果（如支持向量机）非常熟悉，但它只能勉强分类分辨率很低的数字。

面对这两种截然不同的情况，人们自然无法将 AI 对齐和机器学习联系在一起，AI 对齐似乎太过疯狂，与机器学习的现实差异太大。但上述看法只适用于 90 年代或上世纪初，现在已经过时。

众所周知，AI 在 2010 年代获得了飞速发展，在视觉识别、翻译、摘要生成、游戏对战以及围棋等领域取得了惊人成果，此外，图像生成、聊天机器人等技术也逐渐成为现实。AI 近年来的发展好比是一辆高性能汽车，从 0 码提速到 60 码只需两秒。

上面这张漫画在 Twitter 上经常出现，生动地描绘了机器学习的现状：要么发展过慢，要么发展过快，中间只有短暂的过渡，就像美国东海岸的夏天。

让 AGI 安全成为主流

现在，通用人工智能（AGI）不再是一个暗淡无光的词汇。阿瑟·C·克拉克（Arthur C. Clarke）在他的《未来的轮廓（Profiles of the Future）》一书中探讨了原子能、火箭和航天飞行三个重要的技术革命。在每个技术革命取得突破前不久，总会有专家以坚定的口吻声称该技术是不切实际的，永远不可能成为现实。

目前，AGI 也面临着相似的情况，这种现象十分有趣。尽管 AGI 在某些方面仍然有着令人难以想象的地方，但它正在逐渐变为现实。消除或进一步减少《未来的轮廓》中描述的一个问题是：想象力缺失 。正是因为缺乏想象力，上述专家才敢断言那些技术革命不会成为现实。想象力的匮乏导致他们在某些方面过度自信。然而，现在有大量证据表明，AI 已今非昔比，但在很多方面，我们仍受到想象力的限制。

希望大家能解决上述问题，使我们能够迈出坚定的步伐，将 AGI 安全纳入机器学习的主流方向。

机器学习领域有众多研究人员，将 AGI 安全纳入机器学习主流能带来更多益处。我们应该将 AGI 安全与基础策略相结合，那么为什么要关注基础策略？

对齐为何重要？

首先是对齐。很多机器学习领域的人可能还没有接触过与对齐相关的概念。从基础层面出发，我们将探讨对齐面临的问题和挑战。即使不涉及具体的解决方案，对上述问题的探讨本身就很有价值。

我想花几分钟时间提出几点论证，以强调对齐的重要性。在机器学习领域，人们可能会问，我们一直都能让人工智能系统按照我们的意愿工作，为什么这会发生改变呢？

接下来，我们将探索不同的 AI 范式，并探讨为何对齐可能会变得更难或更容易。

监督学习

在监督学习中，我们使用由人类标注者生成的数据集进行训练，在语音识别中，我们使用人类标注者对语音进行标注；在机器翻译中，有人类译员对语音进行翻译；在视觉识别中，我们会训练神经网络来模仿由这些数据产生的行为。

在这些情况下，数据理解对我们来说相对容易。我们对这些数据有很多见解，因此，当我们利用已充分理解的数据进行监督学习时，可以不用太担心训练结果。

无监督学习

无监督学习与上述情况有所不同，原因如下：当我们在大量互联网数据上对神经网络进行预训练时，我们知道神经网络获得了一些与语言和世界相关的知识。然而，我们对它们所学知识的理解相对有限，不能确定它们究竟学到了什么。

由于我们对神经网络的行为了解较少，难以让神经网络实现我们所期望的行为。实证表明，这些模型仍然存在编造内容的情况。这一点很重要，如果这一点微不足道，模型就不会编造内容。

因此，与简单的监督学习中的语音识别、计算机视觉等任务不同，无监督学习面临着新的困难，这些困难可能以一种出乎意料的方式给我们感到惊讶。

这一点在 Sydney（微软 Bing 搜索的生成式 AI 聊天机器人）上表现尤为明显。Sydney 具有丰富的个性，这并不完全符合 Bing 创建者的最初意图。在现实世界中，有更多的经验证据表明，一旦开始无监督学习，情况就会变得更为复杂。

当然，问题的关键在于，AI 系统的性质以及对齐的难易程度会随着范式的改变而改变。第二个范式是强化学习。

强化学习

如今，强化学习已成为正在构建的聊天机器人中不可或缺的一部分。在预训练之后，会启动强化学习阶段，通过某种（或一组）奖励函数进行训练。或许我们可以通过机器学习来具体说明。

在某种程度上，我们确实可以做到这一点，并且还能取得不错的效果，尽管我们确实会遇到早期对齐思考者假设的过度优化问题。例如，优化奖励函数或者优化从人类教师那里学到奖励模型可能会非常容易，但我们也很容易就会学到一些意料之外的东西。强化学习的过程非常复杂，事实上，强化学习还具备一定的创造性。

尽管我们可以快速解决过度优化问题，但强化学习面临着更为关键的挑战：创造性。在 AI 领域，每一个令人惊叹的创新都源自于强化学习。

例如，AlphaZero 通过强化学习发明了一种全新的游戏策略，人类打磨完善这个游戏已经有数千年。强化学习能够针对问题提出创造性的解决方案，而这些方案可能是我们所无法理解的。

如果 AI 在与真实世界进行互动时，同时以我们认为有益的结果为目标，并展现出极高的创造力，那么在中长期时间跨度上进行强化学习，会带来怎样的结果？

这个问题确实存在，但并不意味着它无法解决。事实上，这表明一些相对简单的方法可能会受到一些出人意料的创造性影响，使得 Sydney 的"花招（antics）"变得合情合理。

AGI 与超级智能

最后，让我们尽情展开想象，来探讨通用人工智能这一终极目标。当你编程的 AI 输出了成千上万行的代码时，会发生什么？这将是一个庞大程序。你可以进行一些单元测试，甚至可以与这个程序交互。

这是一个全新的、亟待解决的问题，即确保 AI 系统输出的十万行代码内部不包含任何可疑内容。我们希望努力控制这些代码的生成过程。然而，这也带来了另一个全新挑战。

这个问题并不简单。当我们无法理解 AI 的输出，而且它具备强大的创造力及实际行动能力时，训练 AI 或理解其行为并不容易。

现在，想象一下，如果你拥有一个能够管理一家公司或实验室的 AI，会发生什么？

最后一个问题有关欺骗（deception），顺便提一下，这对于那些有严格的机器学习背景的人来说是一个更有趣的想法。如果有这样一个人工智能，它非常智能，在训练过程中展现出了高超的医疗能力，但实际上，这个 AI 更想成为一名 YouTuber（视频号博主），这时会发生什么？

结语

总的来说，通用人工智能和超级智能有可能出现，而且可能将在短期内实现。 虽然很难给出确切时间点，但相关进展确实发展得非常迅速，因此我们不应该局限于现有观念，不应该对其潜力设限。

AGI 将产生极其巨大（Mega gigantic）的影响，实际上，"极其巨大"只是 AGI 影响力的保守下限而已。面对这样一项影响深远的技术，谁也无法预测接下来会发生什么，一切皆有可能。

话虽如此，但至少在技术层面上，我们可以提供一定的保证，确保问题是出在人类操作上，而不是出在技术本身的行为上。这是我们可以追求的一个相对较低的基本目标。

当前的一个具体目标是，我希望让更多的人对 AI 对齐和机器学习有一个更加统一的认识。目前，这两种想法可能存在一些脱节之处，将它们联系起来并赋予更加完整的内涵具有非常重要的意义。这是我关于 AI 的未来愿景，希望通过讨论、交流等活动，这一愿景终能成为现实。

欢迎 Star、试用 OneFlow 最新版本：

github.com/Oneflow-Inc...

OpenAI首席科学家：直面AGI的可能性

AI 对齐与机器学习

AI 寒冬

让 AGI 安全成为主流

对齐为何重要？

AGI 与超级智能

结语