Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

Yann LeCun 最新哈德逊论坛演讲：**仅通过文本训练，LLM 永远不会达到接近人类水平的智能。**所以现在 Meta 已经转向了更长期的下一代 AI 系统研究，基本不再专注于 LLM 了。

LeCun说，扎克伯格一直在问他需要多长时间才能达到人类水平的 AI，而他告诉马克-扎克伯格，至少还需要几年甚至十年的时间。

人类智能有四个基本特征是目前的人工智能系统所不具备的：推理、规划、持久记忆和理解物理世界。

Yann LeCun 是 Facebook AI 研究院（Fair）的首席 AI 科学家，也是纽约大学的教授。他获得了许多奖项，包括 2018 年的 ACM 图灵奖。他是美国人工智能协会（AAAI）的成员，也是美国国家工程院院士。

我们来看看 Yann LeCun 最新的演讲又说了什么？

在不改变原意的情况下，Datawhale 进行了如下翻译和整理。

LeCun："人类级别的人工智能"

在这次演讲中，我将探讨人类水平的人工智能（AI），包括我们如何实现它，以及可能会遇到哪些阻碍。

什么是人类级别的 AI？

首先，我们确实需要能达到人类水平的人工智能。

因为在未来，我们大多数人将佩戴智能眼镜或其他类型的设备，在使用中会和它们交互。这些设备将承载着助手，可能不止一个，而是一整套。这就相当于在使用它们的过程中，我们每个人都拥有一支聪明的虚拟团队为自己工作。所以我们每个人都将成为老板，只是不是管理真正的人类，而是管理着很多虚拟员工。我们需要构建这个是为了从根本上增强人类的智能，让人们能够更有创造力、效率更高。

但是，要实现这一点，我们需要这些机器能理解世界、记忆事物、拥有一定的直觉和常识，以及能够像我们人类一样推理和规划。尽管大家经常可以看到有一些人对 AI 的能力有很高的评价，但实际上当前的 AI 系统并不能做到这些。

我们需要的是能够学习并建立世界模型的 AI 系统，它得具备持久记忆、能够规划复杂的行动序列，并且是可控和安全的。

仅通过文本训练，是永远不会达到接近人类水平的智能的。

为此，我曾在两年前一篇论文中提出过一个愿景：目标驱动的人工智能。

Facebook AI Research（简称为 "Fair"）的许多成员也在和我一起致力于实现这个构想。之前，我们 Fair 部门不仅做长期的前瞻性研究，还负责很多的应用型项目。但在一年半以前，Meta 创建了专注于 AI 产品的 GenAI 部门，他们会负责应用的研发。所以现在 Fair 转向了更长期的下一代 AI 系统研究，我们基本不再专注于 LLM 了。

目前的 AI 系统主要受限于自监督学习

过去五六年，包括 LLM 在内的很多 AI 系统的成功都依赖于自监督学习。

自监督学习包括训练系统以良好的方式表示输入，而非针对特定任务。其中一种方法是从损坏中重建，例如对于一段文本，可以通过删除或更改单词来破坏它，这种方法也适用于 DNA 序列、蛋白质甚至图像等。然后训练一个巨大的神经网络来重建完整的未损坏版本。

这是一个生成模型，因为它试图重建原始信号，但这会有一些问题：

上面图片的红色框就类似于一个代价函数，它计算输入 y 和重建 y 之间的距离，学习过程就是相对于系统参数最小化这个距离。在此过程中，系统学习到输入的内部表示，可用于后续任务，比如预测文本中的单词，这就是自回归预测。

LLM 是一种特殊的情况，它的架构设计使得在预测一个项目（如一个单词）时只能查看左边的其他标记，无法查看未来。通过训练系统并按照上述步骤操作，就可以实现自回归预测。

这不是一个新的概念，最早可以追溯到 20 世纪得 50 年代，自克劳德·香农以来就一直存在。但现如今变化的是我们拥有了巨大的神经网络架构，可以在大量数据上训练，实现了进步，有了以前没有的特性。

但是，自回归预测存在着一些局限性，它不是真正意义上的推理 ，而且还只适用于以离散对象、符号、标记、单词等形式出现的数据。

我们仍然缺少一些关键的要素才能达到人类水平的智力。

这里所说的不仅仅是人类水平的智力，即使是猫和狗能做到的一些事情，当前的 AI 系统也无法完全做到。一个 10 岁的孩子能一次性学会清理餐桌并装满洗碗机，一个 17 岁的孩子能在约 20 小时的练习中学会开车，但我们却还没有 L5 自动驾驶汽车，也没有能清理餐桌并装满洗碗机的家用机器人。

所以很明显我们缺少了一些重要的东西，否则 AI 系统应该能够做到这些。

莫拉维克悖论与人机对比的结论

我们常常会遇到莫拉维克悖论，即那些在我们看来微不足道、甚至不被认为是智能的事儿，机器却很难做到；但是，像高级复杂的抽象思维，比如语言、下棋，对机器来说似乎很容易。

也许其中一个原因在于，一个 LLM 通常在 20 万亿个 token 上进行训练，一个 token 对于一种典型语言来说，平均约为四分之三个单词，也就是 1.5×10¹³ 个单词，每个 token 约 3 个字节，总计 6×10¹³ 个字节。我们任何人要读完所有这些文本，大约需要几十万年。这基本是互联网上所有公开可用的所有文本的总量了。

然而，一个 4 岁的孩子清醒时间总共 16000 小时，有 200 万条视神经纤维进入大脑，每条纤维每秒大约携带 1 字节，也可能是每秒半个字节，数据量大约是 10¹⁴字节，与 LLM 数量级大致相同。

所以在 4 年内，孩子看到的视觉数据量和在整个互联网所有的公开文本上训练的最大的大模型所涉及的数据量一样多。

从这当中能得出这些结论：

首先，仅通过在文本上训练，我们永远不会达到接近人类水平的智能。

**其次，视觉信息非常冗余。**每根视神经纤维每秒传输一个字节的信息，与视网膜中的光感受器相比，这已经实现了100:1的压缩率。随后这些信息进入大脑，并在那里被扩展了大约50倍。

**冗余实际上是自监督学习所必需的。**自监督学习只能从存在冗余的数据中学习到有用信息。如果数据经过高度压缩，这意味着它几乎变成了随机噪声，你将无法从中学习到任何东西。

所以，我们需要通过让 AI 系统观看视频，或者真的在现实世界中体验生活，来训练它学习常识和物理直觉。

目标驱动的人工智能架构

再来说说我说的目标驱动的人工智能架构是什么，它与 LLM 或前馈神经网络不同，因为在它的推理过程中不仅仅是神经网络在起作用，实际上它运行的是一个优化算法。

从概念上讲，它的运作方式是这样的：前馈过程是指你观察到一个输入，通过感知系统运行，比如通过一系列的神经网络层，并产生一个输出的过程。

对于任何一个单一输入，通常只有一个输出，但在很多情况下，对于一个感知输入，可能存在多种可能的输出解释。你需要的是不仅仅计算单一函数，而是能够处理单个输入对应多个输出的映射过程。

实现这一点的唯一方法是通过隐函数，基本上就是像这里的目标函数，即上图的右侧的红色框所示，它主要用来衡量输入和提议的输出之间的兼容性，然后通过寻找与输入最匹配的输出值来计算最终输出。

你可以将这个目标想象成某种能量函数，并通过最小化这个能量来相对于输出进行优化。你可能会有多个解决方案，也可能会有一些方法来遍历这些多个解决方案。

人类的感知系统就是这样做的，如果你对一个特定的感知有多种解释，你的大脑会自发地循环遍历这些解释。

这个想法并不新，已经有 60 多年历史，在最优控制理论领域被称为模型预测控制。**其优势是可以在不学习的情况下完成新任务，我们经常这样做，面临新情况时，思考、想象行动后果并采取行动实现目标，这就是计划。**而且大多数推理形式都可简化为优化，这种通过优化进行推理的过程比仅仅运行神经网络的几层更强大。

我们可以构建一个包含世界模型、可根据任务配置的代价函数、找到最佳动作序列的执行器、短期记忆、感知系统等组件的 AI 系统。

以动作序列为例，如果要预测两个动作产生的结果，可多次运行世界模型，按时间展开，先获取初始世界状态表示，输入动作 0 的假设，用世界模型预测下一个状态，再输入动作 1 及下一个状态，计算成本，通过反向传播和基于梯度的优化方法找出最小化成本的两个动作，这就是模型预测控制。

更有趣的是，智能系统目前还无法解决，但人类可以轻松做到，甚至动物也能做到的事情，那就是分层规划。

比如，你计划一段从纽约前往巴黎的旅行。理论上你可以利用你对世界、自己身体的理解，以及你对从这里到巴黎的整体世界布局的认知，来规划整个旅程，包括低层次的肌肉控制。但如果细化到考虑每 10 毫秒的肌肉控制步骤，那将是一个巨大的数字。

因此实际上人类采用的是分层规划的方式。我们会先在非常高的层次上进行规划，然后逐步细化，最后在通过低级肌肉控制来完成的具体行动。

这对 AI 系统的确是个巨大的挑战。我过去一直在试图弄清楚婴儿在什么年龄学习关于世界的基本概念，比如像面部跟踪、生物运动等，这在他们学习语言和互动之前就已经发生了。但像重力、惯性、守恒、动量这些实际上大约在婴儿九个月左右才注意到。

联合嵌入预测架构：放弃机器学习四大支柱

过去像通过预测文本来预测视频中的像素这种方法完全失败了，这里我们提出的解决这个问题的方法是联合嵌入预测架构（JEPA）。

其思路是放弃预测像素，而是学习一种关于世界中所发生事情的抽象表示，然后在该表示空间中进行预测。这就是联合嵌入预测架构的原理：它对 X（损坏版本）和 Y 分别通过一个编码器进行处理，然后训练系统从 X 的表示来预测 Y 的表示。

那么如何做到这一点呢？

如果单纯使用梯度下降和反向传播这样的方法来训练系统，以减少预测误差，那么系统可能会失效。它可能会学习到一个恒定的表示，使得预测变得轻而易举，但却失去了信息量。

这里要记住一个区别：生成架构（如试图重建预测器的自动编码器等）与联合嵌入架构不同，联合嵌入架构是在表示空间中进行预测。

我认为未来在于联合嵌入架构，因为有大量经验证据表明，学习图像的良好表示最好使用这种架构。

所有通过重建来学习图像表示的尝试都效果不佳，尽管有很多相关大型项目声称有效，但实际上并非如此，最好的性能是由右侧架构获得的。

从本质上讲，**找到事物或现象的良好表示以便进行预测，**这正是智力的体现，也是科学的本质。

例如预测行星轨迹，行星虽复杂，但只需知道 6 个数字（3 个位置坐标和 3 个速度向量）即可。

那么要如何训练这样一个系统呢？

为了防止系统崩溃，可以设计一种代价函数来测量编码器输出表示的信息含量，尝试最大化信息含量或最小化负信息。训练系统时，要同时从输入中提取尽可能多的信息，并且最小化表示空间中的预测误差，使系统在提取信息和避免不可预测信息之间找到平衡。

这样，我们就可以得到一个可用于预测的良好表示空间。

至于如何测量信息，这是个较复杂的问题，我在此简要说明。

有一种从数学上基于训练能量模型和能量函数来理解的方法，但暂不深入探讨。

总之，我们要放弃一些传统方法：

放弃生成模型，转而支持那些联合嵌入预测架构（JEPA）；

放弃概率模型，转而支持那些基于能量的模型；

放弃对比方法。

还有放弃强化学习，这也是我过去十年一直在谈论的。

这些都是当今机器学习中最流行的四个主要支柱。因此目前我不受欢迎，会被喷...

一种具体做法是对编码器输出的信息含量进行估计，目前有六种方法，比如我在纽约大学和 Flatiron 的同事提出的 VICReg 方法。这里的核心思想是防止系统崩溃并只输出常数。

因此，我们要确保从编码器输出的变量有非零标准偏差，可通过在一批样本的成本函数中设置条件来实现。但系统可能会作弊，使变量相关，所以还需添加条件最小化变量协方差矩阵的非对角线项，并且可能还不够，还需将 sx 维度扩展到更高维空间 vx 并在此空间应用方差 - 协方差正则化。这里存在一个问题，我实际上是在最大化信息含量的上限，希望实际信息含量能跟随上限的变化，但我们没有信息下限，也不知道如何计算。

还有一种蒸馏式方法，它的工作原理很神秘。它的核心思想是只更新模型的一部分，而在另一部分不进行梯度的反向传播，并通过一种有趣的方式共享权重。

很多论文都有相关研究，如果想训练一个完全自监督的系统来学习图像的良好表示，这种方法效果很好。对于图像损坏采用掩码方式，近期在视频上也有应用，可以训练系统提取视频的良好表示用于下游任务，如动作识别视频等。其操作过程是对视频进行掩码处理，运行系统并在表示空间中进行预测，同时使用蒸馏技巧防止崩溃，效果显著。

未来，如果我们能够在这个项目上取得成功，得到能够推理、计划和理解物理世界的 AI 系统，可能需要花费数年甚至十年时间。

所以，如果我们能够成功实现这一点，我们将拥有真正能够调解我们与数字世界所有交互的系统。它们能够回答我们所有的问题，始终与我们相伴。它们基本上将成为所有人类知识的集合。

那时候它就不会像是一个产品，而更像是一种基础设施，就像互联网一样。

机器一定会超越人类的智力，但它们将受到控制

这个 AI 平台是必须要开源的。因为我们需要 AI 助手多样化，能理解世界上所有语言、文化和价值体系，这需要全世界的贡献。

而且训练基础模型成本高昂，只有少数公司能做，像 Meta 这样的公司开源提供基础模型，全世界都可以根据自己的需求的进行微调。

达到人类水平的 AI 需要多长时间？我觉得可能是几年到几十年。这个过程中存在很大的不确定性，并且有许多问题需要解决，而且它可能几乎肯定比我们想象的要困难得多。

它不会一蹴而就，而是渐进式进化。

因此，这个过程不会像有一天我们突然揭开了 AI 的秘密，拥有了超级智能，然后我们所有人都被一个超级智能系统所取代。

机器一定会超越人类的智力，但它们也一定会受到控制，因为它们是目标驱动的。

我们给它们设定目标，它们实现目标...

故事就讲到这里，当然背后也存在风险。

视频链接：

1\]https://www.youtube.com/watch?v=4DsCtgtQlZU\&t=37s 来源 \| Datawhale