Sora的发布，意味着什么？世界即将改变

自从以ChatGPT为代表的生成性人工智能工具出现以来，人们对它的兴趣并没有减弱。他们可以创作出精美的艺术品，与人类进行一定深度的对话，并撰写相当水平的论文。你如何看待这个近乎神奇的功能？人工智能专家对此也有两种完全不同的看法。一个派别认为它充其量只是一只超级鹦鹉。另一派则认为它是超越人性的先知。有趣的是，双方都有人工智能领域的超级专家代表。

超级鹦鹉派认为，ChatGPT实际上不懂单词，对它来说，单词就像标点符号一样，只是符号。它在寻找某种意义上匹配的东西。结果是，它将生成一个单词排名和相应概率的列表。当ChatGPT写这样一篇论文时，它实际上是在反复询问"基于现有文本的下一个单词应该是什么？"并每次添加一个单词。在每一步中，它都会获得一个具有概率的单词列表。ChatGPT总是根据概率从表中选择下一个单词，并将其添加到它正在写的文章中。它只从人类的文字中发现了概率，所以它只是一只学舌的鹦鹉。

问题是，这些概率是从哪里来的？有些人可能会考虑使用统计方法从大量文件中获得这些概率。但这是不可能的。以英语为例，常见的单词和符号约有40000个，任意两个符号的可能组合数量已达16亿，三个符号的可能性组合数量超过60万亿。当我们到达20个单词的"文章碎片"时，可能性的数量已经超过了宇宙中粒子的数量，因此我们无法使用统计方法从文本中估计所有这些可能性的概率。

ChatGPT在使用数学模型计算这些概率方面取得了突破。如果一个有科学和工程基础的人花时间深入阅读谷歌团队2017年发表的著名文章《注意力就是你所需要的一切》，你就会了解这些概率是如何获得的，并感受到几代人工智能技术工作者的才华。在谷歌论文的基础上，开放人工智能开发了ChatGPT。简单来说，第一步是建立一个名为Transformer的人工智能神经网络模型，该模型集成了人类语言的基本规律，具有1700亿个待定参数。第二步是通过研究大量文献来训练和确定这些参数。从而完成了模型的构建。

回到人类先知的视角。他们认为，在这个过程中，ChatGPT获得了以下三种功能，在这些方面超过了人类。

1、深入理解单词概念和特征提取

在ChatGPT中，每个单词都表示为实数向量，实数向量是一个多维有序的数字序列。这有许多有用的功能。首先，使计算机能够使用数值来表示和处理单词。此外，单词之间的关系可以通过向量来计算。例如，向量的点积是标量，即单个数值。它表示两个向量之间的相似性或相关性。当点积结果为正时，表示两个矢量的方向基本相同；当点积结果为负时，表示两个矢量的方向基本相反；当点积结果为0时，表示两个矢量垂直或不相关。使计算机能够通过计算向量之间的距离来测量单词之间的相似性。例如，"苹果"和"桔子"在向量空间中的距离可能更近，因为它们都是水果。

在语言模型中有许多表达单词向量的方法。实验表明，当人类看到一个词表达的概念时，他们通常会将其与概念所具有的属性和特征联系起来。例如，"猫"这个词让我们想起动物、四肢奔跑等等。这些特性可以作为"猫"一词的元素。亚里士多德曾经说过：任何概念都可以用大约十个性质来描述，比如空间、大小、位置等。这可能是人类对一个概念的理解和提炼的数量级。在ChatGPT中，单词向量有512个维度，这为理解概念提供了更大的可能性。通过训练，ChatGPT可以提取512维的语义特征，这大大超过了人类对单词的理解。

2、理解文学中词与词的关系

在一个句子中，单词之间有一定的关系，单词之间的相关性也各不相同。例如，在"中国最大的城市是什么？"这句话中，下面的"上海"一词比"拉萨"一词更相关。ChatGPT使用注意力机制来训练学习单词之间的关系。我们知道，掌握了快速阅读方法的人可以一目了然地阅读。这是因为他的大脑会专注于句子中的主要信息，这是大脑的注意力机制。ChatGPT使用几个注意力头来观察文献中每个单词之间的相关性，并使用单词向量来计算每个单词的相似性。最终的结果是，在一本几百页的书中，ChatGPT知道任何单词从第一个单词到最后一个单词之间的关系。人类不具备这种能力。

3、利用培训学习和掌握大量知识

ChatGPT是一个使用人工神经网络方法建立的超大型数学模型，具有1700亿个权重参数。那么我们如何确定这些参数呢？与人类学习一样，这些参数也可以通过训练方法获得。最常用的训练方法被称为"反向误差调整法"。人们将一本书15%的内容屏蔽为输入，并要求模型计算和输出整本书。换句话说，ChatGPT需要基于85%的输入来猜测15%的内容。一开始，我确信我没有猜对，所以我会反复调整参数，直到我猜对为止。这个过程有点像调整电台。我们用耳朵听得准吗？然后继续转动旋钮，直到其准确无误。这里的旋钮就像ChatGPT中的一个参数，但有多达1700亿个。为什么我们需要这么多？因为有太多的培训和学习内容。这些内容主要是从互联网上抓取的问答、技术文档、教科书知识等类别的数据，据报道总计45TB。有人计算过，如果以一本10万字的中文书计算，45TB相当于2.5亿册图书，大约相当于北京17家图书馆的藏书量。可以想象，调整这么多参数来正确"猜测"这么多信息是一个"暴力美学"的过程。据说，训练Chat GPT的过程相当于3640天每秒计算数十亿次。具有如此大量信息的人工神经网络自然具有相当大的智能。这也远远超出了人类的范围。

尽管专家们对像ChatGPT这样的生成型智能工具的评估意见不一。但他们一致认为，超大模型在创造神奇功能方面发挥着至关重要的作用。当参数的数量超过一定水平时，模型将突然展现出以前不存在的能力。这种现象被称为"涌现"，有点类似于物理学中的相变，或者更简单地说，"量变导致质变"，魔法就产生了。

OpenAI发布的"世界模型"Sora为春节提供了一场"热辣滚烫"的技术盛宴。"现实不复存在"和"电影和游戏等行业将被颠覆"的声音不断高涨。对于Sora来说，过去60秒文化视频制作的地点、演员、取景、设置拍摄位置和后期制作的复杂过程只是一句话的问题。在没有导演和专业演员参与的情况下，Sora的视频可以生成高度详细的背景、复杂的多角度镜头和充满感情的角色。

尽管Open AI没有透露Sora模型的细节，但我们可以得出结论，与ChatGPT一样，它也是一个基于Transformer的神经网络模型，使用真实向量作为基本计算单元，类似于大型语言模型中的"单词"。Sora中的矢量由图像或视频帧"块"组成，将图像划分为一系列小区域，这些区域中的像素形成"块"，这些块是模型处理和理解原始数据的基本单元。因此，Sora和ChatGPT在方法上没有本质区别。当然，Sora学习和记忆的是图像，而不是文献信息，因此训练方法也可能有所不同。如果ChatGPT对应于人类阅读，那么Sora就是人类视觉观察，显然具有新的广泛应用潜力。