Sora的发布,意味着什么?世界即将改变

自从以ChatGPT为代表的生成性人工智能工具出现以来,人们对它的兴趣并没有减弱。他们可以创作出精美的艺术品,与人类进行一定深度的对话,并撰写相当水平的论文。你如何看待这个近乎神奇的功能?人工智能专家对此也有两种完全不同的看法。一个派别认为它充其量只是一只超级鹦鹉。另一派则认为它是超越人性的先知。有趣的是,双方都有人工智能领域的超级专家代表。

超级鹦鹉派认为,ChatGPT实际上不懂单词,对它来说,单词就像标点符号一样,只是符号。它在寻找某种意义上匹配的东西。结果是,它将生成一个单词排名和相应概率的列表。当ChatGPT写这样一篇论文时,它实际上是在反复询问"基于现有文本的下一个单词应该是什么?"并每次添加一个单词。在每一步中,它都会获得一个具有概率的单词列表。ChatGPT总是根据概率从表中选择下一个单词,并将其添加到它正在写的文章中。它只从人类的文字中发现了概率,所以它只是一只学舌的鹦鹉。

问题是,这些概率是从哪里来的?有些人可能会考虑使用统计方法从大量文件中获得这些概率。但这是不可能的。以英语为例,常见的单词和符号约有40000个,任意两个符号的可能组合数量已达16亿,三个符号的可能性组合数量超过60万亿。当我们到达20个单词的"文章碎片"时,可能性的数量已经超过了宇宙中粒子的数量,因此我们无法使用统计方法从文本中估计所有这些可能性的概率。

ChatGPT在使用数学模型计算这些概率方面取得了突破。如果一个有科学和工程基础的人花时间深入阅读谷歌团队2017年发表的著名文章《注意力就是你所需要的一切》,你就会了解这些概率是如何获得的,并感受到几代人工智能技术工作者的才华。在谷歌论文的基础上,开放人工智能开发了ChatGPT。简单来说,第一步是建立一个名为Transformer的人工智能神经网络模型,该模型集成了人类语言的基本规律,具有1700亿个待定参数。第二步是通过研究大量文献来训练和确定这些参数。从而完成了模型的构建。

回到人类先知的视角。他们认为,在这个过程中,ChatGPT获得了以下三种功能,在这些方面超过了人类。

1、 深入理解单词概念和特征提取

在ChatGPT中,每个单词都表示为实数向量,实数向量是一个多维有序的数字序列。这有许多有用的功能。首先,使计算机能够使用数值来表示和处理单词。此外,单词之间的关系可以通过向量来计算。例如,向量的点积是标量,即单个数值。它表示两个向量之间的相似性或相关性。当点积结果为正时,表示两个矢量的方向基本相同;当点积结果为负时,表示两个矢量的方向基本相反;当点积结果为0时,表示两个矢量垂直或不相关。使计算机能够通过计算向量之间的距离来测量单词之间的相似性。例如,"苹果"和"桔子"在向量空间中的距离可能更近,因为它们都是水果。

在语言模型中有许多表达单词向量的方法。实验表明,当人类看到一个词表达的概念时,他们通常会将其与概念所具有的属性和特征联系起来。例如,"猫"这个词让我们想起动物、四肢奔跑等等。这些特性可以作为"猫"一词的元素。亚里士多德曾经说过:任何概念都可以用大约十个性质来描述,比如空间、大小、位置等。这可能是人类对一个概念的理解和提炼的数量级。在ChatGPT中,单词向量有512个维度,这为理解概念提供了更大的可能性。通过训练,ChatGPT可以提取512维的语义特征,这大大超过了人类对单词的理解。

2、 理解文学中词与词的关系

在一个句子中,单词之间有一定的关系,单词之间的相关性也各不相同。例如,在"中国最大的城市是什么?"这句话中,下面的"上海"一词比"拉萨"一词更相关。ChatGPT使用注意力机制来训练学习单词之间的关系。我们知道,掌握了快速阅读方法的人可以一目了然地阅读。这是因为他的大脑会专注于句子中的主要信息,这是大脑的注意力机制。ChatGPT使用几个注意力头来观察文献中每个单词之间的相关性,并使用单词向量来计算每个单词的相似性。最终的结果是,在一本几百页的书中,ChatGPT知道任何单词从第一个单词到最后一个单词之间的关系。人类不具备这种能力。

3、 利用培训学习和掌握大量知识

ChatGPT是一个使用人工神经网络方法建立的超大型数学模型,具有1700亿个权重参数。那么我们如何确定这些参数呢?与人类学习一样,这些参数也可以通过训练方法获得。最常用的训练方法被称为"反向误差调整法"。人们将一本书15%的内容屏蔽为输入,并要求模型计算和输出整本书。换句话说,ChatGPT需要基于85%的输入来猜测15%的内容。一开始,我确信我没有猜对,所以我会反复调整参数,直到我猜对为止。这个过程有点像调整电台。我们用耳朵听得准吗?然后继续转动旋钮,直到其准确无误。这里的旋钮就像ChatGPT中的一个参数,但有多达1700亿个。为什么我们需要这么多?因为有太多的培训和学习内容。这些内容主要是从互联网上抓取的问答、技术文档、教科书知识等类别的数据,据报道总计45TB。有人计算过,如果以一本10万字的中文书计算,45TB相当于2.5亿册图书,大约相当于北京17家图书馆的藏书量。可以想象,调整这么多参数来正确"猜测"这么多信息是一个"暴力美学"的过程。据说,训练Chat GPT的过程相当于3640天每秒计算数十亿次。具有如此大量信息的人工神经网络自然具有相当大的智能。这也远远超出了人类的范围。

尽管专家们对像ChatGPT这样的生成型智能工具的评估意见不一。但他们一致认为,超大模型在创造神奇功能方面发挥着至关重要的作用。当参数的数量超过一定水平时,模型将突然展现出以前不存在的能力。这种现象被称为"涌现",有点类似于物理学中的相变,或者更简单地说,"量变导致质变",魔法就产生了。

OpenAI发布的"世界模型"Sora为春节提供了一场"热辣滚烫"的技术盛宴。"现实不复存在"和"电影和游戏等行业将被颠覆"的声音不断高涨。对于Sora来说,过去60秒文化视频制作的地点、演员、取景、设置拍摄位置和后期制作的复杂过程只是一句话的问题。在没有导演和专业演员参与的情况下,Sora的视频可以生成高度详细的背景、复杂的多角度镜头和充满感情的角色。

尽管Open AI没有透露Sora模型的细节,但我们可以得出结论,与ChatGPT一样,它也是一个基于Transformer的神经网络模型,使用真实向量作为基本计算单元,类似于大型语言模型中的"单词"。Sora中的矢量由图像或视频帧"块"组成,将图像划分为一系列小区域,这些区域中的像素形成"块",这些块是模型处理和理解原始数据的基本单元。因此,Sora和ChatGPT在方法上没有本质区别。当然,Sora学习和记忆的是图像,而不是文献信息,因此训练方法也可能有所不同。如果ChatGPT对应于人类阅读,那么Sora就是人类视觉观察,显然具有新的广泛应用潜力。

相关推荐
通信仿真实验室32 分钟前
(15)衰落信道模型作用于信号是相乘还是卷积
开发语言·人工智能·算法·matlab
如果能为勤奋颁奖1 小时前
YOLO11改进|注意力机制篇|引入上下文锚注意力机制CAA
人工智能·深度学习·yolo
黄焖鸡能干四碗1 小时前
【需求分析】软件系统需求设计报告,需求分析报告,需求总结报告(原件PPT)
大数据·人工智能·安全·测试用例·需求分析
FL16238631291 小时前
[C++]使用C++部署yolov11目标检测的tensorrt模型支持图片视频推理windows测试通过
人工智能·yolo·目标检测
人生不如初见2 小时前
平台数据分类与聚类实验报告
人工智能·分类·数据挖掘·聚类
iiimZoey2 小时前
Dit架构 diffusion范式分类+应用
人工智能·python
唐小旭2 小时前
RL_足球教练
人工智能
winfredzhang2 小时前
如何使用Flair.ai实现模特换装效果
人工智能·换装·flair
程序员非鱼2 小时前
深度学习中的损失函数详解
人工智能·深度学习·计算机视觉·损失函数
SCBAiotAigc2 小时前
VSCode debug模式无法跳转进入内置模块
人工智能·vscode·python