Sora 的工作原理（及其意义） [译]

OpenAI 的新型文本到视频模型为电影制作开启了新篇章

DALL-E 提供的插图。

让我们先明确一点，我们不会急急忙忙慌乱。我们不会预测乌托邦或预言灾难。我们要保持冷静并...

你真的看到 SORA 了吗？？？

OpenAI 的新文本到视频模型可以生成一段 60 秒的高度逼真的视频，内容是两只可爱的在山顶上做播客的金毛寻回犬。它能生成一个闪亮的动物园的视频，在这里，一只老虎在镶满翡翠的围栏里懒洋洋地躺着，一只卷尾猴戴着国王的皇冠待在金笼子后面。它还能生成一个AI 意大利奶奶的视频，在乡村厨房里，她穿着粉色的花朵围裙，制作着意大利土豆饺子。(她的手看起来有点像在电影《一切无处不在》中的热狗手指，尽管如此，这也是一部电影！)

这就是疯狂，真是令人难以置信。这让 Mr. Beast 在推特上对 Sam Altman 说："请不要让我无家可归。"

有一句契诃夫的故事里说的话："我理解它就像我理解闪电一样。"他也可以这样描述 Sora。这些演示影片给我带来的震撼，就像电击般强烈。

呼，我很高兴终于说出了心里的话。这非常重要，因为写关于 OpenAI 这样一个热门新产品，有点像在心灵的穿梭于狭缝和哈吕布狄斯之间：

这种梗图格式的创意来自于 Visakan Veerasamy。

在我头脑的一部分，有种类似末日恐惧的情绪在警告我，如果不赶紧对那些数据中心进行改革，电影行业就可能会像梅尔·吉布森的职业生涯一样突然走下坡。而另一部分的我，对新技术充满了乐观和期待，已经开始策划，一旦我掌握了这个模型，我将创作出一部皮克斯风格的电影。我相信，世界终会发现我其实是乔治·卢卡斯的未被发现的接班人，尽管我从未亲手制作过一部电影。

然而，问题是，我知道我脑海中的这两种想法都是错误的。这就尴尬了。

我误将这种_新奇感_理解为了其他的东西。我从这些演示中得到的感觉，并不是我从观看一部精彩的电影、YouTube 视频或 TikTok 时所得到的感觉。为什么呢？因为我知道，随着时间的流逝，这些演示的新奇感会逐渐消失，它们将变得平常------甚至可能变得乏味。我将不再因它们而感到兴奋。而一部精心制作的电影将始终能够吸引人们。

对于这样的技术进步，保持冷静的最佳方式是以长期的趋势来看待它们。Sora，以及一般的 AI 制片，正是以下两个重要趋势的体现：

通过使用大量的数据和计算力，取得了令人瞩目的 AI 突破。
技术的发展降低了电影制作的成本。

让我们来深入探讨一下这两个方面。

Sora 是如何利用大数据创造出令人瞩目的视频片段的

AI 的效果取决于规模：数据和计算能力越大，结果越好。OpenAI 的 Sora 如此令人瞩目，是因为它找到了将更多的数据和计算投入到文本到视频转换中的方法，比其他人做得更多。以下是我从其白皮书中粗略理解到的公司如何做到这一点的简化版本。

想象一下《黑暗骑士》的电影胶片。你应该知道我在说什么：一个年轻人穿着红色夹克，将一卷胶片绕在一个金属盘上，然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开，然后剪下最前面的 100 帧。你挑出每一帧------这里是小丑疯狂大笑，那里是蝙蝠侠痛苦的表情------并进行以下不同寻常的操作：

你拿起一把 X-acto 精细刻刀，在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片，然后安全地保存起来。之后，你处理下一帧：在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片------形状与前一个完全相同------并将其精确地放置在第一个之上。你这样做，直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫，沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔，就好像有人在投影机前握着拳头，只让电影的一小部分影像从拳心通过。

然后，这座胶片塔被压缩并转化为所谓的"Patch"------一种随时间变化的色块。Patch 是 Sora 的基本单元，就像 GPT-4 的基本单元是"Token"。Token 是文字的片段，而 Patch 则是电影的片段。

GPT-4 被训练以处理一串 Token，并预测出下一个 Token。Sora 遵循相同的逻辑：它处理一系列的 Patch，并预测出序列中的下一个"Patch"。

Patch 的创新之处------以及 Sora 之所以显得如此强大------在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch------无尽的胶片塔------被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小，这就需要大量的预处理工作来裁剪视频至适当的大小。但是，由于 Sora 是基于"Patch"而非视频的全帧进行训练的，它可以处理任何大小的视频或图片，无需进行裁剪。

因此，可以有更多的数据用于训练，得到的输出质量也会更高。例如，将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频，裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入，所以其输出不会受到训练输入构图不良的影响。

Sora 的另一个重大突破是其所使用的架构。传统的文本到视频模型，如 Runway，是扩散模型（Diffusion Model），而文本模型像 GPT-4 则是 Transformer 模型。Sora 则是一个融合了两者的 Diffusion Transformer 模型。Sora 不是预测序列中的下一个文本，而是预测序列中的下一个"Patch"。通过使用这种架构，OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源，从而得到令人惊叹的效果。

当 Sora 的视频刚刚发布时，人们惊讶于其能模拟出咖啡在杯子里溅出的液体动力学。他们以为 OpenAI 已经将 Sora 连接到了一个游戏引擎（那些驱动视频游戏并能模拟物理现象的算法）以得到这样的结果。但实际上并非如此，Sora 完全能够自主生成这样的图像。

GPT-4 像是通过学习文本的语法规则，从而预测序列中的下一个词。

而像 Sora 这样的 Diffusion Transformer 模型则像是在学习物理学------宇宙的语法，从而预测视频的下一段内容。OpenAI 把 Sora 看做"世界模拟器"的第一步，能够用文本提示词来模拟任何现实中的场景。

这真是令人震撼！这将对电影制作产生重要影响。

技术如何影响电影制作

在一个视频如此普遍的世界里，会有什么不同呢？可能会彻底改变制作视频的方式，而这是一件好事。

电影制作历来都极其昂贵。摄像机、灯光、情绪不稳定的演员------这些都需要大量的_资金_。这就是为什么电影行业是一个行业，而不是一个艺术家的聚居地。

在电影的大部分历史上，只有少数人才能制作电影。因为制作电影需要冒险！你需要有资金去制作电影，而只有少数人才能筹集到足够的资金，承担一部电影制作失败的风险。制作电影就像创办一家公司。

然而，在过去的二十年间，这个情况有了改变。例如，互联网和 iPhone 等技术的出现，使得更多的人拥有了电影制作和分发设备。这催生了一种全新的电影制作形式，如 YouTube 视频、TikToks、Reels，和 Quibbis（或许 Quibbis 除外）。

这一代的电影制作有着自己独特的风格，完全不同于好莱坞电影，这种风格受到了可用技术和资源的制约和塑造。比如，YouTubers 以直接对镜头讲话，快速剪辑，以及展示日常生活琐事的视频日志而闻名，这些都是你能独自在房间里，用 iPhone 就能做到的。

AI 视频制作工具使得在你的房间里制作更多种类的视频变得更容易。比如 Runway，一个已经公开可用的视频制作工具，可以让你把一张图片，无论是真实的还是人工智能生成的，变成四秒钟的视频片段。你可以控制图片中的不同元素以不同方式移动，还可以控制摄像机的运动。这就好像你具有了让图片动起来的魔法，就像哈利·波特里的魔法照片一样。

这些工具也孕育了一种新的电影制作风格，这种风格受到了它们独特的能力和限制的制约和塑造。例如，它们让创建在新的环境和风格中使用熟悉角色的 AI 视频变得容易。常见的一种手法是把两部共享的流行文化作品混合在一起，就像在一段视频中，将《星球大战》的角色以韦斯·安德森的风格呈现。

另一个例子是，像 Runway 这样基于扩散模型的视频模型架构，在不同片段中保持角色一致性很困难。你可以让角色看起来有相似性，有一种家族的相似性，但是控制还不够精细，无法让角色看起来完全一样。因此，AI 生成的电影往往更像视觉拼接：一段几秒钟的剪辑，画面快速切换，旁边是讲述者在讲述一个故事，而不是像传统电影那样，一组固定的演员在镜头前进行对话。

Sora 是一种重大的技术突破，它使得 AI 电影制作者能够做更多的事情，而需要的资源更少。每一段片段可以长达 60 秒，这将使得更多种类的剪辑风格成为可能。Sora 可以进行的动态模拟和物理模拟远胜过任何公开可用的模型。这将允许创作出比目前可能的更复杂的场景，角色动作，以及角色与周围环境的互动。

这将对电影制作产生怎样的影响？

当今的 AI 电影制作

有时候，你会感觉整个世界都在帮助你，就像你在玩扑克时手里拿着一对不配的 2 和 3，最后一张河牌却让你意外地连成了顺子。恰巧的是，我对 AI 电影制作有一些了解，因为我在 Sora 发布前两天就采访了这个领域的一位领军人物，这个采访将在两周后在我的播客中直播。在此，我想先和你分享一些我学习到的内容。

Dave Clark是一位传统的电影制作人，他开始制作由 AI 生成的视频。他最近制作了一部名为Borrowing Time的科幻短片，灵感来自于他父亲在 1960 年代作为一名黑人的经历。他完全使用 Midjourney 和 Runway 来生成图像和视频，自己为电影配音，并使用Eleven Labs将他的配音转变成不同角色的声音。

_Borrowing Time_在网络上广受欢迎，Dave 告诉我他如果没有 AI，他不可能完成这部电影。他的这种类型的科幻短片在传统的好莱坞电影工作室是无法获得资助的。然而，现在这部电影已经发布并且受到了广大的欢迎，他表示他正在接触一些顶级的好莱坞电影工作室，他们希望将其改编成一部全长电影。

这个例子充分展示了像 Sora 这样的 AI 模型将如何改变未来的电影制作。

测试电影理念的成本将显著降低

如果你想在有 Sora 的世界中制作一部科幻电影，你只需要一台笔记本电脑和一些 OpenAI 信用点。更多的人将能够将他们的想象力变成视频，无需通过传统的审核或获得资金支持。而且，能够得到这个机会的不仅仅是播主或者 YouTuber 主播们，任何人都有可能。

那些获得关注的创意视频制作者更有可能获得资金支持，从而将他们的创意变为电影，正如今天的作家们通过推特和新闻简报来获得书籍出版的机会。

大预算电影的制作成本将降低

理想情况下，AI 工具将使传统的好莱坞电影的制作成本降低。比如，Everything Everywhere All at Once ，这部电影使用 Runway 进行特效制作，只需要八个人的团队，就能实现令人惊叹的特效（比如形似热狗的手臂！）。相比之下，_Shrek_的制作团队约有 300 人。

理论上讲，像 EEAAO 这样的作品应该会因为 Sora 而变得更为常见。但实际上，由于现有的商业结构和工会协议的限制，好莱坞可能无法充分利用这些工具。相反，新的电影制作形式可能会在其他地方崭露头角。

AI 电影制作将崛起，好莱坞的影响力将会降低

iPhone 和互联网的发展催生了视频博客和化妆教程的繁荣，同样，AI 电影制作也将创造出属于自己的电影类型，独特的风格和形式。我预期我们已经看到的那种视频会越来越多：利用现有的 IP 来制作混搭和剪辑，更快的剪辑和旁白独白会成为这个类型的主流，至少在技术再次发生变革之前是如此。（据我们所知，由 Sora 生成的视频中的演员无法表现出与特定对话线匹配的面部动作。）

这些 AI 制作的视频不会取代传统的好莱坞电影制作------就像 YouTube 视频没能取代------但它们可能会占据更多的市场份额，尤其是在年轻人群体中。

创造力的未来

在本文的前面，我们谈到了 Sora 正在延续的几个长期趋势：

数据增多和计算能力提升带来更出色的 AI 成果
技术降低了电影制作的成本，改变了哪种电影会被制作以及由谁来制作

希望这能让你们对 Sora 的一些能力有更宽广的理解。但还有一个我想要强调的重要趋势。

过去的几个月，我一直在写我们正从知识经济向资源配置经济转变：我们正在从一个你的收入取决于你知道什么的世界，转变为一个你的收入取决于你如何分配智能的世界。在这个世界中，即使是个人创作者或创业者也会成为管理者------不过我们管理的不再是人，而是模型。

显然，Sora 就是这个范式的一个例子：你越能熟练地运用它作为工具创造出惊人的东西，你在新经济中的地位就越高。但最令人兴奋的部分是，它扩大了可以在世界上创造事物的人的范围。

就像 GPT-4 让任何人只要有足够的坚持，就可以开发一个网络应用程序一样，Sora 让任何人都有可能制作一个视频。而当我说任何人时，我指的包括你。

Sora 并不意味着任何人只需轻轻一按按钮就可以制作出一部伟大的视频。讲故事需要更多的技巧、品味和热忱。但任何人都可以开始，学习这些技能，并有机会成为伟大的------只需要一台笔记本电脑。

如果你是一个有创造力的人，那么毫无疑问，这是生活的最好时代。

编者注： Sora 的解释已被刻意简化。构成"Patch"的视频像素在使用前都会被压缩至一个更小的潜在空间。欲了解更多细节，请查阅白皮书（文章中也已附有链接）。