在2024年2月15日，OpenAI 介绍了其今年最为突破性的人工智能创新------Sora。Sora 不仅是一款前沿的文本到视频转换模型，更是在技术发展史上的一座里程碑。它拥有生成多种宽高比和分辨率下、长达一分钟的高质量视频的独特能力，将现有技术水平提升到了新的高度。与市面上其他同类产品相比，Sora的先进性不容小觑，功能之全面、扩展性之强大，使其获得了"世界模拟器"的美誉。

本文目的是向那些对Sora尚未有深入了解的读者提供一个清晰、易懂的介绍。不论您是在社交媒体上偶然瞥见一些由Sora生成的视频，还是对人工智能技术抱有浓厚兴趣，这里都将是您获得宝贵信息的宝库。我们将不仅仅是浅尝辄止地介绍Sora模型，而是深入其技术细节，引用技术报告中的"非同寻常"内容，并借助一些精心挑选的示例，以及对Sora训练方法及未来可能升级的深刻见解和假设，全面、生动地展示这一创新技术的精髓。

尽管OpenAI对外公布了Sora，但目前该模型还未正式发布，仍处于内部的红队测试和安全审核阶段。OpenAI正通过这一过程，期待能从全球的政策制定者、教育工作者以及艺术家那里收集宝贵的反馈。此外，为了确保技术的负责任使用，OpenAI也在积极研究开发旨在识别由Sora生成的视频的检测分类器，并探索防止误信息传播的有效策略。

Sora 是一个文本转视频模型

Sora代表了在文本到视频转换领域的一个巨大飞跃，其高质量输出令人印象深刻。以下是三个我个人极其喜爱的示例，展示了Sora技术的多样性和创新能力。第一个示例以其惊艳的色彩搭配抓住了我的视线；第二个示例则以其逼真度震撼了我，让人难以相信这是由AI生成的视频；而第三个示例则凭借其超凡的风格，展现了Sora在艺术创作上的潜力。这些示例不仅展示了Sora技术的先进性，也预示了未来在创意和艺术表达方面的无限可能。

Sora 不仅仅是一个文本到视频的模型，它的功能远超过简单的缩放或其他基本技术。通过文本提示，Sora 能够将静态图像动画化成视频，具备以下创新功能：

从现有视频创建全新视频，通过增加场景、创建循环、延长视频时长，甚至进行帧间插值，如融合无人机与蝴蝶的场景（以及其他示例）；

尽管主要是视频生成模型，Sora 也能够从文本生成高质量图片（类似于 DALL-E 和 Midjourney，而且在某些方面可能更胜一筹），这得益于其内部的重新标题过程（这一过程在 DALL-E 3 中已有体现，但在Sora中扩展到视频生成）；

Sora 在视频相关的生成方面，尤其是视频内容的创造，执行得比任何竞争对手都要好（例如与 Google Lumiere 对比）。

Sora 是一种扩散 transformer

Sora 是一种融合了扩散模型（DALL-E 3）和变换器架构（ChatGPT）的先进技术。这种结合使得模型能够像 ChatGPT 处理文本一样处理视频（视为一系列时间序列的图像帧）。

具体来说，OpenAI 受到 DeepMind 在视觉变换器方面工作的启发，采用了一种将视频和图像表示为称为"时空补丁"的较小数据单元集合的方法，这与 GPT 中的"令牌"概念类似。以下是来自技术报告的一个高层次可视化展示：

正如我之前提到的，这份技术报告因其细节内容稀缺，难以复制研究工作或深入理解技术细节，因此"值得引号"。关于其确切的架构，我们所知甚少，仅知道它是一个扩散变换器；关于训练数据，我们也所知不多，只知道是有标题的视频。

一种我见过的假设认为，至少部分训练数据来自 Unreal Engine 5（如元人类、矩阵演示）或其他3D引擎（这是根据产生的特定人工瑕疵推测的）。使用神经辐射场（NerF）数据也是另一种假设。可能还有我们永远不会知道的各种数据混合使用。

Sora 是一个通用的、可扩展的视觉数据模型

Sora 不仅能够从文本生成图片和视频，或是将图片和视频转换成其他视频，它还以一种通用且可扩展的方式完成这些任务，这是其竞争对手所不具备的。

例如，Sora 能够在单个生成的视频中创建多个镜头，并准确地保持人物角色和视觉风格的连续性。它可以制作长达一分钟的视频，同时也可以根据需要制作更短的视频。用户可以制作不同分辨率的纵向、方形和横向视频。根据报告："Sora 能够生成宽屏的1920x1080p视频、纵向的1080x1920视频以及介于两者之间的所有类型。"这里有一个示例。

视频地址：twitter.com/_tim_brooks...

Sora 的多功能性以及可扩展性似乎遵循了与语言模型相似的规模化法则。仅仅通过增加计算能力，就能显著提高质量，这得益于变换器架构的特性。这里有一个示例。

视频地址：twitter.com/tsarnick/st...

正是这种通用和可扩展的特性，激发了人们对于AI将颠覆好莱坞和影视制作行业的预测。考虑到进步的速度，想象在几个月内，AI模型能够创造多场景、多角色的复杂视频，长达5到10分钟，并不是不可能的事。

还记得一年前的威尔·史密斯吃意大利面吗？

视频地址：www.youtube.com/watch?v=XQr...

Sora 是一个（原始的）世界模拟器

Sora 被誉为一款（原始的）世界模拟器，这一消息让我感到既兴奋又有些担忧。

首先，来简要回顾一下。Sora 是一个文本到视频的模型。虽然它比其他模型更加出色，但这种技术已经存在。Sora 是一个扩散变换器。同样，OpenAI 并非发明了这种组合，尽管他们加入了一些有趣的自定义成分。Sora 是一个通用且可扩展的视觉模型。从这里开始，事情变得越来越有趣。它为未来的研究打开了可能性，值得我们感到惊讶。

但最重要的是，Sora 是一个能够创建物理上合理、具有可信实世界互动场景的AI模型。Sora 是一个世界模拟器。确实，它还很原始（有时候失败得如此之惨，不得不称之为"梦幻物理学"），但它是第一个这样的尝试。

OpenAI 表示，Sora 不仅理解风格、风景、人物、物体和提示中存在的概念等，而且还理解"这些事物在物理世界中的存在方式"。我想对这一说法进行一定的限定，Sora 的奇异失败表明，虽然它可能学习了一套隐含的物理规则来指导视频生成过程，但这并不是一个稳固的能力（OpenAI 也承认了这一点）。但无疑，这是朝那个方向迈出的第一步。

OpenAI 对于 Sora 作为世界模拟器的更多描述（为了清晰已编辑）：

【Sora 能够】模拟物理世界中人类、动物和环境的某些方面。这些属性是在没有任何明确的3D、物体等归纳偏见下自然产生的------它们完全是规模现象。

模拟能力包括：3D一致性；长距离连贯性和物体持久性（例如，我们的模型可以持续保持人物、动物和物体，即使它们被遮挡或离开画面）；与世界互动（例如，画家可以在画布上留下随时间持续的新笔触）；模拟数字世界（例如， Minecraft ）

吉姆·范的看法（以及他对海盗船战视频的分析）：

Sora 是一个端到端的扩散变换器模型。它直接将文本/图像输入并输出视频像素。通过大量视频的梯度下降，Sora 在神经参数中隐式学习了一个物理引擎。Sora 是一个可学习的模拟器，或称为"世界模型"。

视频地址：twitter.com/DrJimFan/st...

当然，它并没有显式调用 UE5 [Unreal Engine 5]，但有可能将 UE5 生成的（文本，视频）对作为合成数据添加到训练集中。

OpenAI 以以下句子结束了博客文章：

Sora 为那些能理解和模拟真实世界的模型奠定了基础，我们认为这将是实现通用人工智能（AGI）的重要里程碑。

OpenAI Sora：距离黑客帝国仅一步之遥

Sora 是一个文本转视频模型

Sora 是一种扩散 transformer

Sora 是一个通用的、可扩展的视觉数据模型

Sora 是一个（原始的）世界模拟器