关于 OpenAI Sora的一些探索和思考

探索 OpenAI 的 Sora：一种突破性的文本到视频 AI，将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。

OpenAI 最近宣布了其最新的突破性技术------Sora。到目前为止，这种文本到视频的生成式 AI 模型看起来令人印象深刻，为许多行业带来了巨大的潜力。在这里，我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。

什么是Sora？

Sora 是 OpenAI 的文本到视频生成式 AI 模型。这意味着您编写一个文本提示，它会创建一个与提示描述相匹配的视频。

下面是 OpenAI 网站的一些示例：

提示：一位时尚女士走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。

OpenAI Sora 的例子

1、提示：美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。

2、提示：使用 sora 拍视频，拍出高级感摄像机紧随一辆白色老式SUV，车顶有黑色行李架，在陡峭的山路上加速前行，周围是长满松树的陡峭山坡，扬起了尘土。

3、传统上，制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中，一个想要推广加州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头，或者他们可以使用人工智能，从而节省时间和金钱。

一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽 #艺术在抖音一架无人机摄像头围绕着建在意大利阿马尔菲海岸陡峭岩石上的美丽历史悠久的教堂，景色展示了其历史

SORA能做什么

Sora 生成的视频长达 60 秒，OpenAI 表示，用户可以通过要求该工具按顺序创建其他剪辑来扩展视频.

Sora 能够创建长达一分钟的视频。
Sora 可以生成具有动态摄像机运动和不同角度的连贯逼真的视频。
Sora 可以模拟影响世界状态的简单动作，例如画家在画布上留下笔触或一个人吃汉堡时的凹痕。

从根本上说，Sora是一个非常大的计算机程序，经过训练可以将文本字幕与相应的视频内容相关联。从技术上讲，Sora 是一种扩散模型（与许多其他图像生成 AI 工具一样），具有类似于 ChatGPT 的转换器编码系统。开发人员使用从视频剪辑中去除视觉噪音的迭代过程，训练 Sora 从文本提示中生成输出。Sora 和图像生成器之间的主要区别在于，它不是将文本编码为静止像素，而是将单词转换为时空块，这些块共同组成一个完整的剪辑。

从 OpenAI 披露的信息来看，人们可以将 Sora 与文本、图像和视频提示一起使用。它在 3D 一致性方面表现出色，并且可以保持整个场景的连贯性。Sora AI 可以模拟现实世界的人、动物和风景。

文字转视频

Sora 可以理解您的指示并生成更长的视频。

prompt：一只棕色和白色的边境牧羊犬站在滑板上，戴着太阳镜

图像到图像/视频

您可以将静止图像转换为图像、动画或动态视频。

向后或向前扩展

Sora 可以在时间上向前和向后扩展视频------根据您的指示从视频的片段开始。如果您之前对 AI 图像绘制感到惊讶，那么这个视频扩展功能简直令人兴奋到抓狂。

使用此功能，您可以创建有趣的循环视频以进行无限播放。

视频到视频

风格转换 ：Sora 可以将一个视频的风格和元素转换为另一个视频。对于在山上行驶的汽车，您可以将其改装为在茂密的丛林或赛博朋克城市街道上比赛。
视频合并 ：Sora 可以将两个视频合并为一个，以获得迷人的视觉体验。

Sora AI 视频的最佳提示

虽然 Sora AI 尚未公开访问，但内部创作和官方展示视频让我们一睹其功能。以下是一些最好的 Sora 提示。

Prompt：一只小熊猫和一只巨嘴鸟是最好的朋友，在蓝色时间在圣托里尼漫步。

Prompt：蚂蚁在蚂蚁巢内部导航的 POV 镜头。

技术方面：时空补丁、扩散和变压器模型

OpenAI 在他们的研究页面上分享了创建 Sora 时的见解，这里有一些简短的解释。

将原始视频输入到 OpenAI 训练的网络中，该网络可以降低视频和图像的维度。
网络输出一个在时间和空间上压缩的潜在空间。
Sora可以从这个压缩的潜在空间生成视频（Sora也在这个潜在空间上接受过训练）。
然后，有一个解码器模型可以将生成的潜在（我们看不见的地方）"翻译"回像素空间（我们可以看到的地方）。

通过扩散模型，Sora 可以从输入噪声补丁中预测原始的"干净"补丁。使其更具可扩展性的是扩散变压器。例如，在给定固定种子的情况下，32 倍计算可以比 4 倍计算更好地提高视频质量。

这里的补丁是 Sora 对 ChatGPT 等大型语言模型中的文本标记 的类比。在训练过程中，从压缩的输入视频中提取时空补丁，并作为 transformer 模型的 token。

这种基于补丁的方案帮助 Sora 成为通用模拟器，不受视频分辨率、纵横比和持续时间的限制，从而消除了其他型号由于固定规格而产生的错误。

换句话说，这就是我们看到那些惊人的逼真视频在空间和时间上都保持一致的原因。

虽然 Sora 主要被框定为文本到视频生成器，但它也旨在作为构建"世界模拟器"的平台，或者用 OpenAI 的话来说，"物理世界的通用模拟器"。更多内容可以在Sora研究论文看到。

从上面的技术讨论中，我们可以看到，时空补丁的使用对于为世界模拟器提供燃料至关重要。