Sora--首个大型视频生成模型

- - 胡锡进于2024年2月20日认为：台当局怂了
- 新的改变
- 世界模拟器
- 视觉数据转换
- 视频压缩
- [时空补丁（Spacetime Laten Patches）](#时空补丁（Spacetime Laten Patches）)
- 视频生成扩展变压器
- 算法和模型架构
- - 结语

胡锡进于2024年2月20日认为：台当局怂了

复制代码

 **TU商兴** 认为：不是怂了就可以的，台当局又不是小孩子

新的改变

对比现在文生视频的一流团队RUNWAY 、PIKA、SVD的生成效果，简直是造成了跨时代的碾压震撼效果！Runway 和Pika目前生成的视频时长都较短只有几秒，需要通过不断的拼接。

而且画面稳定性不强，如果需要呈现好的效果，需要创作者本身有非常强的视频剪辑及相关基础。而SORA这次最逆天的是，通过非常简单的文字描述，就可以生成画面稳定，理解能力强的长视频！Sora本次展示的是技术思路不同所带来的完全碾压。从关注二维像素的变化，变成关注语义理解的变化，从视频画面的生成，变成故事逻辑的生成。

之前无论是Runway、Pika、SVD等等文生图、文生视频都是在二维平面上对图像进行调整和组合，但是Sora的视频，显示它能像人一样理解一些基础的物理规律，这是 OpenAl利用它的大语言模型优势进行的超强语义理解，是真正层面的世界模型。只有实现对现实世界的理解和对真实世界的模拟，这样产生的图像和视频才是更加真实的效果。这次Sora带来的震撼或许不仅仅是影视行业，而是未来可能扩展到其他行业，视频展示的是对真实世界物理规律的再现！

英伟达的高级科学家Jim Fan认为 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻引擎。可以把 Sora 看作是一种可学习的模拟器，或者说是一个能模拟现实世界的"世界模型"。这种方法可以让 Sora 更好地理解和模拟现实世界的物理现象。

世界模拟器

OpenAI目前开发的Sora视频生成模型技术，将完全超越现有的视频生生成模型，如Runway和Pika。这项技术的核心是一个创新的"世界模拟器"，它是一个基于文本条件的扩散模型，通过从大量的视频中学习，这些视频涵盖了不同的时长、宽高比和分辨率。这个模拟器的训练过程涉及吸收和处理海量的视觉数据，使其能够根据文本描述生成相应的视频内容。例如，当输入"太空人的冒险故事，他戴着一顶红色羊毛编织的摩托车头盔"这样的描述时，模型能够理解含义，并且生成与之相符的视频画面。

该模型还具备生成视频的灵活性和多样性，支持不同的时长和分辨率设置，其最大输出规格可达1920*1080的分辨率和30帧/秒的帧率。

视觉数据转换

简单来说，OpenAI在视觉数据处理领域，将视觉数据转换为"patch"这一个个单元体，它可以将图像和视频帧分割成"补丁"状的小块。这些"补丁"作为视觉模型的基本输入单元，使得模型能够学习和理解如何表示以及重建视觉场景。在此基础上，模型能够在特定条件，如文本描述的引导下，生成新的图像或视频内容。

这种处理方式与大型语言模型中的"token"概念相似，token是文本数据的基本处理单元。在语言模型中，文本被分解为较小的片段以实现语言的理解和生成。同样地，视觉模型的训练过程涉及将不同类型的视频和图片转换成patch，作为模型输入的基本单位。这个过程可以理解成首先将视频压缩到一个较低维的潜在空间，然后将视频转换为patch，并进一步分解为"spacetime patches"(时空补丁）。

视频压缩

研究者开发出一种专门的视频压缩网络。该网络的核心是一个经过训练的神经网络，其设计宗旨在于降低视觉数据的多维度复杂性。而所谓的"降低维度"，指的是将数据从高维空间------例如原始视频数据，包含了海量的像素信息------转换到低维空间。这一过程的目的是对数据进行简化，提取关键特征，同时减少后续处理所需的计算资源。

这个神经网络接受原始视频作为输入，并输出一个在时间和空间上都经过压缩的潜在表示（latent representation）。时间上的压缩意味着减少了表示视频动态变化所需的信息量；空间上的压缩则意味着减少了表示视频中每一帧图像所需的信息量。在这个压缩的潜在空间中，Sora模型首先进行训练，学习如何理解和控制这种形式的数据。经过训练，Sora能够在这个潜在空间内生成新的视频数据。

为了将Sora生成的潜在表示转换回原始的像素空间，研究者还训练了一个解码器模型。

解码器的作用是将压缩的视频数据还原成可以直接观看的视频格式。

时空补丁（Spacetime Laten Patches）

在视频数据压缩完成后，接下来的关键步骤是提取一系列的"Spacetime Latent Patches"，这些Patches包含了视频在特定时间和空间范围内的信息。这些Patches在transformer模型中扮演的角色类似于自然语言处理中的单词token。这种方法不仅适用于视频数据，也适用于图形数据，使得不同分辨率、时间和宽高比的视频和图像能够作为Sora模型的训练集。

在模型推理，即生成新的视频内容时，可以通过在适当大小的网格中排列随机初始化的Patches来控制生成视频的大小。这个过程类似于在自然语言处理中，模型根据给定的token生成新的文本内容。通过这种方式，Sora模型能够根据需要生成不同大小和格式的视频，为视频生成和编辑提供了更大的灵活性和多样性。

视频生成扩展变压器

Sora模型的根基是建立在Transformer架构之上的扩散模型。

该模型通过接收输入的噪声Patches和文本提示等调节信息，能够有效地预测出"干净"的Patch。

这种架构在大型语言模型、计算机视觉和图像生成等领域都有着广泛的应用。在训练过程中，使用固定的种子和输入，随着计算量的增加，生成样本的质量会显著提高。这种训练方式使得Sora模型能够逐步学习并优化其生成能力，从而在处理视频和图像数据时，能够输出更加精细和逼真的结果。

##数据和训练

Sora通过分析和理解大量包含物理互动的视频，学习到了物理规律的表现形式。例如，它可以观察到苹果从树上落下来的视频，学习到重力的效应；看到球在地面上滚动的视频，理解到惯性和摩擦力如何影响物体的运动。通过这些观察，Sora能够生成新的视频，其中的物体和人物遵循现实世界的物理规律。

算法和模型架构

Sora使用的算法和模型架构（如扩散模型和变换器）使其能够在视频生成过程中考虑时间和空间的连续性。

这意味着它不仅能够理解单个画面中物体的位置和状态，还能够理解这些物体随时间如何变化和移动。

这种时空连续性的理解是让生成的视频看起来符合物理规律的关键

结语

Sora通过分析大量的视频数据、学习物理规律的表现，并利用先进的算法理解和模拟时空连续性，从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理，最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!