引言

大家好，我是老王，在数字创新的浪潮中，视频内容的生成技术已成为研究和商业领域的热点。Sora项目不仅仅是一个里程碑，它开辟了使用文本条件扩散模型联合训练可变时长视频和图像的新领域。今天根据Sora公开的技术报告，和大家一起聊聊Sora的核心技术、潜在应用和挑战以及个人的一些想法。

1. Sora概述

1.1.Sora概述

Sora是一个在可变时长的视频和图像上联合训练文本条件扩散模型。这项技术的目标是模拟物理世界，将视频生成模型用作世界模拟器，创造出前所未有的逼真视频内容。通过深度学习和AI的结合，Sora展示了如何将复杂的现实世界场景转化为高质量的视频输出，这不仅推动了技术的边界，也为多个行业带来了新的可能性。

1.2.Sora目前的效果

能够根据文本语义，能够生成一分钟的高保真视频，并可以通过语料进行视频编辑，图片生成等能力

1.3.Sora意义

Sora的研究结果表明，缩放视频生成模型是构建物理世界通用模拟器的有希望的途径。

2.现有视频数据的生成建模的方法分析

视频生成建模是一个复杂的领域，过去几年中，研究者们采用了不同的方法来解决视频内容生成的挑战。我们先了解下当前的视频数据的生成建模方法并进行简单的分析，在和Sora对比有什么不通，Sora进行了哪些创新。

2.1递归神经网络（RNN）和长短期记忆网络（LSTM）

RNN和LSTM被设计用于处理序列数据，如时间序列数据或自然语言文本，它们能够在处理视频序列时捕获时间上的动态变化。

Srivastava等人的工作《使用RNN的视频表示的无监督学习》是一个典型的例子，他们通过RNN学习视频序列中的时间动态，并能够预测未来的几帧画面。这种方法在视频游戏和简单动画的生成中表现出了潜力。

局限性：

虽然RNN和LSTM在捕获视频数据的时间依赖性方面表现出色，但它们在处理长序列时面临梯度消失或爆炸的问题，限制了模型对复杂场景的理解和生成能力。

2.2 生成对抗网络（GAN）

GAN由一个生成器和一个判别器组成，通过二者的对抗训练，能够生成逼真的图像和视频。

Vondrick等人在《Generating Videos with Scene Dynamics》中，使用GAN生成具有动态场景的视频。他们的方法可以生成简短但逼真的视频片段，例如街道上行人的移动。

局限性：

尽管GAN能够生成高质量的视频片段，但训练GAN极具挑战性，特别是在生成长时间的视频内容时，容易出现模式崩溃问题。

2.3扩散模型

扩散模型通过逐步从随机噪声中生成数据的过程，模拟了自然界扩散过程的反向，最近在高质量图像生成方面取得了显著进展。

Ho等人提出的Imagen视频利用扩散模型生成高清视频，这标志着扩散模型在视频生成领域的一个重要突破。他们的方法可以生成短时高清视频，如自然景观的变化。

局限性：虽然扩散模型在生成静态图像方面取得了成功，但将其应用于视频生成时，需要大量的计算资源，并且对长时间视频的生成仍存在挑战。

3.Sora的视频处理方法

3.1.全新的数据处理方式

Sora的开发团队从大型语言模型（LLM）中获得灵感，这些模型通过对互联网规模数据的训练获得了通用能力。大语言模型的成功在一定程度上得益于令牌（token）的使用，这些令牌优雅地统一了文本代码、数学和各种自然语言的各种形式。Sora团队借鉴了LLM的成功，提出了"视觉补丁"（visual patches）的概念，将其作为视觉数据的有效表示方法。这种方法允许Sora处理和理解各种类型的视频和图像数据，使其成为一种高度可扩展且有效的表示方式。

在处理时，视频首先通过一个编码网络被压缩到一个低维的潜在空间，然后将压缩后的表示分解成时空补丁。这样的处理方式使得数据表示更为紧凑，为后续的模型训练和视频生成提供了便利。

3.2.视频压缩网络:

Sora采用了视频压缩网络（Video compression network）来减少视觉数据的维度，将原始视频压缩成一个低维的潜在空间。这个过程包括两个主要步骤：

视频到潜在空间的转换：通过训练一个编码网络，将原始视频转换为时空隐式表示（spacetime latent representations）。这个表示压缩了视频数据，同时保留了视频的关键特征。
基于潜在表示的视频生成：Sora在这个压缩的潜在空间中进行训练，并随后基于此生成视频。为了将生成的潜在表示转换回像素空间，还需要训练一个相应的解码器模型。

3.3.时空隐式patches

在视频压缩的基础上，Sora进一步将压缩后的数据分解为时空补丁。这些补丁不仅包含了空间上的信息（即图像的一部分），也包含了时间上的信息（即随时间变化的信息）。通过这种方式，Sora能够同时捕捉到视频中的空间细节和时间动态。这种分解方法使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。通过将视频数据切割成小块（patches），Sora可以更灵活地处理和生成视觉内容。时空补丁不仅适用于视频，也适用于图像，因为图像可以视为单帧的视频。

这些技术的应用使Sora能够生成高质量的视频和图像内容，支持多种应用场景，如将静态图片转换为动态视频、生成不同尺寸和纵横比的视觉内容等。通过视频压缩网络和时空补丁的结合，Sora在视频生成领域实现了显著的技术进步，提供了一种新的方式来理解和生成复杂的视觉数据。

3.4.缩放变压器与视频生成技术

缩放变压器的视频生成是Sora技术框架中的一个重要技术，它通过扩散模型和条件反射信息提示，训练成类似文本预测的模型，从而实现了高效的视频生成。扩散模型是一种高效的生成模型，它能够生成高质量的视频，并且能够有效地缩放到不同的尺寸和格式，满足用户的不同需求。通过这种方法，Sora能够生成与文本描述高度相关的视频，从而提高了用户体验和生成效果。

从左到右:采样越来越精细，计算越来越大，效果越来越好

3.5. 全新的视频尺寸处理方式

传统的视频处理方法会将视频裁尺寸和市场裁剪到标准尺寸。与传统的方法不同，Sora直接在原始大小的数据上进行训练，避免了视频裁剪或缩放带来的信息损失，从而保留了视频内容的丰富细节和质量，提高了数据利用率和生成效果。并且方便灵活采样，改善视频构图和画面布局，这种方法不仅提高了视频内容的质量，还为创作者提供了更多的创造自由度。

1.灵活采样，生成不同尺寸视频的展示

2.传统处理方法和Sora原始视频上处理方法生成视频对比

3.6.如何提升Sora对文本的理解能力？

要想实现通过文本生成视频，那么就需要提高Sora对文本的理解能力，一般通过以下几种方法：

3.6.1. 数据增强

通过对输入的文本提示进行数据增强，可以扩展模型对不同类型提示的理解能力。这可以通过引入同义词、反义词、近义词、以及对提示进行随机变换等方式来实现。数据增强能够让模型在训练过程中接触到更多样化的输入，从而提高其泛化能力和对不同提示的理解能力。

3.6.2.借助GPT

和DALLE3 类似，使用GPT来把用户输入的短prompt, 扩展到更详细的prompt，这使得Sora能够准确地按照用户提示生成高质量的视频

训练文本到视频生成系统需要大量带有相应文本标题的视频。Sora应用了DALL·E 330到视频。我们首先训练一个高度描述性的字幕器模型，然后使用它为训练集中的所有视频生成文本字幕。研究发现，对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

与DALL·相似E 3，Sora还利用 GPT 将简短的用户提示转换为更长的详细字幕，然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

4.Sora能力介绍

Sora技术报告介绍，除了text-to-video的能力，本身还支持图片和视频作为输入，图片输出，以及拟态能力。具体演示大家可以到官网观看，地址为：Video generation models as world simulators (openai.com)

4.2.把图片和视频作为输入

Sora技术框架不仅支持文本输入，还支持图片和视频输入，这为用户提供了更多的选择和灵活性，使得生成的视频内容更加丰富多样。Sora具有强大的多模态输入处理能力，可以同时处理文本、图片和视频输入，从而生成更加丰富多样的视频内容。通过支持图片和视频输入，Sora技术框架可以应用于更多的视频生成应用，如使静态图片动起来、扩展视频、生成循环视频等。

1. 让图片动起来