Sora 技术参考文献

-- Adversarial video generation on complex datasets

计划根据openai关于Sora介绍的参考文献，做一系列的技术介绍。

openai 关于Sora的介绍网址。对于该文章的翻译和简介见文章

Adversarial video generation on complex datasets

文章主要内容

生成模型在自然图像领域通过大规模数据的强有力利用，已经取得了生成高保真样本的进展。文章尝试将这一成功经验应用到视频建模领域。文章提出了一种模型，双视频鉴别器生成对抗网络（DVD-GAN），通过计算效率高的鉴别器分解方法，扩展到更长和更高分辨率的视频。在视频合成和视频预测的相关任务上进行评估，并在Kinetics-600数据集上达到了新的预测状态最先进的Fréchet Inception Distance（FID），以及在UCF-101数据集上达到了合成状态最先进的Inception Score（IS），同时在Kinetics-600上建立了一个强大的合成基线模型。

笔者总结

这篇文章是进行视频的生成。这篇文章的主要贡献在于：

模型具有更高的计算效率，能够生产更清晰逼真的视频
设计了两种判别器，分别判别单个图像生成的逼真程度，和视频时间维度的流畅性。
两种判别器分别通过采样和下采样的方式，减少了计算量。
提出了一种基于视频，进行预测未来视频桢的视频生成模型。这个生成的范式跟现在的SORA的应该挺像的了。基于已有的视频片段，预测未来视频桢。

模型

与之前的一些工作不同，本文章的生成器并不包含对前景、背景或运动（光流）的显式先验，即模型不需要输入前景图片、背景图片、运动流图片；相反，本文章依赖于一个高容量的神经网络以数据驱动的方式学习这些内容。

大白话说就是不需要输入其他图片，只需要根据随机数向量，即可生成视频。模型的生成能力主要依赖于神经网络中的参数，不依赖于外界条件。

文章提出的DVD-GAN模型架构如上图所示。左侧是视频生成器，右侧是判别器。

生成器根据高斯随机向量，以及一个类别向量，通过循环神经网络和ResNet生成视频桢序列。

判别器部分，通过使用两个判别器来解决训练过程中训练计算量的规模问题：一个空间鉴别器DS和一个时间鉴别器DT。DS通过随机采样k个全分辨率帧并单独评判它们来批评单帧内容和结构。文章中选择k=8。DS的最终得分是每帧得分的总和。时间鉴别器DT必须为G提供生成运动的学习信号。为了使模型可扩展，文章对整个视频应用空间下采样函数φ(·)，并将其实出输入到DT。我们选择φ为2×2平均池化，使得判别器不处理整个视频的像素值。

用大白话来说就是，判别器分为两个部分DS和DT。DS负责判断生成的图像是否逼真；DT负责判断生成的视频是否流畅。DS是从视频中随机采样出8桢图片进行判别，从而减少计算复杂度。DT部分，首先将视频进行下采样，然后通过判别器，判别视频是否流畅，从而减少计算量，并使的这个判别器更专注于视频的流畅性，而不是图像内容的逼真程度。

此外，作者还提出了一种条件生成模型。模型架构如下图所示，模型基于现有的一些视频桢，预测未来的视频情况。

给定C个条件帧，修改后的DVD-GAN-FP通过一个与DS相同的深度残差网络单独传递每个帧。G和DS的残差块的（几乎）对称设计意味着，来自D风格残差块的每个输出在G中都有一个相同空间分辨率的相应中间张量。在每个块之后，每个条件帧的结果特征在通道维度上堆叠，并通过一个3×3的卷积和ReLU激活函数。所得的张量被用作G中相应块的卷积GRU的初始状态。请注意，帧条件堆栈降低了空间分辨率，而G则增加了分辨率。因此，条件帧的最小特征（经过最多层的特征）最早输入G，而较大的特征（经过较少处理的特征）则在最后输入G。DT作用于条件帧的拼接和G的输出，这意味着它不会接收到任何额外信息，指出前C帧是特殊的。然而，为了减少计算量，文章在真实或生成的数据上不对DS采样前C帧。最后，视频预测变体不依赖于任何类别信息，这使得模型能够直接与以前的艺术作品进行比较。这是通过将所有样本的类别ID设置为0来实现的。

Sora 技术参考文献 - （6）Adversarial video generation on complex datasets

Sora 技术参考文献

Adversarial video generation on complex datasets

文章主要内容

笔者总结

模型