51-44 Generating Long Videos of Dynamic Scenes，生成动态场景长视频

22年6月，NVIDIA, UC Berkeley联合发布Generating Long Videos of Dynamic Scenes，这也是Sora技术报告中提及的32篇论文之一。

作者的主要贡献是提出了分层生成器架构Hierarchical Generator Architecture，该架构采用了巨大的时间感受野和创新的时间嵌入，优先考虑时间轴Time axis。通过多分辨率方法Multi-Resolution，首先生成低分辨率的视频，然后使用单独的超分辨率网络对其进行细化，生成丰富动态Rich and Dynamics的任意长视频Arbitrarily Long Videos。

Abstract

我们提出了一个视频生成模型，可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。现有的视频生成方法往往无法在保持真实环境中预期的一致性的同时产生作为时间函数的新内容，例如看似合理的动态和对象持续性。一个常见的失败案例是由于过度依赖归纳偏置来提供时间一致性，内容永远不会改变。例如使用单个潜在编码来指示整个视频内容。另一方面，在没有长期一致性的情况下，生成的视频在不同的场景之间可能存在不切实际地变形。为了解决这些限制，我们通过重新设计时间潜在表示来优先考虑时间轴，并通过在较长视频上进行训练来从数据中学习长期一致性。为此，我们利用两阶段训练策略，我们分别使用低分辨率的较长视频和高分辨率的较短视频进行训练。为了评估我们模型的能力，我们引入了两个新的基准数据集，明确关注长时间动态。

1 Introduction

ideos 是随时间变化的数据，具有复杂的相机视点模式、运动、变形和遮挡。在某些方面，视频是无界的------它们可能会持续任意长的时间，并且随着时间的推移，可能出现的新内容数量没有限制。然而，描述现实世界的视频还必须与物理定律保持一致，这些定律规定随着时间的推移哪些变化是可行的。例如，相机可能只沿着平滑路径通过 3D 空间移动，对象之间不能相互变形，时间不能向后移动。因此，生成逼真的长视频需要能够产生无尽的新内容，同时结合适当的一致性。

在这项工作中，我们专注于生成具有丰富动态和新内容的长视频，这些视频随着时间的推移而出现。虽然现有的视频生成模型可以产生"无限"的视频，但沿时间轴的变化类型和数量非常有限。例如，一个人说话的合成无限视频将只包含嘴部和头部的小动作。此外，常见的视频生成数据集通常包含短片段，随着时间的推移几乎没有新的内容，这可能会无意中将设计选择偏向于对短片段或一些帧对进行训练，迫使视频中的内容保持不变，或者使用具有小的时序感受野的架构。

我们第一个使用时间轴来实现视频生成。为此，引入了两个新的数据集，其中包含运动、相机视点的变化以及物体和风景随时间的进出。通过对长视频进行训练来学习长期一致性，并设计了一个时间潜在表示，可以对复杂的时间变化进行建模。图 1 说明了我们的模型能够生成的丰富运动和风景变化。

图 1: 我们的目标是生成能够准确描绘运动、不断变化的相机视点以及随着时间推移出现的新内容的视频。

我们的主要贡献是分层生成器架构，该架构采用了巨大的时间感受野和创新的时间嵌入。

我们采用多分辨率策略，首先生成低分辨率的视频，然后使用单独的超分辨率网络对其进行细化。天真地以高空间分辨率对长视频进行训练是非常昂贵的，但我们发现视频的主要外观在低空间分辨率仍然存在。这一观察结果使我们能够用低分辨率的长视频和高分辨率的短视频进行训练，使我们能够优先考虑时间轴并确保准确地描述长期变化。低分辨率和超分辨率网络单独训练，两者之间有一个RGB bottleneck。这种模块化设计允许独立迭代每个网络，并利用相同的超分辨率网络进行不同的低分辨率网络消融。

与最近几个视频生成模型相比，我们的模型达到了最先进的性能，能生成具有真实运动和变化内容的长视频。这些代码、新数据集和预训练模型将开放可用。

2 Prior work

视频生成是一个历史悠久的挑战性问题。经典的早期作品，视频纹理和动态纹理通过类似于图像纹理将视频建模为纹理。也就是说，它们明确地假设内容随着时间的推移是静止的，例如火灾燃烧、烟雾上升、树叶下降、摆摆动等，并使用非参数或参数方法对平稳分布进行建模。尽管后续的视频合成工作已经删除了纹理moniker，多限制仍然相似------短训练视频和模型，在视频中产生很少或没有进入帧的新对象。下面我们总结了最近在视频生成方面的一些努力。

**Unconditional video generation.**许多视频生成工作基于 GAN，包括输出固定长度视频的早期模型，和使用循环网络用于生成帧的一系列潜在编码的方法。MoCoGAN明确地将"运动"与"内容"分离，并将后者固定在整个生成的视频中。StyleGAN-V是我们用作主要基线的最新最先进模型。与MoCoGAN类似，StyleGAN-V采用了控制整个视频内容的全局潜在编码。与之前基于StyleGAN 视频模型不同，我们通过新的时间潜在表示、时间上采样和时空调制卷积来优先考虑生成器中的时间轴。我们还与DIGAN进行了比较，它使用隐式表示逐个像素地生成视频像素。

Transformers 是用于视频生成的另一类模型。TATS使用transformer生成长无条件视频，在VideoGPT基础上进行了改进。TATS 和 VideoGPT 都采用类似 GPT 的自回归transformer，它将视频表示为标记序列。然而，由此产生的视频往往会随着时间的推移累积误差，并且经常发散或变化太快。由于模型在时间和空间上的自回归性质，这些模型的训练和部署也很昂贵。在并行工作中，使用基于扩散的模型证明了生成不同视频的良好结果。

**Conditional video prediction.**另一项研究侧重于预测未来视频帧，以一个或多个真实视频帧或伴随动作标签的过去帧为条件。一些视频预测方法侧重于通过调节摄像机轨迹和/或显式预测深度来生成无限场景，然后模拟通过3D场景飞行的虚拟摄像机。另一方面，我们的目标是通过隐式地呈现场景结构来支持相机运动和移动物体。

**Multi-resolution training.**在多个尺度上进行训练是图像生成模型的常见策略，基于transformer的视频生成器也采用了相关的两阶段设置。SWGAN提出了一种用于视频生成的多尺度GAN，在训练过程中提高空间分辨率和序列长度，生成固定长度的视频。相比之下，我们的多分辨率方法multi-resolution明确旨在通过利用低分辨率长序列训练的能力，生成丰富动态的任意长视频。

3 Our method

对真实视频中观察到的长期时间行为进行建模，碰到两个主要挑战。首先，我们必须在训练期间使用足够长的序列来捕获相关效果；例如，连续帧对无法为几秒钟内发生的效果提供有意义的训练信号。其次，我们必须确保网络本身能够在长时间尺度上运行；例如，生成器的感受野仅跨越 8 个相邻帧，任何超过 8 帧以上的两帧必然彼此不相关。

图 2：架构总览。(a)为实现长时间感受野和高空间分辨率，生成器分为两个组件：一个是低分辨率生成器，负责对运动和场景组成的主要外观进行建模，另一个是超分辨率网络，负责更好的细节。(b)低分辨率生成器采用宽的时间感受野，并用64^2分辨率的128帧序列进行训练。(c)超分辨率网络以低分辨率帧的短序列为条件，训练后产生256^2分辨率的合理对应物。

图2a显示了生成器总体设计。用可变长度的时间噪声流作为生成过程的种子，该时间噪声流由从i.i.d.高斯分布提取的每帧8个标量分量组成。时间噪声首先由低分辨率生成器处理，以获得分辨率为 64^2 的 RGB 帧序列，然后通过单独的超分辨率网络进行细化，以 256^2 分辨率生成最终帧。低分辨率生成器的作用是对运动和场景组合的主要外观进行建模，随着时间变化，这需要强大的表达能力和大感受野；而超分辨率网络负责更细粒度的任务。

我们的两阶段设计在生成长视频方面提供了最大的灵活性。具体来说，低分辨率生成器被设计为随时间完全卷积的，因此生成视频的持续时间和时间偏移可以分别通过shifting and reshaping时间噪声来控制。另一方面，超分辨率网络以逐帧方式运行。它接收9个连续低分辨率帧的短序列并输出单个高分辨率帧；每个输出帧使用滑动窗口独立处理。全卷积和每帧处理的组合使我们能够以任意顺序生成任意帧，这对于交互式编辑和实时回放是非常可取的。

低分辨率和超分辨率网络是模块化的，中间有一个 RGB bottleneck。这大大简化了实验，因为网络是独立训练的，并且可以在推理过程的不同组合中运用。

3.1 Low-resolution generator

图 2b，低分辨率生成器的训练设置。在每次迭代中，向生成器提供一组新的时间噪声，以生成 128 帧序列（30 fps 4.3 秒）。为了训练鉴别器，从训练数据中随机选择一个视频，然后从该视频 128 帧中的随机间隔采样相应序列。

我们观察到，使用长序列进行训练往往会加剧过拟合问题。随着序列长度的增加，我们怀疑生成器在多个时间尺度上同时建模时间动态变得更加困难，但同时，鉴别器更容易发现任何错误。在实践中，我们发现需要强大的鉴别器增强来稳定训练。我们使用DiffAug对序列中的每一帧使用相同的transformation，以及在1/2 ×和2×之间执行了分数时间拉伸增强。

为消除过拟合，在鉴别器之前对真实和生成的视频应用DiffAug，使用了所有类别的DiffAug增强------color, cutout, and translation。除了DiffAug之外，还采用了分数时间拉伸增强fractional time stretching augmentation，通过线性插值和零填充将a ~ U(- 1,1)的时间轴大小调整为s = 2a的因子。

Architecture. 如图 3。我们的主要目标是使时间轴成为第一类公民，包括仔细设计时间潜在表示、时间样式调制、时空卷积和时间上采样。

图 3:低分辨率生成器架构，用于64×36输出。左:输入时间噪声被映射到一个中间潜在空间{Wt}序列，这序列调节主合成路径的中间激活。右上:为了便于长期依赖关系的建模，通过一系列低通滤波器来丰富时间噪声，这些滤波器的时间足迹范围从100帧到5000帧。右下:主要合成路径由时空(ST)和空间(S)块组成，它们随着时间和空间的推移逐渐增加分辨率。

通过这些机制，我们的生成器跨越一个巨大的时间感受野（5k 帧），使其能够表示多个时间尺度上的时间相关性。我们采用基于风格的设计，将输入的时间噪声映射到一系列中间潜在空间{Wt}，用于调制主合成路径中每一层的行为。每个中间潜在都与一个特定的帧相关联，但它可以通过出现在主路径中的分层 3D 卷积显著影响几个帧的场景组成和时间行为。

为了获得基于样式设计的全部好处，中间潜在捕获长期时间相关性至关重要，例如天气变化或持久对象。为此，我们采用了一种方案，首先使用一系列时间低通滤波器lowpass filters来丰富输入的时间噪声，然后在逐帧的基础上使其通过一个全连接映射网络。低通滤波的目标是在宽范围的不同时间尺度上为映射网络提供足够的长期上下文。具体来说，给定一个时间噪声流 z(t) ∈ R8，我们计算相应的丰富表示 z′(t) ∈ R128×8 作为 z′ i,j = fi ∗ zj ，其中 {fi} 是一组 128 个低通滤波器，其时间足迹范围为 100 到 5000 帧，∗ 表示随时间的卷积。

为了捕获中间潜在码中的长期时间相关性，用一组N=128的低通滤波器{fi}来丰富输入时间噪声的8个通道中的每一个。具体而言，使用Kaiser低通滤波器，低通滤波器的大小按指数分布。

主要生成路径首先将 {Wt} 的时间分辨率下采样 32 倍，并将其与 4^2 分辨率的学习常数连接。然后，它通过一系列处理块逐步增加时间和空间分辨率，如图3(右下)所示，首先关注时间维度(ST)，然后是空间维度(S)。前四个块有 512 个通道，然后是两个块256 个，两个块有 128 个，两个有 64 个通道。处理块由与StyleGAN2和StyleGAN3相同的基本构建块组成，并添加了跳接；在每个卷积之前对中间激活进行归一化，并根据{Wt}的适当下采样副本对其进行调制。在实践中，我们使用双线性上采样，并对时间轴使用填充来消除边界效应。通过我们的时间潜在表示和时空处理块的组合，我们的架构能够对跨时间的复杂和长期模式进行建模。

对于鉴别器，我们采用了一种通过宽时间感受野、3D时空、一维时间卷积、空间和时间下采样，优先考虑时间轴的架构。

低分辨率鉴别器架构

左图：输入视频经过单个1×1卷积层，然后是4个残差块。然后对特征进行整形，结合空间和通道维度，然后是4个时间1D卷积层。最后，特征被展平，然后是2个线性层以产生输出logits。

右图：残差块遵循StyleGAN模型中鉴别器块的结构，除第一个块外，所有块都使用可选的时间下采样和3D时空卷积。

时空卷积。省略了第一个块的时间处理以节省计算，因为以全分辨率运行3D卷积的成本要高得多。包含时间处理对于模型学习时间动态至关重要。在每个块中，信道的数量加倍，直到达到512。

为了进一步优先学习准确的运动和随时间的变化，架构包括4×1D时间卷积，每个卷积的核大小为5，然后是LeakyReLU非线性。最后，在StyleGAN鉴别器之后，特征被展平并通过两个线性层，其间具有LeakyReLU非线性，以产生最终的logit。

3.2 Super-resolution network

图 2c 显示了我们对超分辨率网络的训练设置。我们的视频超分辨率网络是StyleGAN3的直接扩展，用于条件帧生成。与输出一系列帧并包括显式时间操作的低分辨率网络不同，超分辨率生成器输出单帧，并且仅在输入处利用时间信息，其中真实的低分辨率帧和时间前后4个相邻帧沿着通道维度连接以提供上下文。

我们移除空间傅里叶特征输入，调整大小并将低分辨率帧堆栈连接到整个生成器的每一层。生成器架构与 StyleGAN3 不变，包括使用每个视频采样的中间潜在编码。低分辨率帧在作为数据管道的一部分进行条件作用之前进行增强，这有助于确保对生成的低分辨率图像进行泛化。

超分辨率鉴别器是StyleGAN鉴别器的一个类似的直接扩展，在输入端连接了4个低分辨率和高分辨率帧。唯一的其他更改是删除我们在实践中发现不必要的小批量标准偏差层。4帧的低分辨率和高分辨率段都经历自适应增强，对两种分辨率的所有帧应用相同的增强。低分辨率段也经历激进的 dropout（p = 0.9 ，概念归0，删除整个段），这可以防止鉴别器过于依赖条件信号。

我们发现，这种简单的视频超分辨率模型似乎足以产生相当好的高分辨率视频。我们主要在实验中专注于低分辨率生成器，利用每个数据集训练单个超分辨率网络。我们认为，用视频超分辨率文献中更高级的模型替换这个简单的网络是未来工作的一个有前途的途径。

超分辨率网络进行两种形式的增强：(1)在鉴别器之前对真实视频和生成视频进行增强，以防止过拟合。防止判别器过拟合使用默认设置的ADA，并对来自高分辨率和低分辨率视频的所有帧应用相同的增强。另外，为了防止过拟合并防止鉴别器将过多注意力集中在调节信号上，采用了强dropout增强，其概率为p = 0.9，将整个条件低分辨率视频归零。这种增强只发生在鉴别器之前，并且不影响超分辨率网络的输入。(2)在训练期间对有条件的真实低分辨率视频进行增强，以提高在推理时对生成的低分辨率视频的泛化。使用用真实的低分辨率视频作为条件来训练超分辨率网络，但在推理时使用生成的低分辨率视频。真实的低分辨率视频和生成的低分辨率视频之间存在域GAP，为了保证超分辨率网络对域GAP的鲁棒性，在训练过程中增强了真实的低分辨率视频。在具有超分辨率细化的图像生成器中也使用了类似的策略，其中在训练期间将损坏添加到实际的低分辨率输入中。在这使用了ADA增强管道的修改版本，仅支持加性高斯噪声、各向同性和非各向同性缩放、旋转和分数平移。每个增强都以50%的固定概率应用于整个低分辨率视频，并且强度比默认管道(noise_std=0.08, scale_std=0.08,aniso_std=0.08, rotate_max=0.016, xfrac_std=0.016)要小得多。这种增强应用于数据集管道中，仅在训练期间影响鉴别器和超分辨率网络的条件输入。

4 Datasets

大多数现有的视频数据集随着时间的推移很少或根本没有新的内容。例如，talking head数据集每个视频持续时间内都同一个人。UCF101描绘了不同的人类行为，但视频很短，包含有限的相机运动，很少或没有随着时间的推移进入视频的新物体。为了最好地评估我们的模型，我们引入了两个新的mountain biking and horseback riding视频数据集（图 4a，b），它们随着时间的推移表现出复杂的变化。我们的新数据集包括马或自行车的主体运动，这是一种通过空间移动的第一人称摄像机视点，以及随着时间的推移新的风景和物体。视频具有很高的定义，并被手动修剪以去除有问题的片段、场景切割、文本覆盖、阻塞视图等。mountain biking数据集有1202个视频，中位数持续时间为330帧，30帧/秒，horseback riding数据集有66个视频，中位数持续时间为6504帧，也持续时间为30fps。

我们已经允许内容所有者公开发布mountain biking and horseback riding数据集以进行研究目的。我们相信我们的新数据集将成为未来工作的重要基准。

我们还在 ACID 数据集（图 4c）上评估我们的模型，该数据集包含显着的相机运动，但缺乏其他类型的运动，以及常用的 SkyTimelaps 数据集（图 4d），随着云通过，随着时间的推移表现出新的内容，但视频相对均匀，相机保持固定。

5 Results

5.1-5.3 Qualitative results-FVD

5.4 Ablations

Training on long videos improves generation of long videos.

Footprint of the temporal lowpass filters.

Effectiveness of the super-resolution network.

图 6：超分辨率网络的评估。(a,b) 生成低分辨率帧和相应由超分辨率网络产生的超分辨率帧。(c)当提供真实的低分辨率视频作为输入时，超分辨率网络产生非常好的FVD；模型结果的整体质量主要由低分辨率生成器决定。

6 Conclusions

视频生成历来集中在相对较短的片段上，随着时间的推移几乎没有新的内容。我们考虑具有复杂的时间变化的长视频，并揭示了几个值得重新评估的开放问题和视频生成实践------时间潜在表示、生成器架构、使用长视频的训练序列长度和方法，以及动态的长视频正确评估指标。

已经表明，许多时间尺度上的表示可以作为对复杂运动进行建模的有用构建块，并随着时间的推移引入新的内容。我们认为最适合视频的潜在空间形式仍然是一个开放、几乎哲学的问题，留下了一个大的设计空间来探索。例如，在保持一致身份的同时，对从视频中退出并在视频中稍后重新进入的持久对象进行建模的正确潜在表示是什么？

我们从长序列训练中发现的好处引发了更多的问题。视频生成是否受益于更长的训练序列。目前我们使用片段进行训练相邻的输入帧，但使用更大的帧间距来覆盖更长的输入序列可能是有益的。此外，在训练长视频以对抗过度拟合时使用的最佳增强数据集是什么。单独的低分辨率和超分辨率网络使问题在计算上可行，但它可能会在一定程度上损害最终高分辨率帧的质量------我们相信在某些结果中看到的"奇怪的"伪影是由于这个 RGB bottleneck。更先进的视频超分辨率方法的集成在这方面可能是有益的，除了 RGB 颜色之外，还可以考虑从低分辨率生成器输出附加特征，以更好地消除超分辨率网络任务的歧义。

对结果进行定量评估仍然具有挑战性。正如我们所观察到的，FVD 只是方式的一部分，基本上对重复的、甚至非常不可信的结果视而不见。我们对颜色和LPIPS距离如何随时间变化的测试部分弥补了这一差距，但我们认为这一领域值得进行彻底、有针对性的调查。希望该工作能鼓励进一步研究视频生成，重点关注随着时间的推移更复杂和更长期的变化。

负面社会影响：随着质量的改进，滥用的可能性很大。

本专题由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑，旨在学习互助。内容来自网络，侵权即删，转发请注明出处。文中如有错误的地方，也请在留言区告知。

论文网址：Generating Long Videos of Dyanmic Scenes-https://arxiv.org/abs/2206.03429

效果呈现视频：LongVideoGAN