Lumière：开创性的视频生成模型及其应用

视频内容创造领域迎来了突破性进展，但视频生成模型由于运动引入的复杂性而面临更多挑战。这些挑战主要源自运动的引入所带来的复杂性。时间连贯性 是视频生成中的关键要素，模型必须确保视频中的运动在时间上是连贯和平滑的，避免出现不自然的跳跃或断裂。空间关系的准确性 也至关重要，因为视频的每一帧都需要与前后帧在空间布局上保持一致性。计算资源的限制 也是一个重大挑战，视频数据的高维度要求大量的计算力和内存，这限制了模型的规模和复杂度。训练数据的需求量巨大，因为只有通过大量的训练样本，模型才能学习到生成逼真视频所需的丰富特征和模式。

视频生成领域普遍采用的是一种串行方法，其中包括一个基础模型用于生成稀疏的关键帧，随后通过一系列时间超分辨率（TSR）模型来生成关键帧之间的数据。这种方法虽然在内存效率上有优势，但在生成全局一致性运动方面存在固有的限制。

基础模型生成的关键帧数量有限，这导致快速运动在时间上出现混叠，造成歧义。TSR模块受限于固定且较小的时间上下文窗口，无法在整个视频时长内一致地解决混叠歧义。串行训练机制通常面临域差距问题，即TSR模型在训练时使用的是真实下采样的视频帧，但在推理时却用于插值生成的帧，这会导致误差累积。

这些局限性导致了视频生成的质量受限，包括视频时长、整体视觉质量和生成的现实运动程度。Lumière模型通过引入全新的扩散框架，一次性生成整个视频的时序长度，从而克服了这些限制，为视频生成领域带来了显著的改进。Lumière模型通过其创新的空间时间U-Net（STUNet）架构，有效地应对了这些挑战。该架构通过同时进行空间和时间的下采样与上采样，能够在保持计算效率的同时生成具有全局一致性的视频。Lumière模型的另一个显著优势是其多扩散（MultiDiffusion）技术，它允许模型在时间轴上处理视频片段，并通过优化问题平滑地合并各片段的预测结果，从而避免了时间边界处的不连贯现象。Lumière模型利用预训练的文本到图像扩散模型，这为其提供了强大的生成先验，并能够通过微调少量参数来适应视频生成任务。这些优势使得Lumière模型在生成逼真、多样化和连贯运动的视频方面表现出色，为视频内容创造领域带来了新的突破。
Lumiere生成的几个样本结果，包括文本到视频生成（第一行）、图像到视频（第二行）、风格参考生成和视频修复（第三行；边框指示了修复掩膜区域）

Lumière模型

Lumiere的流程图，以及与以前工作采取的常见方法的主要区别

Lumière模型的生成管线（pipeline）是其创新的核心，它与以往的视频生成方法有显著的不同。这一管线的设计允许模型一次性处理所有帧，而不是依赖于串行的关键帧生成和后续的帧填充。

在传统的视频生成方法中（如图3(a)所示），一个基础模型首先生成稀疏的关键帧，然后通过一系列时间超分辨率（TSR）模型来填充这些关键帧之间的帧。这种方法虽然内存效率较高，但存在无法生成全局一致运动的问题。此外，空间超分辨率（SSR）模型通常在不重叠的窗口上应用，以获得高分辨率的结果。

与此相反，Lumière模型（如图3(b)所示）采用了一个基础模型，该模型能够一次性处理所有的帧，而不是依赖于TSR模型的串行处理。这种设计允许模型学习到全局一致的运动，从而生成更加自然和连贯的视频内容。

通过一次性处理所有帧，Lumière模型能够捕捉到整个视频序列的动态变化，这有助于生成具有高度连贯性的视频。这种处理方式避免了传统方法中由于关键帧独立生成而可能出现的运动不连贯或时间上的歧义问题。

为了从基础模型生成的低分辨率视频获得高分辨率视频，Lumière模型采用了SSR模型，并在重叠的窗口上应用它。这样，每个窗口的预测结果不仅考虑了当前帧，还考虑了邻近帧的信息。

Lumière模型进一步利用了MultiDiffusion技术来整合重叠窗口上的SSR预测结果。通过优化问题的形式，模型能够将这些预测结果融合为一个全局一致的高分辨率视频。这一步骤确保了视频在空间和时间上的连贯性，同时避免了由于窗口划分而可能产生的边界伪影。

Lumière模型的创新之处在于其核心架构------空间时间U-Net（STUNet）。这一架构突破了传统视频生成模型的限制，通过集成空间和时间维度的处理能力，实现了对视频内容的全局理解和生成。STUNet的设计允许模型一次性生成整个视频的全帧率，即便是低分辨率，也能够保持运动的连贯性和一致性。
空间时间U-Net（STUNet）的架构图，包括基于卷积的膨胀块和基于注意力的膨胀块

STUNet架构的关键组成部分是空间和时间的下采样模块。这些模块使得模型能够在一个压缩的时空表示中进行计算，大幅降低了计算复杂度。空间下采样通过减少视频帧的分辨率来减少数据的空间维度，而时间下采样则通过减少帧率来降低时间维度的数据量。这种双管齐下的方法让模型能够在更低维的表示中高效地处理视频数据。

STUNet架构支持多尺度处理，这是实现全局一致性运动生成的另一个关键因素。模型不仅在原始分辨率上工作，还通过下采样和上采样在多个分辨率尺度上进行计算。这种多尺度策略使得模型能够捕捉到从局部细节到全局动态的丰富信息，从而在生成视频中实现更加精细和连贯的运动。

与先前模型不同，STUNet架构能够直接生成全帧率的视频。这意味着模型在生成过程中考虑了整个视频序列，而不是依赖于后续的插值或超分辨率步骤来填充帧。这种端到端的方法简化了生成流程，并有助于生成更加自然和逼真的视频内容。

STUNet的设计还特别考虑了计算效率。通过在粗略的时空表示上执行大部分计算，模型能够以较低的计算成本生成视频。这使得STUNet架构不仅适用于研究环境，也能够在实际应用中实现高效视频生成。

在视频生成过程中，高分辨率视频所需的计算资源和内存通常是限制模型性能的主要瓶颈。为了克服这一挑战，Lumière模型引入了MultiDiffusion技术，这是一种创新的方法，用于在保持内存效率的同时实现高质量的空间超分辨率（SSR）。

MultiDiffusion技术的核心在于它将SSR计算分布在时间轴上。这意味着模型不是一次性处理整个视频，而是将视频分割成多个较短的片段，并对这些片段分别进行SSR处理。这种方法显著减少了任何单一时间点所需的内存和计算量。

为了实现片段之间的平滑过渡并保持视频的连贯性，MultiDiffusion采用了重叠窗口的技术。在每个生成步骤中，模型会考虑当前片段以及与其重叠的前后片段的信息。这种设计确保了视频片段之间的过渡自然，没有明显的接缝或不连续性。

一旦每个片段独立完成SSR，MultiDiffusion技术通过一个优化过程将这些片段的预测结果聚合起来。这个过程涉及到计算整体视频的一致性，确保整个视频序列的全局一致性，即使在片段边界处也是如此。

通过在时间轴上对视频片段进行SSR并聚合结果，MultiDiffusion技术有效减少了时间边界伪影。这些伪影通常在传统的视频生成模型中出现，因为它们在片段之间进行插值或融合时可能会产生不连贯的运动或视觉错误。

应用

Lumière模型的应用范围广泛，包括风格化视频生成、图像到视频的转换、视频修复以及电影静态图（cinemographs）的创作。这些应用展示了Lumière模型如何轻松适应多样化的视频内容创作任务。
文本到视频和图像到视频生成的样本结果。每个示例下方都标明了文本提示

在Figure 5中，Lumière模型的视频生成能力通过文本到视频（text-to-video）和图像到视频（image-to-video）的示例得到了展示。这些示例不仅证明了模型对复杂文本提示的理解和转换能力，还展示了它如何根据给定的静态图像生成连贯的视频内容。

每个示例下方都提供了文本提示，这些提示直接指导了视频内容的生成。文本到视频的生成展示了模型如何将文本描述转化为视觉场景，而图像到视频的生成则展示了模型如何以提供的图像为起点，创造出动态的故事。

对于图像到视频的生成，最左侧的帧作为条件提供给模型。这意味着模型必须理解并利用这一帧中的视觉信息，以此为基础生成后续的视频帧，确保生成的视频不仅在视觉上连贯，而且在逻辑上与给定的图像相符。

为了更全面地评估Lumière模型的性能，读者被引导至补充材料（SM）中查看完整的视频结果。这提供了一个更深入的视角，以评估模型生成的视频在时间上的连贯性和细节上的丰富性。

风格化生成是一个挑战，因为它需要在保持视频运动连贯性的同时融入特定的艺术风格。Lumière模型通过一种创新的方法解决了这一问题，即通过在预训练的文本到图像（T2I）模型权重和特定风格的T2I模型权重之间进行线性插值，实现了风格和运动之间的平衡。
给定风格图像和相应的微调文本到图像权重后，通过在线性插值之间生成的样式化视频的结果

具体来说，Lumière模型采用了一种"即插即用"的方法，通过调整预训练模型的权重来适应不同的风格。这种方法涉及计算两组权重的线性组合：一组是针对特定风格微调过的T2I模型权重（Wstyle），另一组是原始的预训练T2I模型权重（Worig）。通过这种方式，模型可以根据需要生成具有特定风格特征的视频，同时保持运动的自然流畅。

在实际应用中，插值系数（α）的选择是至关重要的。它决定了两种权重对最终生成视频的影响程度。Lumière模型允许用户根据具体需求手动选择插值系数，α的取值范围通常在0.5到1之间。当α接近1时，生成的视频更倾向于展示特定风格；而当α接近0.5时，原始的T2I模型权重影响更大，视频将更注重运动的真实性和连贯性。

通过这种方法，Lumière模型能够生成多样化的风格化视频。无论是现实主义风格，如水彩画或油画效果，还是更抽象的风格，如卡通或线条画，Lumière都能够通过调整插值系数来适应不同的风格需求，创造出既符合艺术风格又具有合理运动的视频内容。

Lumière模型的一个显著特点是其能够处理条件生成任务，即根据附加的输入信号生成视频。这种能力极大地扩展了模型的应用范围，允许用户通过提供特定的图像或掩码作为条件来引导视频内容的生成。

在图像到视频的生成场景中，Lumière模型能够将用户提供的静态图像作为起点，生成一个动态视频序列。模型利用输入图像作为视频的第一帧，并在此基础上展开，创造出具有连贯运动和场景发展的完整视频内容。

视频修复是条件生成的另一个重要应用。Lumière模型可以接受一个视频以及一个定义了需要修复区域的掩码作为输入。模型学习在保持视频其余部分不变的同时，对遮罩区域进行动画化或填充，从而实现对原始视频的无缝编辑和修复。

为了实现条件生成，Lumière模型对输入进行了特别的修改，以整合附加的输入信号。模型的输入不仅包括带噪声的视频帧，还包括一个被遮罩的视频帧以及相应的二进制掩码。这种整合允许模型区分哪些部分需要生成新内容，哪些部分应该保持原样。

为了使模型能够处理条件生成任务，Lumière团队对基础的文本到视频模型进行了微调。在微调过程中，模型学习如何根据附加的图像或掩码来生成视频，同时保持与原始视频的一致性。
使用SDEdit（Meng et al., 2022）通过Lumiere模型进行视频到视频编辑的结果

Lumière模型的基础版本能够生成全帧率的视频，这一点与传统的依赖于时间超分辨率（TSR）模型串行生成关键帧和填充帧的方法不同。这种设计的优势在于它提供了一个直观的接口，便于用于下游应用，包括视频编辑和风格化。由于Lumière模型不依赖于TSR级联，它能够生成具有全局一致性的视频内容。这意味着视频的每一帧都是在考虑了整个视频序列的情况下生成的，从而避免了在编辑过程中可能出现的不连贯问题。

为了展示Lumière模型在视频编辑中的应用，研究者们采用了SDEdit（由Meng等人于2022年提出）这一工具。SDEdit是一个用于指导图像合成和编辑的随机微分方程工具，它能够与Lumière模型结合使用，实现一致的视频风格化。

在Figure 9中，研究者们展示了使用Lumière模型和SDEdit进行视频编辑的过程。图的上方展示了给定输入视频的几个帧，而下方则展示了经过编辑后的对应帧。通过这种方式，研究者们证明了Lumière模型能够与现有的视频编辑工具无缝集成，实现高质量的视频风格转换。

评估和比较

用户研究的结果，比较了本方法与每个基线方法在文本到视频和图像到视频生成方面的表现

在评估Lumière模型的性能时，研究者们开展了一项用户研究，将该模型的文本到视频（text-to-video）和图像到视频（image-to-video）生成能力与多个基线方法进行了比较。这项研究通过收集用户对视频生成结果的偏好来评估不同方法的优劣。

在Figure 10中，每个基线方法与Lumière模型的比较结果都通过柱状图展示，其中蓝色部分代表用户投票支持Lumière模型的比例，橙色部分代表用户投票支持基线方法的比例。这种直观的展示方式允许快速识别用户偏好。

根据用户研究的结果显示，Lumière模型在文本到视频和图像到视频的生成任务中都获得了用户的偏好。这意味着与基线方法相比，用户更倾向于选择Lumière模型生成的视频，这可能是因为Lumière模型生成的视频在视觉质量、运动连贯性或者与文本描述的匹配度方面更胜一筹。

这项用户研究不仅验证了Lumière模型在技术层面的优势，更重要的是，它反映了用户对生成视频的实际感受和偏好。用户研究的结果为Lumière模型的实际应用和进一步的改进提供了宝贵的反馈。

研究者采用定性评估和定量评估的方式通过与现有T2V扩散模型的比较，Lumière在生成具有复杂运动和连贯相机运动的视频方面表现出色。

定性评估涉及将Lumière模型生成的视频与几个领先的T2V扩散模型进行对比。这些模型包括但不限于ImagenVideo、AnimateDiff、StableVideoDiffusion等。评估的焦点在于视频的视觉质量和运动的连贯性。

Lumière模型在生成具有复杂运动的视频方面表现出色，这包括精确捕捉和再现物体的运动轨迹以及相机视角的流畅转换。与传统方法相比，Lumière能够更好地处理全局运动的一致性，避免了因关键帧独立生成而导致的时间上的不连贯性。

在视觉检查中，评估者特别关注视频的视觉质量和运动的连贯性。Lumière模型生成的视频在细节表现、色彩还原以及场景的逼真度方面均展现出高水平。模型能够维持运动的连贯性，即使是在长时间序列中也能保持一致性。

Lumière模型在UCF101数据集上进行了零样本评估，这是一种在没有针对特定数据集进行训练的情况下测试模型泛化能力的方法。评估使用了两个主要的定量指标：Fréchet Video Distance (FVD)和Inception Score (IS)。
提供了在UCF101数据集上零样本文本到视频生成的比较，展示了不同方法的FVD（Fréchet Video Distance）和IS（Inception Score）得分

FVD是一种衡量生成视频与真实视频之间差异的度量，它通过比较特征空间中的距离来工作。较低的FVD值表明生成的视频在视觉特征上与真实视频更为接近。而IS是一个衡量生成样本多样性和质量的指标，较高的IS值表明生成的视频不仅质量高，而且展现了良好的多样性。

Lumière模型在FVD和IS两个指标上都取得了有竞争力的成绩，这表明其生成的视频在视觉质量和多样性方面与现有的顶尖模型相当。这些定量结果为Lumière模型的有效性提供了统计学上的证据。

除了定量指标之外，用户研究也被用于评估Lumière模型。在用户研究中，参与者被要求对Lumière生成的视频与其他基线方法生成的视频进行比较，并表达他们的偏好。用户研究的结果表明，用户更倾向于选择Lumière模型生成的视频，这进一步证实了Lumière在视觉质量和运动连贯性方面的优势。

Lumière以出色的FVD和IS成绩证明了其生成视频的高质量和多样性。而在用户研究中，用户对Lumière生成视频的偏好更是对其优势的直观认可。这些评估结果不仅彰显了Lumière模型的强大性能，也为其未来的应用提供了坚实的基础。

面向未来，Lumière模型的应用前景广阔。无论是在娱乐、教育、设计还是新闻制作等领域，Lumière都有望成为内容创作者的强大助手。随着技术的不断进步和优化，我们可以期待，Lumière将激发出更多的创意火花，推动视频内容生成的边界不断扩展。

论文链接：https://arxiv.org/pdf/2401.12945