ExVideo: 提升5倍性能-用于视频合成模型的新型后调谐方法

标题：ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
作者: Zhongjie Duan; Wenmeng Zhou; Cen Chen; Yaliang Li; Weining Qian
DOI: 10.48550/arXiv.2406.14130
摘要: Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model's capacity to generate up to $5\\times$ its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn't compromise the model's innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.
GitHub: github.com/modelscope/...

📜 研究核心

⚙️ 内容

该研究的核心在于开发了一种创新的后调优方法------ExVideo，它致力于克服当前视频扩散模型在生成长时间视频方面的限制。ExVideo的设计目标是增强现有模型的功能，使之在不大幅增加训练成本的前提下，能够输出更长的视频序列。

该方法巧妙地利用了3D卷积、时间注意力和位置嵌入等常见时间模型结构的扩展策略，确保了在视频长度显著增加的同时，模型依旧能保持其在不同风格和分辨率视频生成上的泛化性能。通过在Stable Video Diffusion模型上的扩展训练，ExVideo证明了其能够使模型生成帧数最多提升至原视频5倍的能力，并且只需1,500 GPU小时的训练量，这在4万个视频组成的数据库上得到了验证。

💡 创新点

参数高效性：ExVideo提出了一种新的后调优策略，使得在不对整个模型进行大规模重训的情况下，仅通过对模型中时序相关组件的微调，就能够显著增强其生成更长视频片段的能力。这种方法大大降低了对计算资源的需求，仅需1.5k GPU小时就能将视频生成帧数提高至原模型的5倍。
多架构兼容性：该策略设计了针对不同时间模型架构（如3D卷积、时间注意力和位置嵌入）的扩展策略，这使得它能够广泛应用于多种现有的视频合成模型，提高了方法的通用性和适用范围。
视频连贯性和质量保障：ExVideo不仅提升了视频长度，而且确保了生成视频的视觉质量和叙事连贯性，避免了常见的视频连贯性问题，如错误累积导致的图像断裂现象，这是通过精细的模型调整实现的。
泛化能力不受损：即使视频长度显著增加，ExVideo的模型依然能保持其在生成不同风格和分辨率视频方面的优势，证明了模型在扩展视频长度的同时，其内在的泛化能力并未被削弱。

🧩 不足

基础模型限制：ExVideo增强的视频扩散模型仍然受限于其基础模型的固有局限。例如，尽管能够生成更长的视频序列，但在合成高质量的人像方面表现不佳，经常出现帧不完整或人像失真的情况。这意味着对于需要高度精确的人脸或人体动作合成的应用场景，当前解决方案可能不尽理想。
资源约束：研究团队指出，由于资源限制，他们未能独立预训练一个大型的视频合成基础模型。这意味着模型的潜力可能还未完全释放，且对于未来进一步提升模型性能，可能需要更多计算资源或更高效的训练策略。
长期视频理解能力：尽管ExVideo在生成较长视频方面有所突破，但当前的视频合成模型普遍缺乏对长期视频连贯性的理解和处理能力。这意味着在生成长视频时，模型可能会累积误差，影响视频的整体连贯性和叙事逻辑，特别是在没有额外优化措施的情况下。
版权与数据来源：尽管使用了如OpenSora等公开数据集来规避版权问题，但这些数据集的视频质量和多样性可能仍有限制，可能无法完全代表实际应用场景中的全部复杂性和多样性，这可能会影响模型的泛化能力。
技术挑战：尽管采用了多项工程优化措施（如参数冻结、混合精度训练、梯度检查点、Flash Attention及深度加速库），以应对扩展视频序列训练中的计算资源挑战，但这些技术手段可能仍有优化空间，尤其是在处理极端长视频或高分辨率视频时。

🔁 研究内容

💧 数据

使用了一个包含40,000个视频的大型数据集进行实验，数据集包含多样化的风格和分辨率，确保了模型训练的广泛适用性。

👩🏻‍💻 方法

扩展时序模块 ：后调优策略

目标与动机

目标：使现有的视频合成模型能够生成更长的视频，而不需要从头开始训练或大幅增加计算资源消耗。
动机：尽管视频合成技术取得了显著进步，但大多数模型受限于计算资源，只能生成较短的视频片段。ExVideo旨在克服这一限制，同时维持模型的泛化能力和生成多样风格、分辨率视频的优势。

3D卷积层的保留与利用

原理与保留 ：3D卷积层是视频处理中常用的一种技术，它可以捕获空间和时间维度上的特征。先前研究表明，即使不经过微调，3D卷积层也能自适应地处理不同尺度的数据，因此ExVideo方法选择直接保留模型中原有的3D卷积层结构。
优势：保留这些层可以保持模型对不同视频分辨率和时序长度的广泛适应性，无需对这些基础层做重大改动，减少了模型调整的复杂度。

时间注意力模块的微调

策略：受到大型语言模型中时间注意力机制扩展应用于更长序列的启发，ExVideo对时间注意力层的参数进行了微调。通过这种微调，增强了模型处理更长视频序列的能力。
效果：这种调整使得模型能够更好地捕捉和利用长序列中的上下文依赖，从而提高生成视频的连贯性和复杂性。

可训练位置嵌入的引入

问题：原始的静态位置嵌入或固定的可训练嵌入在面对更长视频时可能不再适用。
解决方案 ：引入了扩展的可训练位置嵌入，这些嵌入参数以循环模式初始化，与预训练模型的位置嵌入配置相兼容，从而能适应更长的视频序列。
附加策略 ：在位置嵌入层之后添加了一个恒等3D卷积层，其核心初始化为恒等矩阵，其余参数初始化为零。这个层旨在学习长期的视频特征，同时在训练初期保持视频表示的不变性，以维护与原始计算过程的一致性。

总体架构调整

适应性修改 ：所有修改都是适应性的，确保了预训练模型原有的泛化能力得以保留。在训练扩展模块时，模型外部的参数被固定，以此来降低内存使用，提高训练效率。
优化效率 ：考虑到注意力操作的计算复杂度随序列长度增加呈二次增长，ExVideo采取的策略在不显著增加计算负担的前提下，提高了模型处理长视频序列的能力。

综上所述，ExVideo通过针对性地调整时序模块，即优化3D卷积层、微调时间注意力机制并引入改进的位置嵌入策略，实现了在不牺牲模型原有特性的基础上，有效扩展视频合成模型生成视频长度的目标。这种方法不仅提升了模型的实用性，还为视频合成技术的发展开辟了新的方向。

🔬 实验

本文主要介绍了作者在视频合成模型方面所做的研究和实验。首先，作者对现有的视频合成模型进行了分类，并提出了三种常见的时空模块架构：3D卷积、时空注意力和位置编码。然后，作者提出了一种扩展时空模块的方法，以提高模型的生成能力。最后，作者通过多个实验验证了他们的方法的有效性，并与其他现有模型进行了比较。

第一个实验是针对文本到视频合成的任务。作者将现有的文本到图像模型与视频合成模型相结合，可以轻松地开发出集成管道，将文本描述转换为视频。在这个任务中，作者使用了Stable Diffusion 3作为基础帧生成器，并展示了该模型能够从高质量的图像中生成流畅的运动过渡，即使训练数据集中不包括某些风格（如平面动漫和像素艺术）也是如此。这个实验的结果表明，扩展后的Stable Video Diffusion模型保留并扩展了原始模型的一般化能力。

第二个实验是为了展示模型学习过程中的动态变化。作者展示了在训练过程中，模型生成的视频如何从只有结构完整性逐渐发展成为具有复杂运动的能力。这个实验的结果表明，模型能够在长时间的学习过程中理解场景的深度和空间关系。

第三个实验是为了测试模型在不同分辨率下的性能。作者展示了模型在常见宽高比下能够成功生成更高分辨率的视频。这个实验的结果表明，模型不仅具有强大的泛化能力和鲁棒性，而且经过后调优后能够进一步提高其性能。

最后一个实验是对模型与其他现有模型的比较。作者选择了多种不同的视频合成模型，包括AnimateDiff、LaVie、ModelScopeT2V等，并将其结果与扩展后的Stable Video Diffusion模型进行了比较。结果显示，大多数现有模型通常只能生成少量的运动，而扩展后的Stable Video Diffusion模型则具有更强的生成能力，能够生成更复杂的运动。这表明扩展后的模型具有更高的生成性能。

📜 结论

视频质量与连贯性：ExVideo不仅成功扩展了视频长度，而且保证了生成视频的质量和叙事连贯性，没有因视频长度的增加而牺牲这些关键指标。
泛化能力：模型在生成不同风格和分辨率的视频时仍然表现出色，表明其内在的泛化能力未受损害

🤔 个人总结

文章优点

该论文提出了一种名为ExVideo的视频合成模型增强技术，通过后调优的方式扩展了现有视频合成模型的时间范围，从而实现了更长的视频生成。该方法在Stable Video Diffusion模型上进行了验证，并成功将生成帧数从25帧扩展到128帧，同时保持了原始模型的生成能力。此外，该方法还具有内存效率高、可与其他开源技术集成等优点。

方法创新点

该论文的主要贡献在于提出了ExVideo技术，这是一种基于后调优的方法，可以有效地扩展现有视频合成模型的时间范围。与传统的训练方法相比，这种方法不需要大量的计算资源，可以在有限的计算资源下实现更长的视频生成。此外，该方法还可以无缝地与文本到图像模型集成，进一步提高了其应用价值。

未来展望

虽然ExVideo技术已经取得了一些进展，但仍然存在一些限制。例如，该方法仍受到基础模型的限制，无法准确合成人类肖像。因此，在未来的研究中，需要开发更加先进的基础模型来提高视频合成的质量。此外，还需要更多的数据集和更强大的计算资源来支持这种技术的发展。