AIGC视频生成模型：Stability AI的SVD(Stable Video Diffusion)模型

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Stability AI的视频生成模型SVD(Stable Video Diffusion)模型，这家公司在图像生成领域富有盛名，开发并维护了知名开源项目SD系列图像生成模型。SVD是他们在视频生成领域的尝试，主要贡献是：系统的视频数据整理工作流程，支持文本到视频、图像到视频生成和3D合成（物体从单一视角到多视角的转化）。

🌺优质专栏回顾🌺：

机器学习笔记

深度学习笔记

多模态论文笔记

AIGC---图像

文章目录

论文

摘要

引言

现状

本文研究

研究结果

总结

研究背景

潜在视频扩散模型

数据整理

为高质量视频合成整理数据

数据处理与标注

数据集及其处理

字幕合成

其他处理

阶段I：图像预训练

阶段II：整理视频预训练数据集

视频数据整理的系统方法

整理后的训练数据提升性能

数据整理在大规模数据集上的作用

阶段III：高质量微调

大规模训练视频模型

预训练基础模型

高分辨率文本到视频模型

高分辨率图像到视频模型

相机运动LoRA

帧插值

多视图生成

结论

论文

论文地址：https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1733935148453/stable_video_diffusion.pdf

项目地址：https://github.com/Stability-AI/generative-models

摘要

论文提出了稳定的潜在视频扩散模型 （Stable Video Diffusion），这是一种用于高分辨率、最先进的文本到视频和图像到视频生成的视频扩散模型。

最近的视频生成模型中，常见的手段是在二维图像的潜在扩散模型中插入时间层 ，并在小规模高质量视频数据集上进行微调 ，进而转化为视频生成模型 。这些方法训练方法差异很大 ，整理视频数据的策略并未达成共识，这是本文主要解决的问题之一。

在本文中，评估了训练视频潜在扩散模型（LDMs）的三个不同阶段：

文本到图像预训练
视频预训练
高质量视频微调

此外，还证明了精心整理的预训练数据集对于生成高质量视频的必要性 ，并提出了一种系统的视频数据整理过程来训练强大的基础模型，包括字幕生成 和过滤策略。

作者提出他们的基础模型有如下的优势：

可以与闭源视频生成模型相媲美。
为下游任务（如图像到视频生成）提供了强大的运动表示，对特定于相机运动的LoRA模块具有适应性。
提供了强大的多视图3D先验，可以作为微调多视图扩散模型的基础。能够以前馈方式联合生成物体的多个视图，在计算预算仅为基于图像的方法的一小部分的情况下，性能优于这些方法。

引言

现状

受扩散模型在生成式图像建模领域进展的推动，生成式视频模型都取得了显著进展。总体而言，这些模型分为两种：

从头开始训练（如：Imagen Video）;
要么是在预训练图像模型的基础上（部分或全部）微调，并插入额外的时间层（如Meta的Emu video）。

Imagen Video 由一个冻结的 T5 文本编码器、一个基础视频扩散模型以及由空间和时间超分辨率扩散模型交错组成的级联（包括 3 个时间超分辨率和 3 个空间超分辨率组件）构成。后续可能会讲，敬请期待。

Emu video 请参考：AIGC视频生成模型：Emu Video模型

训练过程通常会结合图像和视频数据集 进行。上述研究均未探讨数据选择的影响，本研究针对这些此前未探索的领域展开。

本文研究

在当前的视频研究领域，其视频数据选择的重要性已得到广泛认可，但是未得到充分体现。

首先作者确定了对模型良好性能至关重要的三个不同视频训练阶段：

文本到图像预训练；
在大规模低分辨率视频数据集上的视频预训练；
在小规模但视频质量更高的数据集上进行的高分辨率视频微调。

作者基于简单的潜在视频扩散基线模型（Video LDMs） ，固定其架构和训练方案，并且引入了一种系统的大规模视频数据整理方法，并对视频预训练过程中数据整理的效果进行了实证研究发现：在精心整理的数据集上进行预训练，即使在高质量微调之后，也能显著提升模型性能。

这里的Video LDMs是指NVIDIA等推出的潜在视频扩散模型，

论文名：Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models；

论文链接：https://arxiv.org/pdf/2304.08818

研究结果

基于这些发现，作者使用他们提出的数据整理方案 应用于一个大型视频数据集，训练出一个强大的预训练文本到视频基础模型，并在较小的高质量数据集上对基础模型进行微调，用于高分辨率的下游任务，得到的模型性能优于当前最先进的图像到视频模型。模型效果如下：

文本到视频（图1顶行）和图像到视频（见图1中行，从单个条件图像预测一系列帧）。

此外，作者还证明了两个亮点：

他们的模型提供了强大的多视图先验（3D），可作为微调多视图扩散模型的基础。
通过使用运动线索专门提示时间层 ，以及在仅包含特定运动的数据集上训练LoRA模块 ，他们的模型能够实现明确的运动控制 ，这些LoRA模块可高效地插入到模型中。

总结

本文证明了预训练的视频扩散模型 可以转变为 强大的多视图生成器，这有助于克服3D领域中常见的数据稀缺问题。的核心贡献主要体现在三个方面：

第一，提出了一种系统的数据整理工作流程，能够将大规模未经整理的视频集合转化为适用于生成式视频建模的高质量数据集。
第二，利用第一点的工作流程，我们训练出了最先进的文本到视频和图像到视频模型，性能超越了以往所有模型。
第三，通过进行特定领域的实验 ，我们探究了模型在运动和3D理解方面的强大先验。

研究背景

最近的大多数视频生成研究都依赖扩散模型，从文本或图像条件中联合合成多个连贯的视频帧。扩散模型通过学习逐步对来自正态分布的样本进行去噪，实现迭代优化过程，已成功应用于高分辨率文本到图像和视频合成。

在本研究中，作者在他们的视频数据集上训练了一个潜在视频扩散模型。接下来，我们简要概述使用潜在视频扩散模型（Video-LDMs）的相关研究：

潜在视频扩散模型

Video-LDMs在潜在空间中训练生成模型。大多数相关研究利用预训练的文本到图像模型 ，并在预训练架构中插入各种形式的时间混合层 。Ge等人在论文Preserve your own correlation: A noise prior for video diffusion models.中还利用时间相关噪声来提高时间一致性，降低学习难度。

在本研究中，我们采用论文Align your Latents提出的架构，在每个空间卷积和注意力层之后插入时间卷积和注意力层 ，并且对整个模型进行微调。

论文Align your Latents原文仅训练时间层

论文：Text2video-zero则完全无需训练

在文本到视频合成方面的研究分为两种路径：

直接根据文本提示对模型进行条件设定 （如Align your Latents），在训练过程中，模型学习文本特征与视频内容特征之间的关联，建立起从文本到视频的映射关系。
利用额外的文本到图像先验 （如Meta的Make-A-Video和Emu Video）。先利用已有的文本到图像模型，将文本转换为图像表示，再基于这些图像表示进一步生成视频。

在本研究中，采用前一种方法，并证明最终得到的模型是一个强大的通用运动先验，可轻松微调为图像到视频或多视图合成模型。

此外，还有如下优化策略：

引入了基于帧率的微条件设定（参考文献 $60$ ）。

采用了EDM框架（参考文献 $48$ ），并将噪声调度显著向更高噪声值调整，这对高分辨率微调至关重要。

TODO：待补充

数据整理

在图像生成领域：利用像CLIP这样高效的语言 - 图像表征方式，数据整理成功应用于生成式图像建模领域。

在图像生成领域：视频生成相关的文献中，缺少数据整理策略，所采用的数据处理和筛选策略往往是临时拼凑的。现状如下：

在公开的视频数据集中，颇受欢迎的WebVid - 10M数据集带有水印且规模并非最优。WebVid - 10M数据集常常与图像数据结合使用，以实现图像 - 视频联合训练，这加大了区分图像数据和视频数据对最终模型影响的难度。

为了克服这些不足，本研究对视频数据整理方法提出了一种适用于生成式视频模型的通用三阶段训练策略，从而打造出了一个当前最先进的模型。

为高质量视频合成整理数据

在本节中，作者介绍一种在大规模视频数据集 上训练最先进的视频扩散模型 的通用策略，确定生成式视频建模的三种不同训练模式：

阶段I：图像预训练 ：即二维文本到图像扩散模型（如Meta的Emu模型、SD系列模型等）。
阶段II：视频预训练：在大量视频上进行训练。
阶段III：视频微调：在高分辨率下，对一小部分高质量视频进行模型优化。

数据处理与标注

数据集及其处理

作者收集了一个由长视频组成的初始数据集 ，作为视频预训练阶段的基础数据 。为避免剪辑和淡入淡出效果影响合成视频，我们在三个不同的帧率级别 上采用级联方式 应用剪辑检测管道 。

图2. 我们的初始数据集包含许多静态场景和画面切换，这对生成式视频模型的训练不利。左图：经过我们处理前后，每个视频的平均片段数量对比，结果显示我们的处理流程检测出了大量额外的画面切换。右图：我们展示了在处理之前，其中一个子集的平均光流分数分布情况，该子集包含许多静态视频片段。

图2（左）展示了进行剪辑检测的必要性 ：应用剪辑检测管道后，我们得到的视频片段数量 大幅增加（约为原来的 4 倍），这表明未经处理的数据集中，许多视频片段包含的画面切换次数比从元数据中获取的要多。

字幕合成

在论文中，作者使用三种不同的合成字幕方法为每个视频片段添加字幕：

首先，作者使用图像字幕生成器CoCa （参考历史文章：多模态论文笔记------Coca）对每个视频片段的中间帧进行注释，
使用V-BLIP（https://github.com/yukw777/VideoBLIP）获得基于视频的字幕。
最后，我们通过基于大语言模型（LLM）对前两个字幕进行总结，生成视频片段的第三种描述。

由此得到的初始数据集，我们称之为大视频数据集（Large Video Dataset，LVD），它由5.8亿个带注释的视频片段对组成，内容时长总计212年。

其他处理

进一步研究发现，该数据集包含可能会降低最终视频模型性能的示例 ，如运动较少的视频片段、文本过多的视频片段或整体美学价值较低的视频片段。因此，我们还使用密集光流 对数据集进行注释，我们以2FPS的帧率计算光流，并通过去除平均光流幅度低于特定阈值的视频，过滤掉静态场景。实际上，当通过光流分数考虑LVD的运动分布时（见图2，右），我们识别出了其中接近静态的剪辑子集。

光流是指图像中物体运动在图像平面上产生的表观运动。密集光流则是对图像中所有像素点的光流进行计算和估计，得到一个密集的光流场，其中每个像素都有对应的运动矢量，包含了该像素在水平和垂直方向上的运动速度信息。

此外，作者还处理了：

应用光学字符识别去除包含大量文字的视频片段。
使用CLIP（参考历史文章：多模态论文笔记------CLIP）嵌入对每个剪辑的第一帧、中间帧和最后一帧进行注释，并据此计算美学分数（参考文献 $76$ ）以及文本图像相似度。

阶段I：图像预训练

图像预训练为训练流程的第一阶段。作者与当前视频模型的研究一致，也是将初始模型建立在预训练的图像扩散模型，本文中为Stable Diffusion 2.1。相比于模型权重的随机初始化，经过图像预训练的模型在质量和提示跟随方面更受青睐。

图像预训练 在 LVD - 10M 数据集上进行视频预训练的影响：如上图 a 所示，由预训练图像模型初始化空间层的视频模型，明显优于空间权重随机初始化的类似模型。

"w/ image Pretraining" = "with image Pretraining" ；

"w/o image Pretraining" = "without image Pretraining" 。

阶段II：整理视频预训练数据集

视频数据整理的系统方法

作者使用下面描述的不同方法对 "大型视频数据集（LVD）" 进行子集筛选，

然后基于人类偏好对在这些数据集上训练的潜在视频扩散模型进行排序，进而根据排名选出合适的子集。

更具体地说，对于"字幕合成"中介绍的每种注释类型（即CLIP分数、美学分数、OCR检测率、合成字幕、光流分数），作者进行了如下处理：

从LVD中未经过滤、随机采样的980万个样本子集LVD-10M开始。
系统地去除排名靠后的12.5%、25%和50%的示例。
对于合成字幕，不使用上面的去除排名靠后方法。而是评估不同字幕方法的Elo排名，以获取人类偏好投票，之后为每种注释类型选择性能最佳的过滤阈值。

将这种过滤方法应用于LVD后，得到了一个包含1.52亿个训练示例的最终预训练数据集，我们将其称为LVD-F（1/4大小的子集），如下表：

整理后的训练数据提升性能

在本节中，作者使用了：

上述过滤策略得到的子集LVD-10M-F
未整理的LVD-10M

分别训练了一个遵循标准架构的基线模型并进行了比较，并评估其视觉质量和提示视频对齐的偏好分数。

数据筛选对在 LVD - 10M 数据集上进行视频预训练的影响：如图 3b 强调了数据筛选对于预训练的重要性，在 LVD - 10M 数据集经过筛选的子集上进行训练，效果优于在未经筛选的整个 LVD - 10M 数据集上进行训练。

在这两个类别中，在小得多的LVD-10M-F上训练的模型更受青睐。

作者还将在LVD-10M-F上训练的模型与在WebVid-10M（最受认可的视频数据集）和InternVid-10M（专门为高美学价值筛选的数据集）上训练的类似视频模型进行比较。尽管LVD-10M-F也比这些数据集小四倍，但如图4b所示，相应的模型在时空质量和提示对齐方面更受人类评估者的青睐。

图4. 对阶段I和阶段II研究结果的总结：在经过筛选的数据集上进行预训练，无论是在小规模（图4a和图4b）还是大规模（图4c和图4d）的视频预训练过程中，都能持续提升生成式视频模型的性能。值得注意的是，即使在高质量数据上进行了5万步的视频微调之后，这种性能提升的效果依然存在（图4e）。

数据整理在大规模数据集上的作用

为了验证上述数据整理策略在更大、更具实际相关性的数据集上也同样有效，作者重复了上述实验，在一个包含5000万个示例的过滤子集和相同大小的未整理子集上训练视频扩散模型。

作者还进行了一项人类偏好研究，并在图4c中总结了研究结果，可以看到数据整理的优势在更大数量的数据上也得以体现 。最后，作者在图4d中展示了在整理后的数据上训练时，数据集大小也是一个关键因素，在相同训练步数下，在5000万个整理后样本上训练的模型优于在LVD-10M-F上训练的模型。

阶段III：高质量微调

本节，作者探究了第二阶段后的这些差异如何转化为第三阶段后的最终性能。在这里，我们借鉴潜在图像扩散建模（如SD系列和Emu模型）的训练技术，提高训练示例的分辨率 。此外，我们使用了一个较小的微调数据集 ，该数据集包含 25 万个配有字幕的高视觉保真度视频片段。

作者微调了三个相同的模型，它们仅初始化方式不同：

第一个模型使用预训练的图像模型初始化权重 ，并跳过视频预训练，这是近期许多视频建模方法中的常见选择（如：Make-A-Video、Align your Latents）。
其余两个模型使用上一节中潜在视频模型的权重进行初始化 ，具体来说，是在5000万个整理后 和未整理视频片段上训练得到的模型权重。

作者对所有模型进行50000步的微调，并在微调早期（10000步）和结束时评估人类偏好排名，以衡量性能差异在微调过程中的变化。并且在图4e中展示了获得的结果，其中绘制了相对于排名最后的模型（即从图像模型初始化的模型）的用户偏好Elo改进。此外，从整理后预训练权重恢复微调的模型在排名上始终高于从未整理训练后的视频权重初始化的模型。

由此，作者得出结论：

将视频模型训练 分为视频预训练 和视频微调两个阶段，有利于微调后最终模型的性能提升；
视频预训练 最好在大规模、整理后的数据集上进行，因为预训练后的性能差异在微调后依然存在。

大规模训练视频模型

作者通过消融实验 得出的最优数据策略 ，训练一个分辨率为320×576的强大基础模型 。然后进行微调，以得到针对不同任务的多个强大的最先进模型，如下面的文本到"视频模型"、"图像到视频模型"和"帧插值模型"。

最后，在"多视图生成"中通过对图像到视频模型进行多视图生成调整，证明了作者的视频预训练可以作为强大的隐式3D先验，并且在多视图一致性方面优于同期研究，特别是Zero123XL和SyncDreamer。

预训练基础模型

本文的视频模型基于Stable Diffusion 2.1。在训练图像扩散模型时，采用噪声调度策略至关重要，对于更高分辨率的图像，需要增加噪声，步骤如下所示：

图像模型预处理：运用Karras等人（ $48$ ）的网络预处理法，将图像模型中固定离散噪声调度调整为适用于256×384图像的连续噪声，并插入时间层。
模型训练：使用LVD-F数据集，在分辨率256×384的14帧图像上训练模型。采用标准EDM噪声调度（ $48$ ），进行150,000次迭代，批次大小为1536。
模型微调：对模型微调使其生成14帧320×576的图像，进行100,000次迭代，批次大小为768。此阶段将噪声调度向更高噪声调整很关键，与Hoogeboom等人（ $42$ ）在图像模型中的研究结论相符。
模型成果：该模型被称为基础模型，能轻松微调以适应多种任务，学习到了强大的运动表示，在UCF-101（ $84$ ）零样本视频生成任务中显著优于所有基线模型，评估细节见附录E，更多训练细节见附录D。

高分辨率文本到视频模型

作者在约包含100万个样本的高质量视频数据集 上，对基础文本到视频模型进行微调 。数据集中的样本通常包含大量的物体运动、稳定的相机运动，并且字幕与视频内容匹配良好，整体视觉质量较高。我们在分辨率为576×1024的情况下，对基础模型进行50,000次迭代微调 （再次将噪声调度向更高噪声调整），批次大小为768。图5展示了一些样本：

高分辨率图像到视频模型

除了文本到视频任务，作者还对基础模型进行微调以用于图像到视频生成，在这个任务中，视频模型以静态输入图像作为条件 。相应地，我们将输入到基础模型的文本嵌入 替换为条件图像的CLIP图像嵌入。此外，我们将经过噪声增强 （参考文献 $37$ ）的条件帧按通道连接到UNet（参考文献 $69$ ）的输入中。

作者不使用任何掩码技术 ，而是简单地将帧沿时间轴复制。我们微调了两个模型，一个预测14帧，另一个预测25帧；实现和训练细节见附录D。

作者发现，标准的无分类器引导（参考文献 $34$ ）可能会导致伪影：引导强度过低可能导致与条件帧不一致，而引导强度过高则可能导致过饱和。作者发现，**不使用恒定的引导尺度，而是沿帧轴线性增加引导尺度（从小到大）**更有帮助。具体细节见附录D。图5展示了一些样本，更多样本见附录E。

在后面的"多视图生成"中，作者将模型与最先进的闭源视频生成模型，特别是GEN-2（参考文献 $21, 70$ ）和PikaLabs（参考文献 $51$ ）进行比较，结果表明，在视觉质量方面，我们的模型更受人类评估者的青睐。实验细节以及更多图像到视频的样本见附录E。

相机运动LoRA

为了在图像到视频生成中实现可控的相机运动 ，我们在模型的时间注意力块 中训练了多种相机运动LoRA（参考文献 $30$ ）；具体实现细节见附录D。我们在一个包含丰富相机运动元数据的小型数据集上，训练这些额外的参数。具体来说，我们使用三个数据子集，其中相机运动分别被分类为**"水平移动"、"缩放"和"静态"**。图7展示了三个模型在相同条件帧下的样本；更多样本见附录E。

帧插值

为了在高帧率下获得平滑的视频，作者将高分辨率文本到视频模型微调为帧插值模型 。本文和Align your Latents的方法，通过掩码将左右帧连接到UNet的输入中。模型学习在两个条件帧之间预测三帧，有效地将帧率提高了四倍。令人惊讶的是，我们发现很少的迭代次数（约10,000次）就足以得到一个性能良好的模型。细节和样本分别见附录D和附录E。

多视图生成

为了同时获得物体的多个新视图，作者在多视图数据集 上对图像到视频的SVD模型进行微调。

数据集 ：作者在两个数据集上对SVD模型进行微调 ，SVD模型输入单张图像 并输出一系列多视图图像 ：
- Objaverse 的一个子集，含 15 万个整理后的 CC 许可合成 3D 物体，每个物体用随机 HDRI 环境地图和 $-5°, 30°$ 仰角渲染 21 帧 360° 轨道视频，在 50 个 GSO 数据集采样物体的未见测试集评估。
- MVImgNet，由普通家庭物体多视图视频组成，分约 20 万训练视频和 900 测试视频，将纵向帧旋转为横向。
模型：微调后的多视图模型为SVD-MV。进行消融研究，比较SVD-MV（基于视频先验）、SD2.1-MV（基于图像先验）、Scratch-MV（随机初始化），还与Zero123、Zero123XL、SyncDreamer等先进模型比较。
指标：使用峰值信噪比（PSNR）、LPIPS以及在50个GSO测试物体上，生成帧与真实帧之间的CLIP相似度分数（CLIP-S）作为标准指标。
训练：我们使用8个80GB的A100 GPU，总批次大小为16，学习率为1e-5，对所有模型训练12,000步（约16小时）。
结果：
- 图9（a）显示SVD-MV性能优于SD2.1-MV和Scratch-MV，且少量迭代（约12,000次）就能有良好性能，训练时间更短（16小时）却与先进技术有竞争力。
- 图9（b）展示不同微调模型收敛情况，SVD-MV仅1000次迭代CLIP-S和PSNR分数就远超对应模型。
- 图8、图10分别展示GSO和MVImgNet测试物体上多视图生成结果的定性比较，生成帧多视图下一致且逼真。更多细节和样本见附录E。

结论

提出了Stable Video Diffusion（SVD），这是一种用于高分辨率、最先进的文本到视频和图像到视频合成的潜在视频扩散模型。
提出了一种整理大量视频数据的方法，将庞大且嘈杂的视频集合转化为适用于生成式视频模型的数据集。
引入了视频模型训练的三个不同阶段，并分别分析了它们对最终模型性能的影响。
视频扩散模型的多视图微调进行了开创性研究，结果表明SVD构成了强大的3D先验。