Stable Video文本生成视频——Scaling Latent Video Diffusion Models to Large Datasets 附公测地

近期，Stability AI发布了首个开放视频模型------"Stable Video"，该创新工具能够将文本和图像输入转化为生动的场景，将概念转换成动态影像，生成出电影级别的作品，旨在满足广泛的视频应用需求，包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型，能够生成14帧和25帧的视频，用户还可以自行设置帧率，范围在3到30帧每秒之间。该模型适用于多种视频应用任务，包括从单一图像进行多视角合成，以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型，专为高分辨率视频设计。研究者通过三个阶段的训练过程，强调了预训练数据集的重要性，并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验，还能够微调成多视图扩散模型，以高效的方式生成对象的多个视角。

此外，通过特定的运动提示和LoRA模块的训练，模型能够实现显式运动控制。研究者们通过策划工作流程，将大型视频集合转化为高质量的数据集，并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色，并在与其他顶尖模型的比较中证明了其有效性。总而言之，这一方法有效地分离了运动和内容，在多视图合成方面取得了显著成果。其主要步骤如下：

数据处理与标注：首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对，使用三种不同的合成字幕方法对每个片段进行注释，而通过进一步研究发现，现有数据集中含有可能降低最终视频模型性能的样本，如运动量少、文本过多或审美价值低的视频。因此，作者以2FPS进行计算，并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。
图像预训练：讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型------即Stable Diffusion 2.1------以为模型提供强大的视觉表现力。

策划视频预训练数据集：作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练，其中利用了空间布局初始化自预训练图像模型的视频模型，并展示了在预训练大型且多样化的数据集，然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流（optical flow）来过滤掉不需要的样本以创建一个更适宜的预训练数据集。
高质量视频微调：这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段（图像预训练和视频预训练）的基础上，通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间，插入时间卷积和注意力层，这些是在每个空间卷积和注意力层之后添加的，与仅训练时间层的工作或完全基于LLM（大型语言模型）的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码，其github仓库地址为：github.com/nateraw/sta... 可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用，可以直接进入官网www.stablevideo.com/ 点击start with text。

输入对应的prompt如：A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface，然后选择比例和风格，点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用，而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士，还是对于对提示技术感兴趣的初学者，我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识，然后逐步过渡到高级提示技术。您还将学习如何防止提示误用，以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接：study.163.com/course/intr...