跟李沐学AI：视频生成类论文精读（Movie Gen、HunyuanVideo）

Movie Gen：A Cast of Media Foundation Models

简介

Movie Gen是Meta公司提出的一系列内容生成模型，包含了

3.2.1 预训练数据

Movie Gen采用大约 100M 的视频-文本对 和 1B 的图片-文本对进行预训练。

图片-文本对的预训练流程与Meta提出的 Emu: Enhancing image generation models using photogenic needles in a haystack 流程相同。[2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a HaystacktAbstract page for arXiv paper 2309.15807: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystackhttps://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807

原始视频数据由4秒至两分钟长度的数据组成，视频内容涵盖人文、自然、动物等多个领域。数据经过预处理后得到一系列的clip-prompts pairs（视频片段-提示词对）。

每个clip（视频片段）大约4-16秒长，视频内容由单镜头拍摄，且不包含复杂的动作。

视频数据预处理流程如下：

Visual Filtering

过滤掉分辨率小于720px的视频
数据集中60%的视频为横屏视频，40%为竖屏视频
删去文字特别多的视频
从长视频中抽取出单场景的4-16s的片段
保证视频美学品质
保证视频没有边框

Motion Filtering

删去运动幅度较小的视频，通过Meta内部的静态视频检测模型移除所有没有运动的视频，随后选出具有"合理"运动幅度的视频。

Content Filtering

删除重复的视频片段、对不同类型的数据进行重新采样，保证内容的均匀性。

Captioning

对每个视频片段使用llama3-Video创建准确、具体的prompts。70%的数据使用8B模型，30%的数据使用70B。

为了保证模型能够生成电影质感的运镜，训练了一个运镜分类器来对16类运镜进行分类，如变焦、平移。如果运镜分类结果置信度很高，则将这个运镜分类结果添加至提示词中。

Multi-stage data curation

Movie Gen将上述数据预处理流程分了三个阶段，每个阶段对于数据的筛选逐渐严格，使得模型可以由易到难逐步进行学习。

3.2.2 预训练

首先使用text-to-image的数据对模型进行warm up热身训练，随后使用text-to-image和text-tovideo的数据进行联合训练。
视频数据分辨率首先由256px提升至768px
不断用更好的数据集和优化后的超参数对模型进行训练。

训练阶段：256 px T2I

TP（张量并行度）: 1

指训练过程中使用的张量并行度。在这个阶段，没有应用张量并行。

CP（检查点并行度）: 1

可能指的是检查点并行度。在这个阶段，没有应用检查点并行。

bs/GPU（每个GPU的批量大小）: 6

指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理6个样本。

GPUs（GPU数量）: 1536

用于训练的GPU总数。这个阶段使用了1536个GPU。

global bs（全局批量大小）: 9216

跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 6 * 1536 = 9216。

learning rate（学习率）: 1e-4

确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.0001。

iters（迭代次数）: 210k

训练过程中执行的总迭代次数。这个阶段运行210,000次迭代。

seen samples（已见样本数）: 1.94B

表示模型在训练过程中暴露的总样本数。模型看到了大约19.4亿个样本。

训练阶段：256 px T2I/V

TP（张量并行度）: 4

指训练过程中使用的张量并行度。张量并行度设置为4。

CP（检查点并行度）: 1

可能指的是检查点并行度。在这个阶段，没有应用检查点并行。

bs/GPU（每个GPU的批量大小）: 2

指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理2个样本。

#GPUs（GPU数量）: 3072

用于训练的GPU总数。这个阶段使用了3072个GPU。

global bs（全局批量大小）: 1536

跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 2 * 3072 = 1536。

learning rate（学习率）: 6e-5

确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.00006。

#iters（迭代次数）: 123k

训练过程中执行的总迭代次数。这个阶段运行123,000次迭代。

#seen samples（已见样本数）: 173.6M

表示模型在训练过程中暴露的总样本数。模型看到了大约1.736亿个样本。

训练阶段：768 px T2I/V

TP（张量并行度）: 4

指训练过程中使用的张量并行度。张量并行度设置为4。

CP（检查点并行度）: 1 或 2

可能指的是检查点并行度。在这个阶段，检查点并行度根据配置为1或2。

bs/GPU（每个GPU的批量大小）: 1

指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理1个样本。

#GPUs（GPU数量）: 6144 或 4096

用于训练的GPU总数。这个阶段使用了6144或4096个GPU，取决于配置。

global bs（全局批量大小）: 1536、768 或 512

跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs。根据配置，它可以是1536、768或512。

learning rate（学习率）: 6e-5、3e-5、2e-5 或 1e-5

确定每次迭代时向损失函数最小值移动的步长。学习率在0.00006、0.00003、0.00002和0.00001之间变化。

#iters（迭代次数）: 19.6k、11k、15.9k 或 28k

训练过程中执行的总迭代次数。这个阶段运行19,600、11,000、15,900或28,000次迭代，取决于配置。

#seen samples（已见样本数）: 30.1M、16.9M、12.2M 或 14.6M

表示模型在训练过程中暴露的总样本数。模型看到了大约3.01亿、1.69亿、1.22亿或1.46亿个样本，取决于配置。

Note：联合训练时，文本-图片对数据和文本视频对的数据保持在1:10左右的比例。

3.3 Fine Tuning

为了保证生成结果的质量，finetuning的数据集规模可以较小，但是数据质量一定要有保障。因此finetuning的数据均由人为标注。

高质量的定义：良好的运镜、真实性、美学性、内容丰富、文本描述详细。

为了筛选高质量的数据集，Movie Gen使用连续的四个阶段对数据进行筛选：

创建一个候选子集，对每个质量标准进行严格的限制，使用目标检测模型移除了只有小物体的视频。
与Content Filtering一样，对第一阶段筛选后的视频进行重新采样，保证各个类别的视频均匀分布。
人为找出具有电影质感的视频。
人为对模型生成的提示词进行润色修改，同时加入详细的原数据：运镜、人物表情、物体和背景信息、具体的运动描述和光线信息。

|----------------|---------------------------------------------|
| 模型架构 | 与预训练阶段保持一致 |
| 初始化 | 使用预训练后的checkpoint文件 |
| 节点数 | 64 |
| GPU数量 | 512 H100 GPUs (每个节点 8 个GPUs). |
| Batch Size | 相对较小（没有具体说明） |
| 动态学习率 | 余弦学习率调度器 (Loshchilov and Hutter, 2017). |
| 视频帧率 | 16秒长度的视频：16FPS；0.6--16秒长的视频：24FPS. |
| 生成视频长度 | 支持生成10-16秒的视频 |

Model Averaging：不同数据子集、不同超参数训练出来的模型各有所长，为了利用不同checkpoint模型的优势、提升模型泛化性Movie Gen对SFT阶段不同的模型参数进行了平均操作，类似于Llama 3。

HunyuanVideo: A Systematic Framework For Large Video Generative Models

3. Data Pre-porcessing

与Movie Gen一致，Hunyuan Viedoe使用了图像-视频联合训练的策略，将视频分为五类、图像分为两类，以满足不同训练需求。原始数据涵盖人物、动物、风景等多个领域，筛选时设定了最低时长、画质、构图、色彩等严格标准，优先选用高质量数据，显著提升了模型性能。

3.1 Data Filtering

使用PySceneDetect把原始视频分割为单镜头拍摄的视频片段。
使用OpenCV中的拉普拉斯算子找出视频中最"干净"的一帧作为视频开头。
使用内部的VideoCLIP模型计算每个视频的embeddings，使用embeddings计算余弦距离，删去重复数据。使用K-Means算法对数据进行重新采样以保持各种类型数据的多样性。
使用Dover模型筛选更为美观的视频片段。单独训练了一个用于筛选清晰度的视频。
删去了完全禁止和动作幅度较小的视频。（estimated optical flow）
使用PySceneDetect和Transnet v2获得场景边界信息
使用OCR模型移除文字过多的视频片段
使用目标检测模型移除敏感信息

SFT阶段，约有100万条数据，同样采用人为标注的数据进行微调。

3.2 Data Annotation

结构化说明文本：HunYuanVideo使用JSON来对图片信息进行说明。JSON数据包括：Short Description描述场景的主要内容、Dense Description详细、完整的描述、Background描述物体所在的背景、Style描述视频的风格、Shot Type描述视频的具体视角、Lighting描述视频的光线情况、Atmosphere描述视频氛围如Cozy、Tense等。

此外，HunYuanVideo扩展了JSON结构，以包含额外的元数据派生元素，包括源标签、质量标签以及来自图像和视频元信息的其他相关标签。

为了防止过拟合，HunYuanVideo通过精心设计的Dropout及排列和组合策略，根据这些多维度的描述信息来合成长度和模式各异的字幕，旨在提高生成模型的泛化能力。

HunYuanVideo训练了一个运镜分类器来预测14个不同的运镜类型，包括变焦放大、变焦缩小、向上平移、向下平移等。高置信度的分类结果将被添加至数据的JSON说明文本中。

通过上述两项工作的数据预处理过程，可以看出数据质量对模型的重要性。