Movie Gen:A Cast of Media Foundation Models
简介
Movie Gen是Meta公司提出的一系列内容生成模型,包含了
3.2.1 预训练数据
Movie Gen采用大约 100M 的视频-文本对 和 1B 的图片-文本对进行预训练。
图片-文本对的预训练流程与Meta提出的 Emu: Enhancing image generation models using photogenic needles in a haystack 流程相同。[2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a HaystacktAbstract page for arXiv paper 2309.15807: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystackhttps://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807
原始视频数据由4秒至两分钟长度的数据组成,视频内容涵盖人文、自然、动物等多个领域。数据经过预处理后得到一系列的clip-prompts pairs(视频片段-提示词对) 。
每个clip(视频片段)大约4-16秒长,视频内容由单镜头拍摄,且不包含复杂的动作。
视频数据预处理流程如下:
Visual Filtering
-
过滤掉分辨率小于720px的视频
-
数据集中60%的视频为横屏视频,40%为竖屏视频
-
删去文字特别多的视频
-
从长视频中抽取出单场景的4-16s的片段
-
保证视频美学品质
-
保证视频没有边框
Motion Filtering
删去运动幅度较小的视频,通过Meta内部的静态视频检测模型移除所有没有运动的视频,随后选出具有"合理"运动幅度的视频。
Content Filtering
删除重复的视频片段、对不同类型的数据进行重新采样,保证内容的均匀性。
Captioning
对每个视频片段使用llama3-Video创建准确、具体的prompts。70%的数据使用8B模型,30%的数据使用70B。
为了保证模型能够生成电影质感的运镜,训练了一个运镜分类器来对16类运镜进行分类,如变焦、平移。如果运镜分类结果置信度很高,则将这个运镜分类结果添加至提示词中。
Multi-stage data curation
Movie Gen将上述数据预处理流程分了三个阶段,每个阶段对于数据的筛选逐渐严格,使得模型可以由易到难逐步进行学习。
3.2.2 预训练
-
首先使用text-to-image的数据对模型进行warm up热身训练,随后使用text-to-image和text-tovideo的数据进行联合训练。
-
视频数据分辨率首先由256px提升至768px
-
不断用更好的数据集和优化后的超参数对模型进行训练。
训练阶段:256 px T2I
- TP(张量并行度): 1
- 指训练过程中使用的张量并行度。在这个阶段,没有应用张量并行。
- CP(检查点并行度): 1
- 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
- bs/GPU(每个GPU的批量大小): 6
- 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理6个样本。
- GPUs(GPU数量): 1536
- 用于训练的GPU总数。这个阶段使用了1536个GPU。
- global bs(全局批量大小): 9216
- 跨所有GPU的总批量大小。计算公式为
bs/GPU * #GPUs
= 6 * 1536 = 9216。
- learning rate(学习率): 1e-4
- 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.0001。
- iters(迭代次数): 210k
- 训练过程中执行的总迭代次数。这个阶段运行210,000次迭代。
- seen samples(已见样本数): 1.94B
- 表示模型在训练过程中暴露的总样本数。模型看到了大约19.4亿个样本。
训练阶段:256 px T2I/V
- TP(张量并行度): 4
- 指训练过程中使用的张量并行度。张量并行度设置为4。
- CP(检查点并行度): 1
- 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
- bs/GPU(每个GPU的批量大小): 2
- 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理2个样本。
- #GPUs(GPU数量): 3072
- 用于训练的GPU总数。这个阶段使用了3072个GPU。
- global bs(全局批量大小): 1536
- 跨所有GPU的总批量大小。计算公式为
bs/GPU * #GPUs
= 2 * 3072 = 1536。
- learning rate(学习率): 6e-5
- 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.00006。
- #iters(迭代次数): 123k
- 训练过程中执行的总迭代次数。这个阶段运行123,000次迭代。
- #seen samples(已见样本数): 173.6M
- 表示模型在训练过程中暴露的总样本数。模型看到了大约1.736亿个样本。
训练阶段:768 px T2I/V
- TP(张量并行度): 4
- 指训练过程中使用的张量并行度。张量并行度设置为4。
- CP(检查点并行度): 1 或 2
- 可能指的是检查点并行度。在这个阶段,检查点并行度根据配置为1或2。
- bs/GPU(每个GPU的批量大小): 1
- 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理1个样本。
- #GPUs(GPU数量): 6144 或 4096
- 用于训练的GPU总数。这个阶段使用了6144或4096个GPU,取决于配置。
- global bs(全局批量大小): 1536、768 或 512
- 跨所有GPU的总批量大小。计算公式为
bs/GPU * #GPUs
。根据配置,它可以是1536、768或512。
- learning rate(学习率): 6e-5、3e-5、2e-5 或 1e-5
- 确定每次迭代时向损失函数最小值移动的步长。学习率在0.00006、0.00003、0.00002和0.00001之间变化。
- #iters(迭代次数): 19.6k、11k、15.9k 或 28k
- 训练过程中执行的总迭代次数。这个阶段运行19,600、11,000、15,900或28,000次迭代,取决于配置。
- #seen samples(已见样本数): 30.1M、16.9M、12.2M 或 14.6M
- 表示模型在训练过程中暴露的总样本数。模型看到了大约3.01亿、1.69亿、1.22亿或1.46亿个样本,取决于配置。
Note:联合训练时,文本-图片对数据和文本视频对的数据保持在1:10左右的比例。
3.3 Fine Tuning
为了保证生成结果的质量,finetuning的数据集规模可以较小,但是数据质量一定要有保障。因此finetuning的数据均由人为标注。
高质量的定义:良好的运镜、真实性、美学性、内容丰富、文本描述详细。
为了筛选高质量的数据集,Movie Gen使用连续的四个阶段对数据进行筛选:
-
创建一个候选子集,对每个质量标准进行严格的限制,使用目标检测模型移除了只有小物体的视频。
-
与Content Filtering一样,对第一阶段筛选后的视频进行重新采样,保证各个类别的视频均匀分布。
-
人为找出具有电影质感的视频。
-
人为对模型生成的提示词进行润色修改,同时加入详细的原数据:运镜、人物表情、物体和背景信息、具体的运动描述和光线信息。
|----------------|---------------------------------------------|
| 模型架构 | 与预训练阶段保持一致 |
| 初始化 | 使用预训练后的checkpoint文件 |
| 节点数 | 64 |
| GPU数量 | 512 H100 GPUs (每个节点 8 个GPUs). |
| Batch Size | 相对较小(没有具体说明) |
| 动态学习率 | 余弦学习率调度器 (Loshchilov and Hutter, 2017). |
| 视频帧率 | 16秒长度的视频:16FPS;0.6--16秒长的视频:24FPS. |
| 生成视频长度 | 支持生成10-16秒的视频 |
- Model Averaging:不同数据子集、不同超参数训练出来的模型各有所长,为了利用不同checkpoint模型的优势、提升模型泛化性Movie Gen对SFT阶段不同的模型参数进行了平均操作,类似于Llama 3。
HunyuanVideo: A Systematic Framework For Large Video Generative Models
3. Data Pre-porcessing
与Movie Gen一致,Hunyuan Viedoe使用了图像-视频联合训练的策略,将视频分为五类、图像分为两类,以满足不同训练需求。原始数据涵盖人物、动物、风景等多个领域,筛选时设定了最低时长、画质、构图、色彩等严格标准,优先选用高质量数据,显著提升了模型性能。
3.1 Data Filtering
-
使用PySceneDetect把原始视频分割为单镜头拍摄的视频片段。
-
使用OpenCV中的拉普拉斯算子找出视频中最"干净"的一帧作为视频开头。
-
使用内部的VideoCLIP模型计算每个视频的embeddings,使用embeddings计算余弦距离,删去重复数据。使用K-Means算法对数据进行重新采样以保持各种类型数据的多样性。
-
使用Dover模型筛选更为美观的视频片段。单独训练了一个用于筛选清晰度的视频。
-
删去了完全禁止和动作幅度较小的视频。(estimated optical flow)
-
使用PySceneDetect和Transnet v2获得场景边界信息
-
使用OCR模型移除文字过多的视频片段
-
使用目标检测模型移除敏感信息
SFT阶段,约有100万条数据,同样采用人为标注的数据进行微调。
3.2 Data Annotation
结构化说明文本:HunYuanVideo使用JSON来对图片信息进行说明。JSON数据包括:Short Description描述场景的主要内容、Dense Description详细、完整的描述、Background描述物体所在的背景、Style描述视频的风格、Shot Type描述视频的具体视角、Lighting描述视频的光线情况、Atmosphere描述视频氛围如Cozy、Tense等。
此外,HunYuanVideo扩展了JSON结构,以包含额外的元数据派生元素,包括源标签、质量标签以及来自图像和视频元信息的其他相关标签。
为了防止过拟合,HunYuanVideo通过精心设计的Dropout及排列和组合策略,根据这些多维度的描述信息来合成长度和模式各异的字幕,旨在提高生成模型的泛化能力。
HunYuanVideo训练了一个运镜分类器来预测14个不同的运镜类型,包括变焦放大、变焦缩小、向上平移、向下平移等。高置信度的分类结果将被添加至数据的JSON说明文本中。
通过上述两项工作的数据预处理过程,可以看出数据质量对模型的重要性。