主流图生视频模型训练数据集调研报告
目录
- 模型总览与训练数据对比
- [Stable Video Diffusion (SVD)](#Stable Video Diffusion (SVD))
- Wan (万象)
- CogVideoX
- HunyuanVideo (Tencent)
- [Runway Gen-3 Alpha](#Runway Gen-3 Alpha)
- Kling (快手)
- [Open-Sora / Open-Sora-Plan](#Open-Sora / Open-Sora-Plan)
- 训练数据构建方法论总结
1. 模型总览与训练数据对比
1.1 核心对比表
| 模型 | 开发者 | 发布时间 | 参数规模 | 训练数据规模 | 数据来源 | 数据筛选方法 | 字幕生成方法 | 开源程度 |
|---|---|---|---|---|---|---|---|---|
| SVD | Stability AI | 2023.11 | ~1.5B | LVD: ~577M clips; LVD-F: ~144M clips | 网络视频 | 多级场景分割 + 四维评分筛选(CLIP/美学/OCR/光流) | CoCa + V-BLIP + LLM融合 | 开源 |
| Wan 2.1 | 阿里巴巴 | 2025.02 | 1.3B / 14B | ~50亿图像 + ~12亿视频片段(估计) | 大规模网络数据 | 八维基本属性 + 视觉质量聚类 + 六级运动质量 | 内部VLM密集字幕 | 开源 |
| CogVideoX | 清华/智谱AI | 2024.08 | 2B / 5B | ~3500万视频片段 + 20亿图片 | LAION-5B + COYO-700M | 六类负面标签过滤器 + 光流/美学评分 | CogVLM逐帧 → GPT-4/LLaMA2总结 | 开源 |
| HunyuanVideo | 腾讯 | 2024.12 | ~13B | 数十亿图像-文本对 + 大规模视频 | 未公开 | 分层阈值筛选(256p→720p) + 人工注释SFT | 结构化JSON字幕(7维度) + 14类摄像机运动 | 开源 |
| Gen-3 Alpha | Runway | 2024.06 | 未公开 | 未公开 | YouTube + 14个影视资源网站 | 未公开 | 未公开 | 闭源 |
| Kling | 快手 | 2024.06 | 未公开 | 未公开 | 快手平台 + AudioSet | SNR/MOS/VAD + CLAP一致性过滤 | 音频分类 → 大模型融合字幕 | 闭源 |
| Open-Sora | HPC-AI Tech | 2024 | 未公开 | Panda70M(~2100万) + Pixart-Alpha(1100万) | 公开数据集 | 五维评分过滤(美学/运动/模糊/OCR/抖动) | LLaVA-Video(256p) + Qwen2.5Max(768p) + 运动分数 | 开源 |
2. Stable Video Diffusion (SVD)
- 发布时间: 2023年11月
- 开发者: Stability AI
- 架构: Latent Video Diffusion Model
- 论文: "Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets" (arXiv:2311.15127)
数据集
之前普遍用的是方法是:2D 图像上去训练文生图模型,然后插入时间序列层,在小的高质量的视频数据集上进行微调。但是存在的问题:
1)使用小视频数据集是不符合目前大数据的趋势的。
2)目前的视频数据集缺少一个统一的有效的策略去管理。
作者本文针对这个问题提出一套比较流程化的有效的视频数据治理的手段。
作者提出了一个三步走的步骤:
1)text-to-image pretraining 文生图预训练:实际上就是指我们目前已有的文生图的 stable diffusion base model。
2)video pretraining 文生视频预训练:在大规模视频数据上去做预训练。视频预训练完成后,能够得到在视频领域的一个很好的 base model,这个 base model 会对视频的一些特征具有很好的表征,而且对视频文本特征之间的对应关系会有一些认识,具有了一些基础的能力。
3)high-qualtity video finetuning 高质量视频微调:base model 有基础能力之后,就要把 base model 去应用到各种具体的下游任务中。如果想要做文生视频,那么就整理一个文本和视频对的数据集去继续 finetuning 之前视频预训练得到的 base model,从而得到一个文生视频的模型。如果想要做图生视频,那么就把图像作为控制条件,继续 finetuning base model,从而得到一个图生视频的模型。如果想控制视频生成的运镜,那么就通过 camera motion-specific Lora 的方式在 base model 上 finetuning 出 Lora 来控制视频生成的视角。如果想做多视图的生成,就用多视图的数据finetuning base model,从而得到一个多视图生成的模型。
所以第二步算是一个关键,通过大量的数据做视频的预训练,这样能让模型具有一个基础的能力。有了这个基础能力之后,对于具体的下游任务,再去做特异化的 finetuning,这样就能得到各种各样的产出,而且这些产出的模型在各自的领域都达到了 SOTA 的一个效果,其实这也是大数据所带来的一个的优势体现。
LVD
首先作者是讲了他们的初始数据集的收集,称为LVD (large video dataset),包含将近 600M 个视频片段。
这个数据集怎么来的?最初始去各处去搜集一些没有任何处理的原始数据,然后要经过一些过程来得到处理后的 LVD 数据集。首先是 cut detection。
什么叫 cut detection?这里的 cut 是指生成的视频一般都是连续的,可能中间不存在转换,比如说突然换一个场景,或者说有非常大的变动,这种其实是要分割成两段视频去做训练的,这样才有利于生成比较一致的视频。所以第一步就是检测这些视频中的cut,把它切成更细的clips。
关于 cut detection,作者对一个基础的 pipeline 还做了一些改进。基础的 pipeline 就是一个视频,每连续两帧之间它变化的一个幅度,如果变化幅度很大,它就认为这里是一个分界线,要把它切成两段。但是作者认为这种情况只能去检测出那种瞬间变化的那种场景切换,如果是那种渐变效果是检测不出来的。
因此作者将这个检测方法做了一下改进,改进之后就是一个多级的边界检测(apply a cut detection pipeline in a cascaded manner at three different FPS levels)。之前可能是连续两帧之间看它变化多大,现在每隔几帧去看一下它之间的变化大不大。有不同的间隔模式,有可能每隔 5 帧去看一下,然后再隔个 10 帧去看一下它之间的变化大不大。类似于这样的一个多级的方式去检测是否存在一些边界。
作者把视频分成更细的片段之后,用三种不同的方法给这些视频打上文本标注(three different synthetic captioning methods)。
- image captioner CoCa,基于图像的,取视频中的一个中间帧,用图像打标的方式去给这个视频添加描述。
- V-BLIP,一种基于整个视频的打标算法,考虑视频全局。
- 基于大语言模型 LLM-based,把前两种打标的结果去进行一个综合。
这样每个视频就会有三个标注,经过这两步之后,作者就收集了他们的 large video datasets,包含了 577 百万的 clips,一共是 212 年的视频时间长度。
LVD-F
在形成 LVD 之后,作者经过一些实验发现这个数据集可能还并不是最佳的,需要对这个数据集做进一步的清洗,让这个数据集更质量更高,这样训练出来的这个视频生成模型才会更好。作者接下来就进行了第二个大的步骤,得到一个更小的叫做 LVD-F。LVD-F 的数据量差不多是 LVD 的 1/4 左右。
这里采取了什么措施?作者去通过四个角度去计算了每个视频文本对之间的四个评分,分别是:
- CLIP score:是计算视频和它的标注之间的一个匹配程度。
- aesthetic score:评判视频本身的美观程度。
- OCR detection score:OCR(optical character recognition) 检测每个视频中文字所占区域的面积大小,剔除包含大量书面文字的clips。
- optic flow score:检测光流,如果两帧之间的变化越大,这个光流得分也会越高,用于检测视频的运动变化大小。
得到每个视频的四个指标之后,通过这四个指标去筛选 LVD 数据集,让它更小一点,更精细一点。那怎么去筛呢?很难人为去定义一个阈值,说 CLIP score 高于多少分?我认为是 OK 的,就把它拿进来,这个阈值是多少是需要通过实验去验证的,那怎么去做实验呢?在附录 E2.2 详细说明怎么去定这个threshold。
举例来说,首先看这个 aesthetic threshold 的阈值怎么选取?为了实验的便捷,首先作者先做一个 random simple,将原来 600 百万的 LVD 数据集缩小到十百万,这样验证的速度会更快,因为作者只是为了得到一个阈值,并不是为了训练一个非常好的模型,那为了得到阈值,它就在一个小一点的数据集上去做实验。然后怎么去做实验?就是在这个小的数据集的基础上去建立 4 个不同大小的数据。
怎么去建立 4 个大小不同数据?蓝色表示保持 LVD-10M 这个数据集不变,橙色表示将 aesthetic score 低于 0.125 的那部分数据丢掉,只使用剩下的一些部分。依此类推,这样就构成了四个不同大小的子集,然后在这四个不同大小子集上去 finetuning 模型,然后去生成视频,让人去给这四个模型生成的视频打分。这里有三个指标,一个是 prompt alignment,指看四个模型之间文本和视频的匹配程度。第二个 Quality,指视频本身的质量。第三个 Aggregated,指综合前两项的综合得分。分数越高说明取这个阈值越好。这里绿色柱子综合得分最高,绿色对应的是0.25,所以作者选择的 threshold 就是0.25,即把 aesthetic score 低于 0.25 的那些视频都从 LVD 数据集里去删掉,这就是作者所说的数据治理,那其他的指标也是以此类推。比如 clip score 最好的指标是0.5,也就是 clip score 低于 0.5 的那些视频都丢掉,最后把这些所有视频取一个交集,就是说每一个指标都会丢掉一部分数据,然后最后取一个所有指标的一个交集,这样就得到最终的 LVD-F 数据集,就是作者治理之后的数据集。第2幅图的 Motion 指之前说的那个光流,根据光流做筛选。第1幅图中的 caption strategy 不是筛选指标,而是对比不同的打标方式所带来的模型效果的影响,但是作者认为现在一个通常的训练方式都是用尽可能不一样的 caption 去训练模型,也就是说一个视频可能会对应多个caption,这个是合理的,即蓝色的 Coca 这种打标方式效果是最好的。作者去调配了这三种不同的打标在训练过程中所可能出现的概率,50% 的情况下是 Coca 打的标签去作为数据的输入,25% 的和另外 25% 的情况是另外两种打标方式作为模型标签的输入。
3. Wan
3.1 模型概述
- 发布时间: 2025年2月
- 开发者: 阿里巴巴Wan团队
- 架构: Diffusion Transformer (DiT)
- 参数规模: 1.3B(轻量版)和14B(完整版)
- 论文: "Wan: Open and Advanced Large-Scale Video Generative Models" (arXiv:2503.20314)
3.2 训练数据
Wan2.1的整体数据是这样构建的。
预训练数据主要从三个维度进行清洗和挑选,包括基本维度、视觉质量、动作质量。
- 基本属性(光基本维度包含了大概八个方向,确实很细节):
(1)文本覆盖率:轻量OCR检测视频和图像的文本覆盖率,排除含有过多文字的视频和图像
(2)美学得分:LAION-5B分类器过滤掉低分数据
(3)安全分数:通过训练一个安全评估模型来计算NSFW分数去过滤掉不当内容
(4)水印、黑边:裁剪
(5)过曝:利用过曝和不过曝的数据过滤掉过曝的视频和图像
(6)合成图像/视频过滤:通过训练一个合成内容检测器去过滤合成的视频和图像
(7)模糊检测:训练一个模型对样本进行量化模糊评分去除视觉模糊内容
(8)时长:过滤时长低于4s的内容
- 视觉质量:
通过聚类划分100个子集,每个子集随机采样数据并且进行人工的打分,根据视觉质量打分1-5分,然后用这些采样数据对整个数据进行打分。
- 运动质量:
一共六个运动质量等级:5-6的数据是完全排除,4优先级低,3需降低采样率,1-2保留
(1)最佳运动:极佳的运动布局、视角和振幅,以及干净、流畅的运动或动作
(2)中等运动:明显的运动,但可能存在一些小问题,如多主体或部分遮挡
(3)聊天和访谈类视频,运动信息极少,但质量很高。 需要单独识别这些视频并降低其采样率
(4)镜头驱动的运动: 以摄像机运动为主(如航拍),主体运动极少,与静态图像相似,这些图像的采样优先级要低得多
(5)低质量运动:主体过多、严重遮挡或主体不清晰的视频(如拥挤的街景)
(6)摇晃的摄像机镜头: 摄影机明显晃动的业余录像、通常会造成运动模糊和模糊的前景-背景区分。
额外处理步骤:在纯白背景上渲染汉字,合成了数以百万计的含文字图像;收集了大量包含文本的图像。 采用多种 OCR 模型来准确识别图像和视频中的中英文文本。然后将这些提取的文本内容输入Qwen2-VL,生成图像的自然描述,确保尽可能包含精确的文本内容。预训练阶段整合合成数据和真实数据,可以有效地生成视频中的罕见词汇。
Post-training的数据在Pre-training的数据上进一步进行了细化。整个过程包含了人工和模型的共同的处理。
图像数据:首先根据专家模型预测的分数,选出前20%的图像,除此之外还考虑了风格和类别等因素,以确保数据分布的多样性。然后是人工从不同类别和数据源中收集高质量数据(报告写的数百万,工作量还是很巨大的)。
视频数据:采用与图像处理类似的策略来收集,首先使用视觉质量分类器从候选数据集中筛选出一些排名靠前的视频,然后还会根据运动质量分类器选择数百万个以简单动作为特征的视频和以复杂动作为特征的视频,所有视频的选择都遵循强调类别平衡和高度多样性的策略。 同时,从 12 个主要类别中选择数据(科技、动物、艺术、人类、车辆)以增强模型对常用类别的生成能力。
密集video-caption收集过程: 这个过程主要是根据原始的caption对这个caption进行扩充或者重写。wan2.1用了一个内部模型,为数据集中的每张图片和视频生成密集的字幕。这个模型的训练用了各种开源视觉语言数据集和额外收集的数据。(这一步非常重要,很大程度决定了模型的指令遵循的能力)
开源dataset处理过程:这部分数据集不仅包括标题数据集,还包括侧重于视觉内容的视觉问答数据集,如动作、计数和 OCR,并且还会用内部模型根据用户指令生成特定样式或内容的字幕,还收集了纯文本指令数据,以增强模型遵循指令的能力。
内部dataset处理过程:这部分还挺复杂的,主要是为了让模型的各种场景下的能力能够有所提升。
4. CogVideoX
- 发布时间: 2024年8月
- 开发者: 清华大学/智谱AI (THUDM)
- 架构: Expert Transformer (3D full attention)
- 参数规模: 2B和5B
- 论文: "CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer" (arXiv:2408.06072)
训练数据集
我们构建了一个包含相对高质量视频片段和文本描述的集合,这些片段通过视频过滤器和重字幕模型处理。经过筛选后,大约剩下3500万个单镜头片段,每个片段平均长约6秒。此外,我们使用了来自LAION-5B(Schuhmann等人,2022)和COYO-700M(Byeon等人,2022)数据集中的20亿张图片(根据美学评分进行筛选),以辅助训练。
视频过滤: 视频生成模型应该捕捉世界的动态本质。然而,原始视频数据由于两个内在原因往往包含显著噪声:首先,在视频创建过程中的人工编辑可能会扭曲真实的动态信息;其次,由于拍摄问题如相机抖动或使用次等设备,视频质量可能受到影响。除了视频本身的内在质量外,我们也考虑视频数据对模型训练的支持程度。那些动态信息极少或在动态方面缺乏连贯性的视频被认为是不利的。因此,我们制定了一套负面标签,包括:
编辑:经历了明显人工处理的视频,例如重新编辑和特效应用,这会损害视觉完整性。
动态连贯性缺乏:过渡缺乏连贯运动的视频段,常见于人工拼接视频或由静态图像编辑而成的视频。
低质量:拍摄不佳的视频,具有不清晰的视觉效果或过度的相机抖动。
讲座类型:主要关注一个人连续讲话且有效动作最小的视频,如教育内容、讲座和直播讨论。
文本主导:含有大量可见文本或主要专注于文本内容的视频。
噪声截图:直接从手机或电脑屏幕捕获的视频,通常质量较差。
我们首先抽取20,000个视频,并根据其质量为每个视频标记为正面或负面。利用这些标注,我们基于Video-LLaMA(Zhang等人,2023)训练了6个过滤器来筛除低质量的视频数据。负面标签的例子及分类器在测试集上的性能可以在附录J中找到。此外,我们计算所有训练视频的光流得分和图像美学得分,并在训练期间动态调整它们的阈值,以确保生成视频的动态和美学质量。
视频字幕生成: 视频-文本对对于文本到视频生成模型的训练至关重要。然而,大多数视频数据并不附带相应的描述性文本。因此,有必要为视频数据标记全面的文本描述。目前,已经有一些视频字幕数据集可用,如Panda70M(Chen等人,2024)、COCO Caption(Lin等人,2014)和WebVid(Bain等人,2021b)。然而,这些数据集中的字幕通常非常简短,无法全面描述视频的内容。
为了生成高质量的视频字幕数据,我们建立了一个密集型视频字幕数据生成流水线,详细情况如图7所示。主要思路是借助图像字幕的帮助来生成视频字幕。
首先,我们使用Chen等人(2024)提出的视频字幕模型为视频生成简短的字幕。然后,我们采用CogView3(Zheng等人,2024)中使用的图像重字幕模型CogVLM(Wang等人,2023),为每个帧创建密集的图像字幕。随后,我们使用GPT-4总结所有图像字幕以生成最终的视频字幕。为了加速从图像字幕到视频字幕的生成过程,我们通过GPT-4(Achiam等人,2023)生成的摘要数据对LLaMA2(Touvron等人,2023)进行了微调,从而实现了大规模视频字幕数据的生成。有关视频字幕数据生成过程的更多细节,请参见附录F。
为进一步加速视频重字幕化,我们还基于CogVLM2-Video(Hong等人,2024)和Llama3(AI@Meta,2024)对一个端到端的视频理解模型CogVLM2-Caption1进行了微调,使用上述流水线生成的密集字幕数据。这种端到端的CogVLM2-Caption模型生成的视频字幕示例见图15和附录G。CogVLM2-Caption可以提供详细的视频内容和对象变化描述。有趣的是,我们发现可以通过连接CogVideoX和CogVLM2-Caption实现视频到视频的生成,详情见附录H。
5. HunyuanVideo (Tencent)
5.1 模型概述
- 发布时间: 2024年12月
- 开发者: 腾讯混元团队
- 架构: Dual-stream to Single-stream Transformer
- 参数规模: 约130亿(13B)
- 论文: "HunyuanVideo: A Systematic Framework For Large Video Generative Models"
5.2 训练数据
我们采用图像-视频联合训练策略。 视频被细致地分为五个不同组,而图片又分为两组,每组根据各自训练流程的具体需求量身定制。本节主要探讨视频数据策展的复杂性。
我们的数据采集流程严格遵循《通用数据保护条例》(GDPR)中的原则[39]框架。此外,我们还采用数据综合和隐私计算等先进技术,确保符合这些严格标准。
我们的原始数据库最初包含涵盖广泛领域的视频,包括人物、动物、植物、景观、车辆、物体、建筑和动画。每个视频都采用了一套基本门槛,包括最短时长要求。此外,部分数据基于更严格的标准收集,如空间质量、特定宽高比的遵守以及构图、色彩和曝光的专业标准。这些严格的标准确保我们的视频具备技术质量和美学吸引力。我们通过实验验证,纳入高质量数据对于显著提升模型性能至关重要。
图4:我们的分层数据过滤流程。我们采用多种筛选器进行数据过滤,并逐步提高阈值,构建4个训练数据集,即256p、360p、540p和720p,最终SFT数据集则通过人工注释构建。本图重点介绍了每个阶段使用的一些最重要的过滤器。每个阶段都会删除大量数据,从前一阶段数据的一半到五分之一不等。 这里,灰色条表示每个滤波器过滤掉的数据量,彩色条表示各阶段剩余数据量。
数据过滤
我们来自不同来源的原始数据持续时间和质量水平各不相同。为此,我们采用一系列技术对原始数据进行预处理。首先,我们使用 PySceneDetect[19]将原始视频拆分为单次视频片段。接下来,我们使用OpenCV中的拉普拉斯算子[18]以识别清晰的帧,作为每个视频片段的起始帧。利用内部的VideoCLIP模型,我们计算这些视频片段的嵌入。这些嵌入有两个目的:(i)基于嵌入的余弦距离对相似剪辑进行去重;(ii) 我们应用k-均值[59]以获得1万个概念重心用于概念重采样和平衡。
为了持续提升视频美感、动态和概念范围,我们实施了分层数据过滤流水线来构建训练数据集,如图4所示。该流程包含多种过滤器,帮助我们从不同角度筛选数据,接下来将介绍这些内容。
我们雇佣多佛[85]从美学和技术角度评估视频剪辑的视觉美学。此外,我们还训练模型以确定清晰度并消除带有视觉模糊的视频片段。通过利用估计的光流预测视频的运动速度[18]我们过滤掉静态或慢动作视频。我们结合了PySceneDetect的结果[19]以及Transnet v2[76]获取现场边界信息。我们使用内部OCR模型来去除带有过多文字的视频片段,并定位和裁剪字幕。我们还开发YOLOX[24]------类似于用于检测和去除某些遮挡或敏感信息(如水印、边框和标志)的视觉模型。为了评估这些滤波器的有效性,我们使用较小的HunyuanVideo模型进行简单实验并观察性能变化。这些实验结果在指导我们构建数据过滤流程方面起着重要作用,接下来将介绍该流程。
我们针对视频数据的分层数据过滤流程产生五个训练数据集,对应五个训练阶段(第4.5节)。这些数据集(除最后一个微调数据集外)是通过逐步提升上述过滤器的阈值来精心整理的。视频空间分辨率从256逐步提升到1280
在阈值调整过程中,我们会在不同阶段对滤波器施加不同程度的严格度(见图4)。接下来将描述用于微调的最后一个数据集。
为了提升模型在最终阶段(第4.7节)的性能,我们构建了一个微调数据集,内容包括100万个样本。该数据集通过人工注释精心整理。注释员的任务是识别具有高度视觉美感和引人入胜内容动态的视频片段。每个视频片段的评估基于两个视角:(i)分解后的美学视角,包括色彩和谐、光照、物体强调和空间布局;(ii) 分解后的运动视图,涵盖运动速度、动作完整性和运动模糊。最后,我们的微调数据集包括具有复杂动态细节的视觉美观视频片段。
我们还通过重复使用大部分滤镜(排除与运动相关的滤镜)建立了图像的层级数据过滤流程。同样,我们通过逐步提高对数十亿图像-文本对的图像池施加的过滤阈值,构建了两个图像训练数据集。 第一个数据集包含数十亿个样本,用于文本到图像的初始预训练阶段。第二个数据集包含数亿个样本,用于文本转图像的第二阶段预训练。
数据注释
结构化字幕。研究显示[7,4]字幕的精确性和全面性在提升生成模型的提示跟随能力和输出质量方面起着关键作用。大多数早期工作主要集中在提供简短的说明[14,50]或是密集的说明文字[93,9,10].然而,这些方法也存在不足,存在信息不完整、冗余的讨论和不准确。为了实现更全面、更丰富的信息密度和准确性,我们开发并实施了内部视觉语言模型(VLM),用于生成图像和视频的结构化字幕。这些结构化字幕以JSON格式化,提供多维的描述性信息,包括:
- 简短描述:捕捉场景的主要内容。
- 密集描述:详细描述场景内容,尤其是场景转换和与视觉内容整合的镜头运动,例如镜头跟随某个主题。
- 背景:描述主题所在的环境。
- 风格:描述视频的风格,如纪录片、电影、现实主义或科幻。
- 镜头类型:识别突出或突出特定视觉内容的视频类型,如航拍、特写、中景或远景。
- 光线:描述视频的光线条件。
- 气围:传达视频的氛围,如温馨、紧张或神秘。
此外,我们还扩展了JSON结构,纳入了更多元数据衍生元素,包括源标签、质量标签以及来自图片和视频元信息的其他相关标签。通过实施精心设计的脱落机制,结合置换和组合策略,我们通过为每张图片和视频汇集这些多维描述,合成长度和模式多样的字幕,旨在提升生成模型的泛化能力并防止过拟合。我们利用该说明工具为训练数据集中的所有图片和视频提供结构化的说明。
摄像机运动类型。我们还训练了一个摄像机运动分类器,能够预测14种不同的摄像机运动类型,包括放大、缩小、向上、向下、左移、右移、向上倾斜、向下倾斜、左倾斜、右倾斜、绕左转、绕右转、静态拍摄和手持拍摄。高置信度的相机运动预测被集成到JSON格式的结构化字幕中,以实现生成模型的相机运动控制能力。
6. Runway Gen-3 Alpha
6.1 模型概述
- 发布时间: 2024年6月
- 开发者: Runway
- 能力: 文本到视频、图像到视频生成
- 特点: 显著提升的视频生成质量、时间连贯性和提示词遵循度
6.2 训练数据
数据来源
Runway 在 2024 年 6 月发布了 Gen-3 视频生成模型, 效果震撼整个视频生成领域 。
这家毫无疑问的视频生成赛道头部创业公司,刚刚被曝出一份内部文件。
一个简单的 Excel 表格,巨详细地罗列着 Runway 动员全公司上下在互联网上收集的高质量视频资源,累积条目数万条。
其中 YouTube 上的视频占据了一大部分,光是「推荐油管频道」就有 3968 个。还有 14 个在线影视资源网站。
7. Kling (快手)
7.1 模型概述
- 发布时间: 2024年6月(1.0版本)
- 开发者: 快手科技
- 能力: 文本到视频、图像到视频生成
- 特点: 最长2分钟,1080p分辨率
7.2 训练数据
图4:音频和视频数据经过预处理和质量筛选,以获得高质量的单一事件音频和视频片段。随后,通过时间增强生成合成的多事件音频样本,并使用大型模型生成并提取音频和视频的关键词和分类标题。最后,将各种标题信息结合起来生成最终的训练标题。
数据收集
基于AudioSet[16]本体层次结构选择前三层类别构建标签集,形成系统化关键词库指导视频平台检索。通过元数据筛选确保语义相关性,并补充人工精选资源和开源数据集样本以增强长尾覆盖。
数据清洗
保留分辨率>720P且字幕占比低的视频,音频统一转换为44kHz/16bit立体声WAV格式。基于信噪比(SNR)、MOS评分、削波率和音频带宽进行质量过滤,使用语音活动检测(VAD)选择静音比<0.2的音频。通过CLAP模型计算音频-文本标签一致性保留高相关数据,最终将长视频/音频分割为10秒片段。
数据增强
对短数据进行拼接获得10秒时长样本以提升动态视觉响应能力。引入时序数据增强[54],按不同时序规则拼接单事件视频/音频片段生成多事件数据,并通过合并原始文本描述获得对应字幕。从音频中提取声源、对象、场景等关键信息,结合大模型将非结构化原文转为语义完整的自然语言描述。
字幕提取
使用音频分类模型[81]将数据分为音效、音乐、语音和歌唱四类,分别采用对应的大模型从音频提取文本描述,同时从视频提取视觉描述。将音频描述、视频描述和增强文本输入大模型获得最终融合字幕[2]。
训练数据
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation
如图5所示,我们的训练集包含文本-音频、视频-音频和视频-文本-音频三类配对数据,覆盖自然环境、人类活动、动物声音等广泛声学场景,为学习多样化生成模式奠定基础。
图5:训练集中声音事件的类别分布。真实世界声学事件的广泛覆盖确保了训练开放领域声音生成模型所需的多样性和泛化能力。
7.3 基准数据集
如表1所示,现有音视频数据集存在共同缺陷:缺乏对音频和视频模态的文本描述。为此我们推出首个支持视频、视频字幕、音频、音频字幕和声音事件标签的多模态基准Kling-Audio-Eval,其构建过程如下:
从现有音效库选取覆盖所有一二级类别的1000个三级标签(5.1节),经严格数据清洗(5.2节)后筛选3万个带预生成字幕和声音事件标签的样本进行人工核验,标注规范包括:
-
字幕修正:核查并修正预生成音视频字幕
-
模态独立:确保音视频字幕标注互不依赖
-
标签验证:核对实际内容与预设标签的匹配性
-
有效样本筛选:遵循六项标准(如前景音频不含人声、音效须源自可见对象等)
最终形成包含20,935个高质量样本的测试集,原始1000个三级标签细化为1919个,类别分布如图6所示。
8. Open-Sora
8.1 模型概述
- 开发者: HPC-AI Tech / 北京大学
- 架构: 3D full attention Transformer
- 能力: 文本到视频、图像到视频生成
- 开源: 完全开源
8.2 训练数据
我们的数据目标是构建一个层级式数据金字塔,以满足渐进式培训流程的需求。为此,我们开发了一组彼此独立的过滤器,旨在应对各种类型的数据检测。通过逐步加强过滤度,我们可以获得更小尺寸但纯度和质量更高的子集。为完整性,我们还对收集的视频数据的一些关键属性进行了统计分析,包括附录A中的视觉和文本属性分布。
数据过滤
图2:分层数据过滤流水线。原始视频首先被转换成可训练的视频片段。然后,我们应用各种互补分数过滤器,获得每个训练阶段的数据子集。
分层数据过滤系统如图2所示。我们先将原始视频预处理成视频片段,然后逐步应用一系列从宽松到严格的过滤器,构建结构化数据金字塔。
预处理
预处理阶段将原始视频转换为适合培训的短片。在此阶段,我们首先剔除带有外部属性的损坏文件和原始视频。具体来说,我们过滤掉时长少于2秒、每像素比特(bpp)低于0.02、帧率(fps)低于16、宽高比超出范围[1/3, 3]的视频,以及带有"受限基线"配置文件的视频。然后,我们将原始视频切割成短而连续的片段,基于FFmpeg中libavfilter计算的场景评分(FFmpeg 开发者,2023).最后,我们处理获得的连续剪辑,确保输出剪辑符合特定的格式约束:帧率(fps)低于30,较长尺寸不超过1080像素,以及H.264编解码器。此外,通过裁剪镜头,黑色边框被去除。最后,我们将超过8秒的镜头分为多个8秒的片段,而少于2秒的镜头则被淘汰。
评分过滤
为了解决原始数据中的各种缺陷,我们开发了一系列互补滤镜,包括1)美学评分;2)运动评分;3)模糊检测;4)光学字符识别(OCR);5)摄像机抖动检测,每个滤镜针对数据质量的特定方面。 这些过滤器协同工作,形成一个全面且稳健的净化系统。 通常,每个滤波器通过根据其相应标准分配评分来评估样本,过滤强度由阈值控制。我们在附录B中介绍了所有基于分数的滤波器。
数据注释
在字幕方面,我们采用开源的视觉语言模型LLaVA-Video。(张等人,2024)用于注释256px视频。我们提示模型聚焦六个方面以获得详细且全面的说明,分别是:1)主要主题;2)受试者的动作;3)背景和环境;4)光照条件和氛围;5)摄像机运动;6)视频风格,如写实、电影感、3D、动画等。对于高分辨率768px训练数据,我们采用更强的专有模型Qwen 2.5 Max(团队,2024)以生成更准确且语义一致的字幕。我们发现Qwen 2.5 Max产生更少的幻觉,且语义一致性优于LLaVA-Video。无论是训练还是推理,我们都会在字幕后加上运动分数(详见第5.3节)。
Open-Sora-Plan
我们从Pixart-Alpha获得了1100万对图像-文本[chen2023pixartalpha],字幕由LLaVA生成[刘2024视觉].此外,我们还使用OCR数据集Anytext-3M[Tuo2023anytext(任意文本)],将每张图像与对应的OCR字符配对。我们通过筛选Anytext-3M的英文数据,约占整个数据集的一半。自SAM以来[基里洛夫2023段]数据(如Pixart-Alpha所用)包括模糊的面部,我们从Laion-5B中选取了16万张高质量图像[舒曼2022莱昂]提升生成过程中与人相关的内容质量。选拔标准包括高分辨率、高美学评分、无水印以及图像中人物的出现。
视频方面,我们从Panda70M下载了大约2100万个横向视频[chen2024panda]使用我们的过滤管道。对于垂直数据,我们从VIDAL获得了大约300万的垂直视频[ZHU2023语言绑定],来源于YouTube Shorts。此外,我们还从CC0授权的网站抓取高质量视频,如Mixkit、Pexels和Pixabay。这些开源视频网站不包含内容相关的水印。
9. 训练数据构建方法论总结
9.1 数据来源分类
数据来源
├── 公开数据集
│ ├── LAION-5B (58.5亿图像-文本对)
│ ├── WebVid-10M (1070万视频-文本对)
│ ├── Panda-70M (7080万视频-文本对)
│ ├── HD-VILA-100M (1亿视频-文本对)
│ ├── InternVid (2.34亿视频-文本对)
│ ├── HowTo100M (1.36亿视频片段)
│ └── Kinetics-400/700 (30万+视频)
│
├── 授权数据
│ ├── Shutterstock (图像、视频、3D资产)
│ ├── Adobe Stock
│ └── 其他商业媒体库
│
├── 平台数据
│ ├── YouTube
│ ├── 抖音/TikTok (字节跳动)
│ ├── 快手平台
│ └── 腾讯视频等
│
├── 网络爬取
│ ├── 股票视频网站 (Pexels, Pixabay等)
│ ├── 社交媒体平台
│ └── 其他公开视频来源
│
└── 合成/生成数据
├── AI生成的视频
└── CGI/3D渲染内容
9.2 数据筛选与清洗流程
各模型普遍采用多维度、分层级的数据筛选策略,核心方法包括:
1. 场景分割与预处理
- 使用PySceneDetect、FFmpeg场景评分等工具将长视频分割为单场景片段
- 剔除时长过短(<2s)、帧率过低(<16fps)、宽高比异常的视频
- 裁剪黑边、去除水印和字幕区域
2. 多维度质量评分
| 评分维度 | 评估内容 | 典型模型 |
|---|---|---|
| 美学评分 | 色彩、构图、曝光等视觉质量 | SVD, Wan, HunyuanVideo |
| 运动评分 | 光流分析、运动幅度与连贯性 | SVD, CogVideoX, Open-Sora |
| 文本覆盖率 | OCR检测视频中文字区域占比 | Wan, HunyuanVideo |
| 模糊检测 | 拉普拉斯算子等方法检测清晰度 | HunyuanVideo, Open-Sora |
| 摄像机抖动 | 检测拍摄稳定性 | Open-Sora |
| 安全评分 | NSFW内容过滤 | Wan |
| 合成内容检测 | 识别AI生成或CGI内容 | Wan |
3. 文本-视觉对齐评分
- CLIP Score:衡量视频与文本描述的语义匹配度
- SVD实验表明,CLIP Score阈值0.5时效果最佳
4. 分层级阈值筛选
- SVD提出的数据治理方法论最具代表性:在小规模子集上实验不同阈值,通过人工评估确定最优筛选标准
- HunyuanVideo采用渐进式阈值调整,构建256p→360p→540p→720p的分层数据集
- 各过滤器取交集,确保数据同时满足多维度质量要求
9.3 数据标注与字幕生成
视频字幕质量直接决定模型的指令遵循能力和生成质量,各模型普遍采用多层级标注策略:
1. 图像级标注
- CoCa:取视频中间帧进行图像描述
- CogVLM/CogVLM2:生成密集的逐帧图像字幕
- LLaVA-Video:开源视觉语言模型,聚焦六个方面(主题、动作、背景、光照、镜头运动、风格)
2. 视频级标注
- V-BLIP:基于整个视频的全局描述
- Video-LLaMA:视频理解模型
- 端到端视频字幕模型(如CogVLM2-Caption)
3. 结构化字幕
- HunyuanVideo提出JSON格式的结构化字幕,包含7个维度:简短描述、密集描述、背景、风格、镜头类型、光线、气氛
- 通过脱落机制(dropout)和组合策略合成多样化的字幕,防止过拟合
4. 多模型融合
- CogVideoX:先用图像字幕模型生成逐帧描述,再用GPT-4/LLaMA2总结为视频字幕
- Kling:分别提取音频描述和视频描述,再融合生成最终字幕
- SVD:综合CoCa、V-BLIP和LLM三种打标结果,按50%/25%/25%概率混合使用
5. 运动信息编码
- Open-Sora在字幕后附加运动分数,增强模型对动态信息的理解
- HunyuanVideo训练14类摄像机运动分类器,将预测结果集成到结构化字幕中
9.4 多阶段训练策略
主流模型普遍采用渐进式多阶段训练,核心思路是从通用基础能力逐步过渡到高质量特定任务:
1. SVD的三阶段范式
文生图预训练 → 大规模视频预训练(LVD-F) → 高质量视频微调
- 第二步是关键:通过海量视频数据赋予模型基础的视频理解能力
- 微调阶段可根据下游任务灵活调整:文生视频、图生视频、运镜控制、多视图生成等
2. HunyuanVideo的五阶段训练
256p低分辨率 → 360p → 540p → 720p → SFT微调(100万人工标注样本)
- 每个阶段逐步提高分辨率和数据质量阈值
- 最终SFT阶段由人工注释构建,筛选具有高度视觉美感和动态表现的视频
3. 图像-视频联合训练
- SVD:先训练文生图模型,再插入时间层做视频预训练
- HunyuanVideo:图像和视频联合训练,图像数据分两阶段(数十亿→数亿)
- Open-Sora:使用1100万图像-文本对辅助训练
4. 渐进式分辨率提升
- 从低分辨率(256p)开始训练,逐步提升至高分辨率(720p/1080p)
- 低分辨率阶段覆盖更多数据,高分辨率阶段使用更严格的筛选阈值