可灵开源视频生成数据集 学习笔记

目录

介绍

可灵团队提出了四个模块的改进:

[video caption](#video caption)

[新指标 vtss 动态质量 静态质量 视频自然性](#新指标 vtss 动态质量 静态质量 视频自然性)


介绍

在视频数据处理中,建立准确且细致的条件是关键,可灵团队认为,解决这一问题需要关注三个主要方面:

文本与视频语义对齐 :视频生成需要与视觉内容直接相关的详细字幕,而不是像视频问答中的基于问题的描述。这要求字幕极为丰富详细,因为视觉信号具有无限细致之处。此外,原始视频数据常包含复杂的过渡,增加了确保字幕准确性的难度。
低质量数据的评价与过滤 :低质量视频(如画质差或过多人工效果)会妨碍训练,但对其进行准确评估和过滤依然是挑战。现有方法多依赖于人工选择的质量指标和启发式阈值过滤,这些通常为其他任务设计,未必适合视频生成,因此可能无法有效保证所需的数据质量。
数据质量的异质性:即使有数据过滤,数据集中视频质量仍然参差不齐。在相同方式下训练这些异质数据可能导致模型学习的不确定性。

  • 使用线性分类器提升过渡检测精度,从而改善视频的时间一致性。
  • 为分割视频片段生成平均长度为200字的结构化字幕,提升文本与视频的对齐。
  • 训练网络预测Video Training Suitability Score(VTSS),避免误删高质量数据,由网络单一输出的分值进行数据过滤。
  • 在训练期间引入数据指标作为生成模型的额外条件,帮助模型区分不同质量的数据,提高条件与视频内容的一致性,进而提升模型性能和可控性。

Panda70M是目前最大规模的公开可访问视频文本数据集

Koala-36M 包含 3600 万个视频片段,平均时长 13.75 秒,分辨率为 720p,每个视频都配有平均长度为 202 字的文字描述

可灵团队提出了四个模块的改进:

1、更加准确的分镜detection

2、提出一个structured caption system,可以对每个分镜产生200words的描述

3、训练了一个video training suitability score(VTSS)筛选高质量数据

4、把多个子指标作为metric condition喂给生成模型生成更好的效果

video caption

可灵团队使用了6种不同的captioner(都是用的GPT-4V),然后merge在一起。

主题 (The subject)
主体的动作 (Actions of the subject)
主体所处的环境 (The environment in which the subject is located)
视觉语言,包括风格、构图、光线等 (The visual language including style, composition, lighting, etc.)
摄影语言,包括镜头运动、角度、焦距、镜头尺寸等 (The camera language including camera movement, angles, focal length, shot sizes, etc.)
世界知识 (World knowledge)

新指标 vtss 动态质量 静态质量 视频自然性

动态质量 :高质量视频应展现良好的动态性,评估时关注主体运动的幅度和运动的时间稳定性。视频中运动区域应覆盖超过30%的画面,否则因动态不足会降低评分。时间稳定性考虑摄像机的运动;非专业拍摄的视频常有不规则明显的抖动,这些视频的评分会降低,以区分专业作品。
静态质量 :高质量视频的每一帧应具备丰富的主体细节、合理的构图、美学吸引力、清晰的主体和饱和的色彩。尽管这项指标可能涉及一些主观性,但对整体视觉质量的评估至关重要。
视频自然性:可灵团队偏好自然、未处理的视频。特效、转场、字幕和标志可能会引入视频分布的偏差,使得生成模型更难学习。此外,可灵团队考虑视频内容的安全性,拒绝含有政治、恐怖、暴力、色情、血腥或其他令人不安内容的视频。

相关推荐
qq7422349842 分钟前
APS系统与OR-Tools完全指南:智能排产与优化算法实战解析
人工智能·算法·工业·aps·排程
兜兜转转了多少年3 分钟前
从脚本到系统:2026 年 AI 代理驱动的 Shell 自动化
运维·人工智能·自动化
LLWZAI7 分钟前
十分钟解决朱雀ai检测,AI率为0%
人工智能
无忧智库7 分钟前
某市“十五五“智慧气象防灾减灾精准预报系统建设方案深度解读 | 从“看天吃饭“到“知天而作“的数字化转型之路(WORD)
大数据·人工智能
方见华Richard7 分钟前
方见华个人履历|中英双语版
人工智能·经验分享·交互·原型模式·空间计算
凤希AI伴侣7 分钟前
凤希AI伴侣:一人成军的工具哲学与全模态内容实践-2026年2月7日
人工智能·凤希ai伴侣
Sagittarius_A*9 分钟前
特征检测:SIFT 与 SURF(尺度不变 / 加速稳健特征)【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉·surf·sift
FserSuN25 分钟前
2026年AI工程师指南
人工智能
是枚小菜鸡儿吖26 分钟前
CANN 的安全设计之道:AI 模型保护与隐私计算
人工智能
leo030827 分钟前
科研领域主流机械臂排名
人工智能·机器人·机械臂·具身智能