【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)

note

  • 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
  • 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
  • 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测

文章目录

一、VidGen数据集

(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成

论文链接:https://arxiv.org/pdf/2408.02629

项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/

git链接:https://github.com/SAIS-FUXI/VidGen

二、Panda-70m数据集

(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。

论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

论文链接:https://arxiv.org/pdf/2402.19479.pdf

三、Openvid数据集

(3)Openvid数据集:通过广泛的实验和消融研究,验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,包括视频质量评估(VQAA和VQAT)、文本与视频对齐(Blip_bleu和SD_score)以及视频时间一致性(Clip_temp_score和Warping_error)。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。

http://arxiv.org/abs/2407.02371v1

https://nju-pcalab.github.io/projects/openvid

四、OpenVid-1M数据集

(4)OpenVid-1M数据集:

介绍:https://nju-pcalab.github.io/projects/openvid/

论文:https://export.arxiv.org/abs/2407.02371

  • OpenVid-1M的多样性也体现在其包含的多种场景,如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512,远高于许多现有的视频数据集,如WebVid-10M和Panda-70M。
  • OpenVid-1M的视频片段经过了自动化流程的筛选,包括使用LAION Aesthetics Predictor进行美学评分,利用CLIP模型评估时间一致性,以及通过UniMatch评估运动差异,确保了视频内容的流畅性和稳定性。最终,通过DOVER模型进行清晰度评估,筛选出具有清晰纹理的高质量视频片段,并使用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

数据筛选流程:数据集的策划采用了自动化的多步骤处理流程,包括:

  • 使用LAION Aesthetics Predictor进行美学评分,筛选出具有高美学得分的视频。
  • 利用CLIP模型评估视频的时间一致性,筛选出视觉质量高且时间上连续的视频片段。
  • 通过UniMatch评估运动差异,选择运动平滑的视频片段。
  • 使用DOVER模型进行清晰度评估,保留纹理清晰、质量高的片段。
  • 采用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

高清视频子集:从OpenVid-1M中精选出433K个1080p高清视频,构成了OpenVidHD-0.4M子集,专门用于推动高清视频生成技术的研究。

五、Cogvideox训练数据准备

caption数据准备pipeline如下:

(0)基于一些开源数据:Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)

(1)取出视频的每帧,送给cogvlm进行图生文逐帧理解,然后对每帧内容进行汇总总结;这里用GPT4造了些微调数据,基于llama微调文本摘要模型

(2)第二种方法是直接使用cogvlm2-video视频理解模型

六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation

原文链接:https://arxiv.org/pdf/2405.10674

研究列表:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file

回顾了T2V数据集,并主要根据收集的领域将其分类为六个流派:面部、开放、电影、动作、指导和烹饪。核心就是下面这个图:

评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)。

七、ShareGPT4Video数据集

链接:https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video

单位:中科大、上海AI实验室

描述文本的字数主要在200-400之间,提供了丰富的时间信息,可以很好地完成视频理解和生成任务。

论文地址:https://arxiv.org/abs/2406.04325v1

项目主页:https://ShareGPT4Video.github.io/

GitHub:https://github.com/ShareGPT4Omni/ShareGPT4Video

数据集类型: ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。

它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。

  • sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
  • share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成,该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
  • sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
  • llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。

用现有的闭源模型生成高质量视频描述的挑战有三个方面------

  • 一是清晰地理解帧间的时序变化;
  • 二是详细准确地描述帧内内容;
  • 另外,对任意长度视频的可扩展性也是一大难点。

为此,研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW),可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言,研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧,以及上一关键帧对应的差分描述。

这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化,总结出当前帧相对于上一帧的重要空间、时序变化,也就是当前帧与上一帧对应的差分描述。最终,所有差分描述会连同时间戳一起送入GPT4中,从而总结出最终的关于整个视频的高质量字幕。

Reference

复旦最新VidGen-1M: 文生视频还得靠好数据
7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!
Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕

相关推荐
人工智能培训咨询叶梓1 小时前
生成式人工智能在无人机群中的应用、挑战和机遇
人工智能·语言模型·自然语言处理·aigc·无人机·多模态·生成式人工智能
大耳朵爱学习16 小时前
大模型预训练的降本增效之路——从信息密度出发
人工智能·深度学习·机器学习·自然语言处理·大模型·llm·大语言模型
Seal软件1 天前
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略
大模型·llm·aigc·gpu·genai·gpu集群
GPUStack1 天前
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略
ai·大模型·aigc·gpu·genai·gpu集群
真-忒修斯之船2 天前
搭配Knowledge Graph的RAG架构
人工智能·大模型·llm·知识图谱·graph·rag·knowledgegraph
字节跳动数据平台2 天前
火山引擎数智平台:高性能ChatBI的技术解读和落地实践
大数据·大模型·数据可视化·bi
人工智能培训咨询叶梓2 天前
MobiLlama,面向资源受限设备的轻量级全透明GPT模型
人工智能·gpt·语言模型·自然语言处理·性能优化·多模态·轻量级
乌漆嘎嘎黑2 天前
下载 llama2-7b-hf 全流程【小白踩坑记录】
大模型·llama2·大模型下载·llama-2-7b-hf
文艺倾年2 天前
【大模型专栏—进阶篇】语言模型创新大总结——“后起之秀”
人工智能·pytorch·语言模型·自然语言处理·大模型
AI大模型_学习君3 天前
3 种自然语言处理(NLP)技术:RNN、Transformers、BERT
人工智能·自然语言处理·大模型·llm·bert·大语言模型