Video Caption / 视频字幕:数据集总结

目录

一、背景

二、介绍

[2.1 MSR-VTT](#2.1 MSR-VTT)

[2.2 MSVD](#2.2 MSVD)

[2.3 VATEX](#2.3 VATEX)

三、参考文献


一、背景

Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结-CSDN博客Video Caption / 视频字幕:常用指标(BELU-4,ROUGE-L,METEOR,CIDEr,SPICE)和数据集总结https://blog.csdn.net/Crystal_remember/article/details/133126871 上篇文章总结介绍了Video Caption / 视频字幕的常用指标,本文接着总结Video Caption / 视频字幕的常用数据集。

目前Video Caption / 视频字幕常用数据集主要有MSR-VTT[1]、MSVD[2]、VATEX[3]。下main进行分别介绍。

二、介绍

2.1 MSR-VTT

MSR-VTT是一个通用的视频字幕数据集,包括10000个视频片段,每个片段都注释有20个字幕。平均地,每个视频剪辑持续约15秒。标准情况下通常使用6153个片段进行训练,497个片段用于验证,2090个片段用于测试。

如下为MSR-VTT数据集中的6个片段和标注的语句。每个片段包含四个帧来表示视频片段和五个人类标记的句子。

2.2 MSVD

MSVD包含1970个视频,每个视频片段有40个字幕。每个视频片段的平均持续时间约为10秒。常见情况下,包括使用1200个视频进行训练,100个视频进行验证,670个视频进行测试。数据集示例如下。

2.3 VATEX

VATEX是一个包含约41250个视频剪辑的大规模数据集,和 82.5 万中英文视频描述,其中包括超过 20.6 万描述是中英平行翻译对。每个视频片段的持续时间在10秒之间,每个片段手动注释10个英文字幕。

每个视频具备 10 个英文描述和 10 个中文描述,分别来自 20 个人类标注者。所有这些都描绘了相同的视频,因此彼此之间是平行的,而最后五个是彼此成对的翻译。

三、参考文献

1\]Jun Xu, Tao Mei, Ting Yao, and Yong Rui. MSR-VTT: A large video description dataset for bridging video and language. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5288--5296, 2016. \[2\]David L. Chen and William B. Dolan. Collecting highly parallel data for paraphrase evaluation. In Annual Meeting of the Association for Computational Linguistics, 2011. \[3\]Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. Vatex: A large-scale, highquality multilingual dataset for video-and-language research. In IEEE/CVF International Conference on Computer Vision, 2019

相关推荐
好游科技5 小时前
语聊APP新生态!一站式语聊房语音直播APP源码开发搭建
音视频·webrtc·im即时通讯·社交软件·社交语音视频软件
summerkissyou19877 小时前
Android-Audio-为啥不移到packages/module
android·音视频
骄傲的心别枯萎8 小时前
RV1126 NO.56:ROCKX+RV1126人脸识别推流项目之VI模块和VENC模块讲解
人工智能·opencv·计算机视觉·音视频·rv1126
骄傲的心别枯萎8 小时前
RV1126 NO.55:ROCKX+RV1126人脸识别推流项目讲解
opencv·计算机视觉·音视频·rv1126
ACP广源盛139246256738 小时前
GSV1015@ACP#1015/2015产品规格详解及产品应用分享
单片机·嵌入式硬件·音视频
昨日之日20069 小时前
Fun-ASR - 多语言多方言的高精度语音识别软件 支持50系显卡 一键整合包下载
人工智能·音视频·语音识别
猫天意11 小时前
【即插即用模块】AAAI2025 | 高频 + 空间感知!新 HS-FPN 让“极小目标”不再消失!SCI保二区争一区!彻底疯狂!!!
网络·人工智能·深度学习·学习·音视频
小曾同学.com13 小时前
音视频中的“透传”与“DTS音频”
ffmpeg·音视频·透传·dts
Yutengii14 小时前
如何下载抖音视频到本地(全攻略)
音视频
八八在线工具14 小时前
高效安全的M3U8 TS分片合并利器:88在线工具TS Merge深度解析
安全·音视频