【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。给定数据集中的任何视频及其对应的自动语音识别(ASR)