【大语言模型】ACL2024论文-17 VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建

VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建

本文介绍了一个新的任务和人类标注的数据集Video-CSR（Captioning, Summarization and Retrieval，即标题生成、摘要和检索），旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑，每个视频剪辑时长在20-60秒之间，覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕（1句话）和摘要（3-10句话）。给定数据集中的任何视频及其对应的自动语音识别（ASR）信息，评估视觉-语言模型在视频的视觉和听觉内容基础上的标题或摘要生成能力。此外，模型还根据标题和摘要进行检索任务的评估，其中基于摘要的检索任务需要在给定摘要的摘录下识别目标视频。鉴于段落长度视频摘要任务的新颖性，我们对不同的现有评估指标及其与人类偏好的一致性进行了广泛的比较分析。最后，我们提出了一个基础模型，具有竞争性的生成和检索能力，作为Video-CSR任务的基线。我们希望Video-CSR能成为大型语言模型时代和复杂多模态任务中的一个有用的评估集。

研究背景

随着YouTube和TikTok等视频内容平台上数十亿活跃用户的需求不断增长，自动化复杂视频理解变得前所未有地重要。传统的视频理解主要集中在对短视频进行标题和/或检索任务上，这些视频和标签都是简短的句子。这种简洁性部分是由于模型限制，即详细的、多句子的视频描述在轻量级文本解码器下无法实现。然而，随着大型语言模型（LLMs）的飞速发展，视觉-语言模型（VLMs）现在有机会利用LLaMA和ChatGPT等模型的庞大自然语言能力。这些LLMs拥有数十亿到数百亿的参数，能够以前所未有的程度模仿人类的细节和优雅的写作。随着视频对话模型如Video-LLaMA、Video-ChatGPT和VideoChat声称能够生成详细和细粒度的视频输入描述，我们认为现在是时候为现代由LLMs驱动的VLMs的能力匹配一个评估基准了。

问题与挑战

当前工作集中在包含多个信息流（如对话、背景音乐和复杂视觉序列）的多镜头组成视频上。研究者们开发了Video-CSR，这是一个新颖的任务和数据集，用于长形式的视频标题生成、摘要和检索。这个新的多模态数据集包含了4.8K个视频剪辑，这些视频剪辑精心选自先前发布的基于YouTube的视频数据集，并整合了视觉和听觉信息。在几个月的时间里，一个由24名人类标注者（大学生和研究生）组成的团队为每个视频剪辑创建了5个简短的标题（每个1句话）和5个长摘要（3-10句话），形成了一个丰富和全面的人类标注数据集，作为后续模型训练和评估的强大真实基础。

如何解决

为了解决长形式视频摘要任务的评估问题，研究者们进行了广泛的比较分析，比较了基于N-gram的指标和基于模型的指标（例如BLEURT和BERTScore）与人类偏好的一致性。研究发现，基于模型的指标更适合长形式的摘要任务。最后，研究者们评估了不同类型的VLM架构在测试集上的表现，旨在提供当前可行和有效的全面概况。

创新点

提出了一个新的数据集，包含人类标注的视频标题（1句话）和摘要（3-10句话），以衡量VLMs执行长形式视频内容摘要的能力。据研究者们所知，Video-CSR是第一个全面的人类标注评估数据集，用于长形式视频摘要。
比较了长形式视频摘要任务的不同评估指标，并发现基于模型的指标更符合人类偏好。
开发了一个基础模型（SimCSR），它整合了视觉、听觉和文本模态，用于生成和检索任务。