用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件

1 引言

最近,大型语言模型(LLMs)在同时处理广泛的NLP任务的同时展示了令人印象深刻的推理和规划能力。因此,将它们与视觉模态集成,特别是用于视频理解任务,催生了视频大型多模态模型(Video-LMMs)。这些模型充当视觉聊天机器人,接受文本和视频作为输入,并处理各种任务,包括视频理解、详细的视频理解和行为定位。"视频理解" 通常指的是对视频内容的基本识别和理解，比如识别视频中的人物、场景和活动。这涵盖了对视频的一般性内容的理解。而"对视频内容的深入理解" 则是更深层次的，不仅仅是识别元素，还包括理解视频中的情节、意图、情感和复杂关系，甚至是视频传达的隐含信息和文化背景。这需要更高级的分析和解释。由于这些模型直接捕获视频数据,因此它们在机器人、监控、医疗手术和自动驾驶等实际应用中具有巨大的部署潜力。

然而,随着这些模型在日常生活中扮演越来越重要的角色,评估它们在理解复杂视频以及在各种现实世界情境下展示可靠的推理和鲁棒性能力方面的表现变得至关重要。具有这些能力的Video-LMMs在集成到日常生活中用于解决感知任务时将更加有效,并将是朝着构建以人为中心的AI辅助系统迈出的有希望的一步。

已有一些文献尝试对Video-LMMs进行基准测试。SEED-Bench为视频策划了一个包含3个评估维度的多项选择基准数据集。同样,MV-Bench构建了Video-LMM基准,并汇编了20个具有挑战性的视频任务,用于评估这些模型的空间和时间理解能力。虽然这些方法旨在对Video-LMMs进行基准测试,但它们主要评估视频和/或时间理解能力,而忽略了Video-LMMs在现实世界背景下的复杂推理方面,以及通过用户输入文本查询视角的这些模型的鲁棒性;这两者对于确保它们在各种现实世界情况中与人类负责任地互动至关重要。虽然一些研究探讨了类似领域,如基于图像的LLMs中的幻觉,但对于Video-LMMs的情况尚无此类全面研究。

鉴于Video-LMMs的广泛应用和缺乏以世界为中心的复杂视频基准测试工作,该研究提出了一个新的基准,即复杂视频推理和鲁棒性评估套件(CVRR-ES),以全面评估Video-LMMs的性能。如表1所示,CVRR-ES在视频的鲁棒性和推理关键方面评估Video-LMMs,涵盖了更准确地在现实场景(如具有上下文依赖性和野外方面的视频)中测试模型的视频领域。CVRR-ES是一个开放式视频问答基准,包括11个现实世界视频类别维度(图1左),涵盖了不同的评估方面。这些维度从上下文相关(例如,社交、情感等)类别到经常在野外发生的类别,如包含物理异常活动的视频。该研究使用LLM辅助自动评估框架,全面评估了9个最新Video-LMMs(图1右),包括开源和封闭源代码模型。

Video-LMMs在CVRR-ES基准上的表现表明,这些模型难以正确理解复杂的视频,表明它们推理能力较弱,缺乏对文本用户查询的鲁棒性(图2)。例如,最先进的Video-LLaVA在CVRR-ES的11个视频维度上的平均性能仅为15.92%。相比之下,封闭源代码模型,包括GPT4V(vision)和Gemini-Vision-Pro表现出相对较强的性能,但仍落后于人类的表现。使用CVRR-ES基准,该研究广泛进行了定量和定性分析,根据这些Video-LMMs的失败案例和在不同视频维度上的个人表现,阐述了对它们的重要见解。

论文出处: https://arxiv.org/pdf/2405.03690

根据分析,该研究观察到标准的Video-LMMs提示在引导它们关注复杂视频理解方面存在困难。此外,它们在推理和鲁棒视频理解现实世界场景方面的局限性主要由文本输入(即用户问题)的质量驱动。基于这些见解,该研究开发了一种无需训练的双步上下文提示(DSCP)技术,它有效地引导模型在推理过程中的行为,以在Video-LMMs中引出特定于视频的推理和改进的鲁棒性。使用DSCP,Video-LMMs在该研究的基准上显示出显著的改进,表明了Video-LMMs的提示技术的潜力。主要贡献总结如下:

该研究提出了复杂视频鲁棒性和推理评估套件(CVRR-ES),这是一个视频问答基准,旨在评估Video-LMMs在11个不同的以世界为中心的复杂视频维度上的推理和鲁棒性能力。
该研究在CVRR-ES基准上全面评估了开源和封闭源代码的Video-LMMs,发现大多数模型表现较弱,突出了它们在复杂视频中的有限推理能力以及对用户文本查询缺乏鲁棒性。
该研究基于Video-LMMs在CVRR-ES基准上的失败案例和表现进行了广泛分析,并得出了关于Video-LMMs的重要结论。这些发现为构建下一代具有改进的鲁棒性和推理能力的以人为中心的AI系统提供了宝贵的见解。
为了提高Video-LMMs的推理和鲁棒性能力,该研究制定了一种与模型无关且无需训练的提示技术,可有效提高其性能。

2 相关工作

视频大型多模态模型(Video-LMMs)。Video-LMMs是先进的视觉聊天机器人,能够执行广泛的视频理解任务,包括视频理解和字幕、视频问答以及行为定位。这些模型接受视频和文本输入,并生成文本响应。

从架构的角度来看,Video-LMMs通常使用连接器模块(如MLP适配器、Q-former和门控注意力)将预训练的视觉主干与大型语言模型结合在一起。VideoChat和VideoChat-GPT在这个方向上提出了初步的开源工作,并通过两个阶段的对齐和视频指令跟随目标进行训练。最近,在该领域出现了更先进的Video-LMMs,一些模型侧重于改进模型架构,扩展到新任务,并支持长视频。在这项工作中,该研究旨在开发一个全面的基准评估框架,以评估Video-LMMs的推理和鲁棒性能力,并开发一种无需训练的提示技术来提高它们在这些方面的性能。

基准测试Video-LMMs。随着研究界出现越来越多的Video-LMMs,一些工作提出了评估框架,以评估和量化这些模型用于基准测试和分析目的。SEED-Bench在12个独特维度上评估图像和Video-LMMs的视觉能力。MV-Bench策划了20个具有挑战性的视频任务,以评估Video-LMMs的空间和时间理解能力。Video-ChatGPT开发了一个定量评估框架,在一般视频理解的五个方面(如模型字幕的正确性和一致性)评估模型理解。虽然这些评估框架提供了有效的见解,但它们的评估并没有超出一般视频理解指标,扩展到更高级的推理和鲁棒性方面,特别是对于现实世界背景的情况。相比之下,该研究的工作侧重于提供一个跨11个不同的以现实世界为中心的评估类型的复杂视频推理和鲁棒性基准,并提供了在实际应用中对Video-LMMs更全面的评估。

无需训练的提示技术。在NLP领域,使用提示在推理时间引导模型行为已成为一种常见范式。提示是指作为前缀给语言模型的一组指令,以更好地将模型响应与人类意图对齐,而无需进行特定任务的微调。提示技术可以像零样本思维链提示那样简单,只是一个句子(例如"让我们逐步思考"),也可以是更详细的技术,例如将思维链提示与少样本学习和自洽性思维链提示相结合。令人惊讶的是,针对视频大型多模态模型(Video-LMMs)的无需训练的提示技术尚未得到充分探索。在这项工作中,该研究基于原则性提示指令开发了一种双步提示技术,专门设计用于引导模型在复杂视频上提高推理和鲁棒性的行为。

3 复杂视频推理和鲁棒性评估套件

随着Video-LMMs触及新的现实世界应用,确保对用户输入的鲁棒性能、理解视觉世界以及展示类似人类的推理能力至关重要。在这项工作中,该研究的目标是建立一个全面的基准,专门评估Video-LMMs在各种复杂和上下文相关的视频中涵盖不同场景下的鲁棒性和推理能力。为此,该研究提出了复杂视频推理和鲁棒性评估套件(CVRR-ES)。下面首先提供CVRR-ES基准的整体概述,并在第3.1节中详细介绍视频评估维度。随后,在第3.2节中介绍CVRR-ES的创建过程。关于数据集质量和人工评估的详细信息在附录B中提供。

CVRR-ES基准概述。CVRR-ES包含的评估维度涵盖了与现实世界场景相关的不同视频类别,范围从上下文相关(如社交、情感)类别到经常在野外发生的视频类型(如异常活动)。具体而言,该研究编制了11个视频评估维度,并策划了2400个高质量的开放式问答(QA)对,跨越217个高质量视频。平均视频持续时间为22.3秒,最大和最小持续时间分别为183秒和2秒。在图3(左)中,该研究量化了基准中不同问题类型的分布。这个多样化的问题集旨在全面捕捉模型基于推理和鲁棒性标准的回答能力。该研究在图3(右)中显示了基于CVRR-ES答案集中关键词频率的词云图。频繁出现的词对应于Video-LMMs在实际场景中部署时最有可能交互的对象和属性。

3.1 CVRR-ES视频类别定义。

为了评估Video-LMMs在CVRR-ES基准中的鲁棒性和推理能力,该研究精心策划了11个不同的基准评估类别。如图1(左)所示,这些类别涵盖了每个类别中广泛的现实世界复杂和上下文相关的视频。

下面,该研究详细定义了CVRR-ES基准的每个视频评估维度。

单个视频中的多个动作。该类别包括在单个视频中包含多个活动的视频。这些视频中的活动数量从2到4不等,主要以人类执行多个活动为特征。该研究在这一类别中策划QA对,旨在识别模型是否能够对涉及多个动作的具有挑战性的问题进行推理,并理解视频中不同动作之间的相互关系。
细粒度动作理解。该研究收集了具有细粒度动作的视频样本。这些动作包括人类执行的各种细粒度活动,包括推、开、关、展开、坐等。该类别通过精心设计的问题对模型对细微和细粒度动作的理解提出挑战。
部分动作。基于该研究观察到Video-LMMs主要生成可能与视频中描述的场景相关并且可能共同出现的内容,该研究编译了具有高概率被后续动作跟随但在视频中未执行的动作的视频。例如,在厨房环境中砸鸡蛋的动作通常预示着随后的煎炒鸡蛋的动作。
时间顺序理解。准确识别视频中活动的时间顺序对于区分原子动作(如推和拉)至关重要。该研究收集了在特定时间方向上发生的细粒度动作的视频,并策划了具有挑战性的问题。
带有现有场景描述的不存在动作。该类别检查模型在我们在不改变视频中物理和空间场景或环境细节的情况下引入不存在的活动的情况下的鲁棒性和推理行为。
带有非现有场景描述的不存在动作。在这个评估类别中,该研究通过创建包括不存在的活动和不存在的场景理解的问题,使QA任务更具挑战性。不存在的场景理解涉及改变对象、对象的属性和背景场景描述。这评估了模型纠正误导性问题和避免生成虚构内容的可靠性。
连续性和对象实例计数。该类别包含视频(真实的和模拟的),旨在测试模型准确识别对象、人等实例数量的能力,并区分现有对象和在同一视频场景中引入的新对象。
不寻常和物理异常活动。该类别包括具有非常规活动和看似违反物理定律的物理现象的视频。该研究从互联网上的各种来源精心收集相关视频,重点捕捉不寻常的活动,如一个人在空中漂浮或在流动的河上驾驶摩托车。该研究认为,在这样的场景中评估Video-LMMs是至关重要的,因为它允许确定它们是否可以推广到理解在实际情况下可能发生的分布外视频中的动作。
社会背景的解释。在现实世界中,人类的行为常常受到周围社会环境的影响。例如,一个人可能正在帮助一个老人过马路。该类别在这种情况下评估Video-LMMs,以确定它们根据描述的社会背景准确推断行为背后原因的能力。该研究从互联网上收集各种视频,并创建涵盖社会背景维度的具有挑战性的问题。
情感背景的理解。与社会背景类似,人类可以通过考虑情感背景来准确理解和解释彼此的行为。例如,一个人在聚会中情绪激动和哭泣可能是一个快乐的时刻,如果它源于成功/喜悦。该研究收集视频,并策划具有挑战性的推理问题,旨在仅根据情感背景识别行为的性质,以评估Video-LMMs。
视觉背景的解释。该维度侧重于评估模型利用视频中整体视觉上下文线索识别动作的推理能力。该研究策划了包含动作的特定视频,其中活动识别和推理需要视觉上下文线索。例如,要根据阴影的存在确定在场人数,必须利用阴影中的视觉背景来推理问题。
定性示例。图2显示了为CVRR-ES基准收集的视频示例。策划的视频经过精心挑选,以确保多样性并包含丰富的时空内容,符合提出的视频评估维度。

3.2 构建CVRR-ES基准

在定义视频评估维度之后,该研究现在继续构建CVRR-ES基准,其中包括三个阶段。下面详细介绍每个阶段。

阶段1:数据收集和标注。该研究首先收集高质量的视频,并使用人工协助对每个视频进行标注。为确保每个评估维度捕获相关属性和信息,该研究精心挑选能代表与该维度相关的特定特征的视频。在11个维度中,为基准选择了214个独特的视频,每个评估类别约有20个视频。其中约60%的视频来自公共学术数据集。为了在基准分布中引入多样性,该研究纳入了来自多个学术数据集的视频样本,包括Something-Something-v2、CATER、Charades、ActivityNet、HMDB51、YFCC100M。其余40%的视频来自互联网。

在视频收集过程之后,指派两名有经验的人工标注人员为每个视频生成标题。对于来自学术数据集的初始标题或元数据可用的视频,标题由标注人员根据它们生成。对于从互联网收集的视频,标题完全由人工标注人员生成。为确保一致性和高质量,该研究向标注人员提供标注指南,他们据此生成标题。每个视频类别都使用个性化的标注指南。更多详细信息请参考附录B。

阶段2:问答生成。第一个挑战是选择一个评估设置来评估Video-LMMs。人类通常在日常生活中进行自由形式的对话来相互交流。受此启发,该研究旨在通过策划开放式QA对来模拟与Video-LMMs的类似交互方式,以评估这些模型的鲁棒性和推理能力。该研究将详细的真实视频标题馈送到GPT-3.5 LLM,用于生成涵盖推理和鲁棒性方面的开放式问题。

推理QA对:随着Video-LMMs开始更直接地与我们生活中的人类互动,验证Video-LMMs的推理能力对于更可靠的人机交互至关重要。在评估Video-LMMs的推理能力时,该研究旨在确定这些模型是否不仅可以通过分析空间内容来理解输入视频,还可以通过掌握正在发生的活动背后的基本原理及其与周围环境的关系来理解输入视频。这涉及创建超出简单视频理解和场景描述的问题,并要求模型进行复杂的逻辑推理、上下文理解以及关于反事实和假设情况的推理。
鲁棒性QA对:除了评估LLMs的推理能力外,评估Video-LMMs以确保其在现实场景中的鲁棒和负责任的表现也很重要。在Video-LMMs的背景下,可以从视觉(视频输入)和文本界面两个方面评估鲁棒性。该研究的重点在于文本界面鲁棒性,特别是通过测试模型在面对误导或混淆问题时的理解能力。这种情况反映了现实情况,即用户根据其专业水平可能提出无关、误导或令人困惑的问题。对于模型来说,在处理此类查询时展示可靠性和鲁棒性,避免为输入视频生成不真实或幻觉内容至关重要。

该研究为每个评估维度策划特定的提示,以指导LLM生成QA对。图14中提供了用作LLM指令的示例提示,用于策划鲁棒性和推理方面的QA对。

阶段3:QA对过滤 。在生成QA对之后,采用人工辅助的手动过滤步骤来验证每个生成的QA对。发现GPT-3.5生成的QA对中约30%是嘈杂的,包含与视频评估维度无关或根据提供的基本事实说明无法回答的问题。此外,许多问题本身包含答案。因此,进行了详尽的过滤过程,涉及QA纠正并删除与视频或评估类型无关的样本。该过程产生了CVRR-ES基准的最终2400个高质量QA对集合。表4中显示了QA对的示例。

阶段4:评估程序。文献中的先前方法探索了使用LLM模型作为评委来量化开放式QA基准中的结果。该研究采用类似的方法,指示LLMs充当教师,以评估Video-LMMs的预测响应与基本事实答案相比的正确性。该研究通过提供视频-问题对作为输入从Video-LMMs生成开放式预测,然后将模型预测及其相应的基本事实响应与评估提示一起呈现给LLM评委。评委通过二元判断确定预测是正确还是不正确,分配从1到5的分数表示预测的质量,并提供推理来解释其决定。该研究在附录D中的消融分析表明,基于推理约束的LLM评估与基于人工判断的评估结果一致。评估提示如图13所示。

4 用于Video-LMMs的双步上下文提示

考虑到它们在实际下游应用中的广泛潜力,研究界经常引入新的Video-LMMs。尽管有大量的Video-LMMs可用,但大多数模型仅使用正例和主要局限于视频字幕和视频问答等任务的视频对话模板进行训练。这导致这些模型具有高度过度肯定的行为和缺乏自我纠正能力(第5.4节)。

Video-LMMs的双步上下文提示
检索上下文推理信息(步骤1)

作为一个智能视频理解模型,请关注以下指南:

区分重复出现的对象,准确计数,并识别运动和姿势。
理解方向运动和时间顺序。
精确关注细粒度动作。
评估不完整的动作,不要假设完成。
检测情感、社交和视觉线索。
捕捉和分析所有相关动作。
准确识别不寻常的动作。
不同意问题中给出的错误信息。
如果在帧中找不到证据,可以假设所问的动作/属性不存在,给出明确的答案。
提供切中要点且简洁的回答。

现在,在牢记上述指南的同时,忠实地回答以下问题:

问题:视频中发生了什么?
上下文条件问答(步骤2)

给定视频的上下文是:{步骤1响应}。现在根据视频和提供的上下文如实回答一个问题。

问题:{用户问题}

图4:DSCP方法中用于改进Video-LMMs中推理和鲁棒性的原则性提示指令。

此外,模板很少关注通过基于推理的指令调优对来增强推理和鲁棒性能力,导致此类模型在CVRR-ES基准的鲁棒性和推理QA评估中表现不佳。此外,策划基于推理的指令微调数据集需要精细的数据策划步骤,并且重新训练这些模型在计算上是昂贵的。

另一方面,NLP文献中的无需训练的提示技术已经表明,在引出LLMs的推理能力方面是有效的,例如思维链和自洽性提示。受这些方法的启发,该研究引入了一种称为双步上下文提示(DSCP)的提示技术,旨在引导Video-LMM关注enhanced reasoning,同时鼓励模型提供稳健和有依据的答案。DSCP是一个两步提示方法,1)确保模型在推理复杂视频理解的关键方面(如上下文信息和解码对象和运动之间的复杂关系等)时理解视频,2)通过在第一步中同时以视频和检索到的上下文为条件生成对问题的响应来鼓励鲁棒性。下面详细讨论DSCP的每一步。

步骤1 :对视频进行推理。该研究首先使用原则性提示引导Video-LMMs从推理的角度解释视频内容。如图4(蓝色)所示,该研究制定了十条原则性的基于推理的提示指令,Preason,它不仅引导Video-LMMs理解一般的视频内容,还引导它们推理正在发生的活动背后的基本原理及其与周围环境的关系。这些提示指令包括特定的考虑因素,如上下文先验、动作的时间顺序、实例计数和属性。此外,提示技术结合了确保简洁性和事实性的指令,旨在减少幻觉。给定一个视频语言多模态模型 F 和输入视频 V，我们通过提供原理化推理提示 Preason 和视频到 LMM 来检索上下文推理信息 I context I_{\text{context}} Icontext，即 I context = F ( Preason ∣ V ) I_{\text{context}} = F(\text{Preason} \mid V) Icontext=F(Preason∣V)。这些上下文信息在 DSCP 的第二步中被用来生成一个更加具体的回答用户问题的回应。

步骤2 :上下文条件问答。如前所述,Video-LMMs主要使用正例训练来回答问题,很少强调推理和鲁棒性方面。因此,在现实场景中使Video-LMMs与用户直接交互可能会由于其极端过度肯定的行为而导致不良响应,尤其是当用户提出令人困惑和误导的问题时。为了应对这些挑战,该研究提出在Video-LMMs回答用户的问题之前纳入一个额外的推理步骤。该研究注意到,Video-LMMs通常拥有关于视频内容的事实知识,但在提示混淆或误导性问题时可能会分心并产生幻觉(更多详情见附录C)。具体而言,该研究设计了一种提示方法,使模型首先详细理解视频而不关注用户问题,从而消除问题的影响。复杂的视频理解信息是指步骤1中制定的 I c o n t e x t I_{context} Icontext。

随后,该研究在第二步中使用提示 P u s e r P_{user} Puser提出用户问题,该提示结合了用户问题和上下文推理信息(图4,绿色),同时以视频和上下文推理信息 I c o n t e x t I_{context} Icontext为条件。具体而言,Final response = F( P u s e r P_{user} Puser|V),其中 P u s e r = [ q u e s t i o n ; I c o n t e x t ] P_{user} = [question; I_{context}] Puser=[question;Icontext]。

直觉上,在第一步中生成的事实内容将引导模型在第二步中做出鲁棒的响应,即使在存在嘈杂/误导性用户问题的情况下也能产生事实和正确的响应。该研究在图5中说明了DSCP方法的定性结果。这种方法产生的响应与实际视频内容更好地契合,并且对潜在的质量较低的用户查询具有鲁棒性。正如稍后将展示的那样,DSCP技术有效地提高了Video-LMMs在CVRR-ES基准上的性能。

5 在CVRR-ES上的评估实验。

Video-LMMs。开源和封闭源代码模型都被选择用于评估。在开源模型中,该研究评估了7个最新的Video-LMMs,包括Video-LLaVA、MovieChat、VideoChat、Video-ChatGPT和Video-LLaMA-2。对于评估封闭源代码模型,该研究使用Gemini-Pro-Vision和GPT-4V(vision)。有关实现细节,请参考附录A。

5.1 CVRR-ES上的主要实验。

在表2中,该研究展示了Video-LMMs在CVRR-ES基准的11个维度类别上的评估结果。以下是几个主要发现。

开源Video-LMMs在CVRR-ES基准上表现不佳。所有开源LMMs在CVRR-ES的不同评估维度上表现较差。有趣的是,一些较早开发的开源Video-LMMs,如Video-LLaMA、VideoChat和Video-ChatGPT,表现出比Video-LLaVA、MovieChat和LLaMA-VID等最新模型更高的性能。总的来说,在开源LMMs中,TimeChat在11个评估维度上的平均性能最高,达到32.89%,其次是VideoChat,得分为25.78%。

人类在CVRR-ES基准上排名最高。人类研究在CVRR-ES基准上实现了最高性能,在所有评估维度上的准确率都超过95%。此外,这些结果表明,CVRR-ES QA对是可回答的,适合用于基准测试。

封闭源代码模型在CVRR-ES上表现具有竞争力。如表2所示,Gemini和GPT4V都超过了开源模型的性能,并在所有评估维度上取得了很高的收益。GPT4V和Gemini在部分动作、不存在动作/场景描述和上下文相关类别等复杂视频评估维度上的竞争结果表明,这些模型对视频的复杂视觉内容有更复杂的理解,并且具有纠正误导性和混淆用户问题的强大能力。总的来说,GTP4V比Gemini提高了17.58%,在CVRR-ES上提供了70.78%的平均准确率。

5.2 DSCP方法提高Video-LMMs性能的有效性

图6:使用DSCP技术的Video-LMMs有效地提高了它们在CVRR-ES基准上的性能(绿色显示增益)。

接下来,该研究将DSCP技术与Video-LMMs集成,并在图6中展示了CVRR-ES基准上的结果。结果表明,与使用标准提示(即仅使用问题本身)的模型相比,DSCP提高了模型的性能。这些结果表明,Video-LMMs中的提示技术可以更好地引导模型以提高推理和鲁棒性。

使用DSCP,最初性能较低的Video-LMMs,如Video-LLaVa、MovieChat和LLaMA-Vid,显示出更好的相对增益,并与其他模型竞争。LLaMA-ViD实现了184%的最高相对增益,在利用DSCP提示后,从排行榜上的第7位跃升至开源模型中的第2位。该研究观察到,使用DSCP与封闭源模型Gemini的总体正向趋势类似,后者在基准上的绝对整体增益为5.02%。在附录A中提供了更详细的结果比较。

5.3 不同的提示技术

该研究研究了DSCP每一步的贡献,并将其与思维链提示进行了比较。表3显示了前5个性能最佳的Video-LMMs的结果。在5个Video-LMMs中,思维链提示在3个上优于标准提示技术,这表明NLP文献中的提示技术可以有效地引导多模态Video-LMMs以增强推理和鲁棒性。接下来,该研究对DSCP提示的第一步进行消融,该步骤使用DSCP步骤1的原则性指令作为实际用户问题的前缀。

使用DSCP的第一步提示技术可以显著提高所有Video-LMMs的模型性能,这表明专门为视频模型设计的原则性提示指令的有效性。DSCP的两个步骤都整合了提示步骤中的额外思考步骤,进一步改进了结果,并在5个Video-LMMs中的4个上提供了最高结果。

5.4 主要发现和定性结果

基于Video-LMMs在CVRR-ES上的结果,该研究得出了关键发现并展示了定性结果。这些见解可以作为开发下一代Video-LMMs的宝贵指导,旨在使它们在部署到真实世界应用程序时更加鲁棒和可靠。

在标准VQA基准上表现出色的模型在CVRR-ES基准上表现不佳。该研究在第5.1节中的分析表明,最新的开源Video-LMMs,如Video-LLaVA、MovieChat和LLaMA-VID,在CVRR-ES基准上的表现不如社区中较早引入的Video-LMMs,如VideoChat和Video-ChatGPT。有趣的是,相同的最新模型在一般视频理解基准上展示出优越的性能。这种差异表明,当前的VQA基准,如ActivityNet-QA和MSRVTT,与该研究基准中强调的复杂视频推理和鲁棒性场景没有充分关联。因此,这也表明大多数较新的Video-LMMs经过大量训练以在一般视频理解基准上表现出色,同时降低了它们的泛化能力、推理能力和鲁棒性。

开源Video-LMMs的过度肯定行为。关于开源模型的另一个重要观察结果是,它们倾向于表现出过度积极和肯定的响应。如图7所示,即使面对描述不存在的动作和对象的混淆问题,开源Video-LMMs也始终回答"是"。这凸显了这些模型在现实场景中与用户交互时的脆弱性。在该研究的CVRR-ES基准中,与封闭源模型相比,开源模型特别容易受到"具有现有场景的不存在动作"和"具有非现有场景的不存在动作"评估维度的影响。这些模型缺乏否定和自我纠正能力,特别是当用户提供误导或混淆的问题时。该研究推测,这种行为是由于Video-LMMs训练期间缺乏负面指令调优对所导致的。

活动完成的倾向。大多数开源Video-LMMs在CVRR-ES中部分动作评估维度上表现较弱,该维度包含专注于不完整或原子动作的视频。为了进一步分析模型的行为,该研究在图8中展示了这些视频的定性结果。可以观察到,即使视频中只提供了部分动作,大多数开源模型也倾向于完成动作。例如,Video-LLaVA在推理视频方面存在困难,将男子描述为踢足球,而视频中的动作在男子将脚放在球旁边的那一点就停止了。该研究在其他Video-LMMs中观察到类似的行为。在检查微调策略时,该研究发现几乎所有模型都在基于端到端动作的指令调优数据上进行训练,导致它们在推理时生成完整的动作描述。这种倾向突出了Video-LMMs部署后的脆弱性,因为现实世界场景通常涉及原子、次原子和一般动作。为了提高Video-LMMs的性能,在训练期间纳入不同类型的动作至关重要,包括部分和不完整的动作。

对极端OOD视频的弱泛化。不寻常和物理异常活动的评估维度类似于极端的分布外视频示例。除了GPT4V和Gemini之外,Video-LMMs在这一维度上表现不佳,表明对包含在典型视频中极其罕见的异常对象和活动共存的OOD视频的泛化能力较弱。例如,图9中的Video-LLaVA将一个人描述为摔倒在街上,而视频实际上显示该人正在表演一个视觉错觉。为了在现实世界应用中负责任地部署,其中OOD操作更频繁地发生,需要训练Video-LMMs以在OOD样本上表现更加鲁棒。这可能涉及在训练数据中纳入多样化和非典型的示例,以提高模型处理异常情况的能力。

复杂视频中时间顺序理解有限。CVRR-ES基准结果表明,与时间顺序理解维度相比,Video-LMMs在细粒度动作维度上表现相对更好。虽然这些模型可以准确识别细粒度动作,但它们难以理解视频中这些动作的正确时间顺序。这种限制可能导致对基本信息的误解。该研究在图10中展示了与此维度相关的失败案例。为了构建更先进的以世界为中心的Video-LMMs,增强它们准确处理和解释事件序列的能力至关重要。

Video-LMMs在理解情感和社会背景方面存在困难。为了在实际场景中实现Video-LMMs和人类之间更可靠的交互,这些模型应该具备与人类相似的社交和上下文推理能力来理解时空场景。Video-LMMs在CVRR-ES的社交和情感语境维度上的较低性能突显了它们的局限性以及基于语境线索对场景理解的缺乏。例如,如图11(底部)所示,GPT-4V难以理解一名工人试图通过将鞋子移到阴凉处来防止鞋子因下雨而被淋湿的场景。相反,GPT-4V提供了与视频中的社交线索相矛盾的响应。

6 结论

鉴于视频语言多模态模型（Video-LMMs）在实际以世界为中心的应用中的作用日益扩大，确保这些模型能够稳健地运行，并在各种复杂和真实世界的情境中展示类似人类的推理和交互能力至关重要。在这项工作中，我们提出了针对视频语言多模态模型的 CVRR-ES 基准测试，旨在评估视频语言多模态模型在这些方面的表现。通过广泛的评估，我们发现视频语言多模态模型，特别是开源模型，在涉及真实世界情境的复杂视频上的稳健性和推理能力有限。基于我们的分析，我们制定了一种无需训练的提示技术，有效提高了视频语言多模态模型在 CVRR-ES 基准测试的各种评估维度上的表现。此外，我们还分析和调查了视频语言多模态模型在 CVRR-ES 基准测试上的失败案例，并得出了几个重要发现。我们希望，伴随我们广泛的分析，CVRR-ES 基准测试将有助于构建下一代先进的以世界为中心的视频理解模型。

附录

在以下部分中,我们为论文提供额外的信息:用于 Video-LMM 的复杂视频推理和鲁棒性评估套件。内容按以下顺序组织:

实现细节(附录 A)
关于 CVRR-ES 基准测试的其他详细信息(附录 B)
关于 DSCP 技术的分析和额外结果(附录 C)
额外的消融实验(附录 D)

A 实现细节

对于开源模型,我们遵循其默认的最佳推理设置和超参数。为了评估 Gemini 和 GPT-4V,我们使用它们的官方 API。完整的视频直接传递给 Gemini Vision-Pro,因为它的 API(使用 Google Cloud vertexai 框架)本质上支持视频输入。然而,由于 GPT-4V 本质上不支持视频,我们对每个视频均匀采样 8 帧,并与用户问题一起传递到 GPT API。对于每个评估中的模型,我们独立生成问题的响应,而不保留聊天历史记录。对于 CVRR-ES 问答对上 Video-LMM 的评估结果,我们在所有实验中都使用 GPT-3.5 作为评判。

B 关于 CVRR-ES 基准测试的其他详细信息。

关于标注过程的更多细节。专家人工标注员被分配标注 CVRR-ES 基准测试的视频。为了确保一致性和高质量,我们向标注员提供标注指南,他们据此生成标题。例如,当为不存在的动作和场景描述类别标注视频时,标注员被指示包括所有动作和对象属性的信息。这确保每个标题提供足够的信息,以便在问答生成过程的下一阶段有效使用。为了验证视频标题的质量和正确性,我们对前一迭代中收集的每个视频标题进行两次单独的验证和修正(如适用)。

问答生成过程。我们使用 LLM 辅助的问答生成过程,利用 CVRR-ES 基准测试中的真实视频标题来生成问答对。该过程的示意图如图 14 所示。

问答对的质量。我们在表 4 中展示了 CVRR-ES 基准测试中的问答对样例。我们的问答对质量很高,旨在全面测试 Video-LMM 在多个评估维度上的推理和鲁棒性。为了定量评估基准测试的质量,我们建立了一个类似于 [Gandhi et al., 2024] 中的质量评估程序。我们随机抽取 1120 个问答对,涵盖 CVRR-ES 基准测试的所有视频,并要求人类专家通过回答以下问题来评估每个问答对的质量:(1)"问答对是否正确代表其所属的评估维度类别?"(可能的答案:"是","否")(2)仅给定视频内容是否可以正确回答问题?(可能的答案:"同意","不同意")(3)相应的配对真实答案是否正确?(在评估过程中将用作真实答案)(可能的答案:"是","否")。平均而言,专家对第一个问题的回答是 98.84% 的时候是"是"。对于第二个和第三个问题,平均回答分别是 100% 和 99.91% 的时候是"同意"和"是"。

人工评估。为了验证 CVRR-ES 基准测试中的问答对是否合理可回答,并建立人类表现的基准,我们进行了人工评估。两位人类专家(作者)被指示观看每个问题对应的视频,并提供自由形式的答案。使用 LLM 辅助评估来评估人类专家对所有问答对的预测。个人最终分数被平均以减轻单个人类评估者的潜在偏差。人工评估的结果在实验部分的主要论文中给出(第 5.1 节)。

C 关于 DSCP 方法的进一步分析和额外结果。

C.1 关于 DSCP 方法的讨论。

我们注意到 Video-LMM 通常能够正确理解视频内容并产生真实的响应。然而,它们对用户文本提示输入非常敏感,并表现出高度过度肯定的行为。当用户提出基于推理的、低质量的、令人困惑的或误导性的问题时,Video-LMM 的这些属性可能导致幻觉和错误的输出响应。

我们的双步上下文提示技术旨在通过使用两步提示技术明确区分上下文推理信息检索和用户问题回答来解决 Video-LMM 的这些局限性。该策略有效消除了问题的影响,从而得到更加有根据的整体回应。

在图 12 中,我们展示了 Video-LMM 对文本提示的敏感性以及 DSCP 提示技术中每个步骤的影响。可以观察到,使用简单的问题(如"描述视频内容"或"视频中发生了什么?")提示模型会得到正确的回应。然而,当用户提出基于推理的问题或棘手的问题时,由于过度肯定的反应,模型很难进行适当的推理并产生幻觉。最后,我们使用 DSCP 方法生成响应。第一步使用原则性提示指令独立检索上下文推理信息,然后根据之前检索到的事实信息和输入视频向用户提问。我们观察到,集成 DSCP 提示的两个步骤都为 Video-LMM 注入了改进的推理和自我纠正能力。

C.2 详细的比较结果。

在主要论文中,我们展示了使用双步上下文提示(DSCP)技术的 Video-LMM 之间的整体结果比较。在这里,我们在表 5 中展示了在 CVRR-ES 基准测试中使用 DSCP 技术时 Video-LMM 每个评估维度的性能。结果表明,使用 DSCP 技术的 Video-LMM 在 CVRR-ES 基准测试的各个评估维度上提供了显著的性能改进。

尽管 DSCP 提示对一些 Video-LMM(如 VideoChat、Video-ChatGPT 和 Gemini)的时间顺序理解评估维度的性能有所降低,但对大多数模型而言,整体相对性能改进是显著的。DSCP 技术提高了 Video-LMM 在大多数评估维度上的性能。特别是,DSCP 在物理上异常、上下文视频、细粒度动作和部分动作等评估维度上表现出最高的收益,展示了模型在没有任何额外训练的情况下改进的推理能力。对于涉及明确误导性用户问题的评估维度,如不存在的动作和不存在的场景描述,DSCP 大大提高了模型的性能。例如,VideoChat 在同一评估维度上从 14.38% 提高到 58.33%,相对增益超过 300%。这表明 DSCP 提示充当了一个额外的过滤层,引导模型朝着稳健和有根据的行为发展。

使用 DSCP 的 Video-LMM 的整体性能改进表明,提示技术可以有效地引导 Video-LMM 的行为,以增强对视频的推理和鲁棒性。尽管 DSCP 显示出有希望的结果,但 Video-LMM 的净性能仍然远非令人满意,这需要更先进的技术来进一步增强它们的能力,特别是对于开源模型。

D 消融研究。

我们的 CVRR-ES 评估基准采用了关键的设计选择。在本节中,我们提供几个消融研究来验证这些设计选择的有效性。

作为评判的 LLM 与人类评估者的一致性。

我们利用 GPT-3.5 等 LLM 作为评判来评估 Video-LMM 在 CVRR-ES 基准测试上的表现。在这项研究中,我们比较了 LLM 准确度分数与人工评估的吻合程度。我们指派两位人类专家评估员独立评估人类表现,通过手动评估和打分每个候选答案。我们观察到,LLM 的人工评估结果与人工判断的一致性百分比为 95.36%。这意味着对于 4.64% 的问答对,LLM 判断和人工判断不一致。GPT-3.5 与人类评估 95% 以上的一致率令人鼓舞,我们推测未来的 LLM 将与人类评估展现出更高的一致性。

**通过生成解释来提高 LLM 判断。**我们的默认评估提示(如图 13 所示)要求判断 LLM 生成正确/错误标志、答案质量分数(范围从 0 到 5)以及质量分数和正确/错误标志背后的理由。使用此指令提示,与人类评估者的一致性得分为 95.36%。此前,我们基于先前的工作 [Maaz et al., 2023, Liu et al., 2023b, Song et al., 2023] 使用 LLM Judge 指令提示,这些工作不要求模型提供决策理由。使用他们的提示,我们观察到 Judge 与人类评估者的一致性为 89.63%。这表明,要求 LLM Judge 决策附带相应理由会产生更可靠的评估结果。

我的看法

这篇论文提出了一个全面评估视频大型多模态模型(Video-LMMs)复杂视频推理和鲁棒性的基准测试套件CVRR-ES。我有以下几点见解:

CVRR-ES基准测试填补了现有Video-LMMs评估的空白。之前的基准测试主要关注一般视频理解能力,而忽略了在真实世界复杂视频场景下模型的推理和鲁棒性。CVRR-ES针对11个多样化的现实视频维度进行评估,更全面地考察了模型面向实际应用的能力。
通过在CVRR-ES上的广泛评测,揭示了Video-LMMs尤其是开源模型在复杂视频推理和鲁棒性方面的局限性。大多数模型表现出过度肯定倾向,缺乏否定和自我纠错能力,难以理解情感和社交语境等。这为后续Video-LLMs的改进指明了方向。
作者提出的双步骤上下文提示(DSCP)方法在无需额外训练的情况下,有效提升了Video-LMMs在CVRR-ES各评估维度上的表现。这展现了提示工程在提升Video-LMMs复杂推理和鲁棒性方面的潜力。未来可进一步探索更高级的提示技术。
尽管DSCP取得了良好效果,但Video-LMMs的整体表现与人类还有较大差距。这表明在构建真正鲁棒、具备类人交互和推理能力的Video-LMMs上,还有很长的路要走。CVRR-ES基准为后续研究树立了一个重要参照。
论文对Video-LMMs在CVRR-ES上的失败案例进行了深入分析,得出了一些重要结论,如模型倾向于补全动作、很难泛化到超出分布的异常视频等。这些发现可以指导Video-LMMs未来的数据收集和训练策略改进。
CVRR-ES的构建遵循了严谨的标注流程和质量控制,确保了评测的可靠性。人类评估与基于LLM的自动化评估的高度一致性,展现了用LLM辅助进行大规模Video-QA评测的可行性,这可以推广到更多基准测试中。

这项工作全面评估了Video-LMMs在现实场景中应用所需的复杂推理和鲁棒性,揭示了现有模型的不足,为后续的算法改进和基准测试构建提供了重要参考。CVRR-ES有望推动Video-LMMs向更贴近人类理解和交互能力的方向发展。