SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples automatically to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents.
大规模视觉语言模型(LVLMs)在文本对齐的视觉输入方面取得了显著进展。它们通过将文本模态与视觉输入对齐,在计算机视觉任务中取得了显著成果。此外,人们还努力将RGB以外的多视觉传感器纳入其中,包括热传感器、深度传感器和医学X光图像等。然而,本文观察到,当前的LVLMs在处理来自多视觉传感器的图像时,似乎将它们视为处于同一RGB域内,而没有考虑多视觉传感器的物理特性。它们无法正确传达数据集中的基本多视觉传感器信息以及相应的上下文知识。因此,实际物理环境信息与文本之间的对齐未能正确实现,难以回答考虑物理环境的复杂传感器相关问题。
本文旨在建立一个名为SPARK的多视觉传感器感知与推理基准,以减少图像与多视觉传感器之间的基本多视觉传感器信息差距。本文自动生成了6,248个视觉语言测试样本,以研究不同格式下物理传感器知识熟练度方面的多视觉感官感知和多视觉感官推理。这些样本涵盖了不同类型的传感器相关问题。本文利用这些样本评估了十个领先的LVLMs。
结果表明,大多数模型在多视觉感官推理方面存在不同程度的不足。
Introduction
。。。。
尽管LVLM模型取得了显著进展,但在充分利用多视觉传感器方面仍面临重大挑战。**LVLMs往往忽视单个视觉传感器物理特性的细微差别。****相反,它们倾向于基于从二维数据中的低级特征学习到的先前视觉或语言信息来做出判断。这导致模型只能识别图像输入中的表面模式,而忽略了潜在的逻辑结构或上下文理解。在识别图像输入中的特定对象时,模型可能会依赖从外观相似的图像中学习到的模式,而不是考虑用于捕获图像的多视觉传感器的实际物理属性。**这可能会阻碍在自动驾驶、安全系统和医学图像诊断等LVLM决策至关重要的领域中,对输入图像的准确识别和深入理解。
本文使用图 1 中的多视觉传感器图像作为输入来评估最新LVLMs的行为。本文设计了感官推理性能评估 ,以评估LVLMs对现实世界多视觉传感器基础知识的理解,结果显示,在不同多视觉传感器(如热红外、深度和X射线(XR)图像)上,这种性能显著下降。这凸显了LVLMs在准确解释多视觉传感器数据并根据传感器物理属性做出正确推断方面所面临的挑战。此外,从图 1 中给出的交互示例可以看出,尽管LVLM可以针对相对简单的问题准确识别用于捕获图像的视觉传感器,但在处理与传感器相关、更复杂的问题时,它难以理解图像的实际目的或上下文。这表明当前的LVLMs在理解物理视觉传感器的基本知识方面存在困难,超出了图像本身的外观。
例如,如图 1 所示,当人类看到X射线医学图像的照片时,他们会进行深入解读,利用他们的知识库和对人体物理结构的理解(超出X射线图像本身)来解读它。尽管人类从未亲眼见过自己的内脏和骨骼结构,但他们可以通过科学上下文知识和对物理世界的固有理解来理解这张图像。相比之下,当前的LVLMs试图仅基于它们训练过的二维数据来理解人体内部,这暴露了它们在全面理解现实世界物理环境方面的局限性。因此,在将LVLMs应用于关键且敏感的现实世界应用之前,建立全面的评估基准是必要的。
然而,大规模视觉语言模型(LVLMs)的评估远远滞后于它们的快速发展。一些计划正在努力通过引入各种多模态评估基准来弥补这一差距。值得注意的例子包括MME、MMBench、LVLM-eHub和SEED-Bench。这些基准旨在定义多模态能力的关键维度,并提供相应的测试样本。但是,它们覆盖的多模态任务范围相对较窄,主要集中在视觉识别和OCR等基本能力上。
为了应对上述挑战,本文设计了SPARK基准,以从两个方面评估多视觉输入LVLMs:多视觉感知和多视觉推理。
多视觉感知涉及所需的信息,衡量LVLM在满足视觉感知需求方面的有效性。
多视觉推理则衡量LVLM根据提供的传感器知识中的基本信息来做出响应的能力。
具体来说,本文自动生成了6248个视觉-语言测试样本,以研究多视觉感官感知和与物理传感器知识熟练度相关的推理,这些样本涵盖了6种类型的多视觉感官指令任务,分布在两种不同的问答格式中。本文使用这些样本评估了10个领先的大规模视觉语言模型。
实验结果表明,大多数LVLMs在感官推理方面存在不同程度的缺陷。
总结而言,本工作的贡献如下:
• 本文首次揭示了当前LVLMs的局限性,即由于缺乏对物理世界中传感器的基本理解,这些模型在不同多视觉传感器上的多视觉感官推理能力有限。
• 本文提出了一种新的基准SPARK,以严格测试和评估LVLMs在理解感官知识方面的能力,为评估其性能提供了一个全面的框架。
• 本文使用SPARK基准评估了总共10个最先进的LVLMs,该基准旨在严格评估LVLMs在处理与多视觉传感器相关的基础知识方面的能力。
Method
评估与指令设计
评估LVLM(大规模视觉语言模型)的多传感器感知和推理能力有多种格式可供选择,每种格式都有其独特的优势和局限性。开放式问题(Yarom等人,2024)虽然灵活且易于创建,但需要劳动密集型的人工评估,并在保持评分一致性方面存在挑战。基于相似性的评估则资源消耗较少,但可能会受到相似性指标中偏见的显著影响。是非题(Fu等人,2024)直接且易于评估,但可能过于简化评估过程,无法全面捕捉LVLM对多视觉推理能力的理解程度。
首先,为了对多视觉感知进行定量性能评估,指令设计旨在从模型中引出"是"或"否"的响应。这种二元响应格式简化了评估过程,允许进行清晰、客观的性能测量。因此,每条指令由两部分组成:一个简短、有针对性的问题和与"是"或"否"相对应的解释。这种结构确保了可以精确评估LVLM的理解能力。对于每张测试图像,都会手动设计两条指令,每条指令向模型提出不同的问题。这些问题旨在测试图像内容和上下文的不同方面。此方法的背后原理是确保模型的答案不是基于偶然性。当LVLM正确回答两个问题时,表明它理解了图像及其相关信息,而不仅仅是猜测。
此外,本文还引入了一种基于多选题的多视觉传感器理解评估设计。这种格式会提出一系列带有预定选项的问题,允许受访者选择正确的选项。多选题格式具有多个优势。首先,它能够实现响应的高效评分和分析,因为答案可以针对一组固定的可能响应进行客观评估。此外,多选题格式允许对问题难度进行精确控制。通过改变每个选项的有效性,可以创建测试不同理解和理解水平的问题。例如,增加更多看似合理但错误的选项可以增加难度,确保只有具有更深刻理解能力的模型才能持续选择正确答案。问题设计中的这种灵活性使多选题成为评估多视觉传感器系统细微差异能力的强大工具。此外,是非题可以被视为多选题的一个特例,其中选项仅限于"(A)是"和"(B)否"。这种简化保留了多选题格式的优点,同时提供了一种直接测量二元决策的方法。
多视觉传感器任务评价
本文的指令数据集是根据两个多视觉任务收集的:多视觉感知和多视觉推理。如图2所示,首先,多视觉感知侧重于LVLM从各种多视觉输入中准确解释和识别对象、场景和关系的能力。这包括如目标检测、图像分类、场景识别和关系检测等任务,其中模型必须处理和理解来自多个视觉传感器的图像内容。目标是确保模型能够跨不同视觉传感器的不同上下文一致地识别和分类视觉元素。另一方面,多视觉推理要求模型不仅感知,还要根据多视觉感官数据进行推断。这涉及高阶认知任务,如理解对象之间的关系、预测传感器使用的意图以及理解传感器知识。例如,模型可能需要推断图像序列中描绘的事件的原因,或预测捕获图像的目的。多视觉推理测试了LVLM将多视觉信息与上下文感官知识相结合,进行超越单纯感知的逻辑推断的能力。
多视觉感知
多视觉感知是大型视觉语言模型(LVLMs)分析由多种多视觉传感器(包括RGB、热成像、深度图和X光图像)捕获的图像的基础过程。这一过程涉及识别和解释每幅图像中的基本元素。
存在性:LVLMs能够识别和列出图像中存在的常见物体,如人、车辆、动物、家具等。
计数:LVLMs能够计算识别出的物体或实体的数量,从而对场景进行量化理解。
位置:LVLMs能够确定图像中物体的空间布局,注意它们之间的相对位置。
一般描述:LVLMs还具备对图像中描绘的整体场景进行细致描述的能力。它们能够阐述正在发生的事情,识别物体,并提供增强图像本身理解的事实性信息。
在感知阶段,LVLMs专注于从多视觉传感器捕获的原始图像数据中直接提取基本信息。这种基础性的感知对于所有后续推理任务至关重要,是构建更复杂解释的基础。
多视觉推理
多视觉推理是LVLMs真正展示其高级能力的地方。除了简单地感知图像外,LVLMs还能够进行逻辑推理,以获取更深入的见解并做出明智的决策。这将最近的LVLMs与传统计算机视觉模型区分开来,后者主要关注理解和与现实世界的交互。
上下文推理:LVLMs可以利用基础知识和上下文线索对给定场景进行判断。这种推理允许LVLMs参考物理传感器知识的基础,并确保推理过程与图像和关联信息提供的上下文保持一致。
感官推理:更复杂的推理能力要求LVLMs将二维图像数据与不同多视觉传感器相关联的物理意义进行映射。这一过程不仅涉及处理图像中的原始数据,还将其与现实世界中关于基础物理传感器知识的上下文信息相结合。通过结合基本的传感器信息,LVLMs可以得出既准确又与上下文相关的结论。感官推理需要对多视觉传感器数据的物理意义背后的知识有深入的理解。这超越了表层的图像识别,要求LVLMs以反映现实世界物理和使用场景的方式理解传感器数据。