超越炒作:冷静看待医学场景中的视觉语言模型

Beyond the Hype: A dispassionate look at vision-language models in medical scenario

Abstract

Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across diverse tasks, garnering significant attention in AI communities. However, their performance and reliability in specialized domains such as medicine remain insufficiently assessed. In particular, most assessments over-concentrate in evaluating VLMs based on simple Visual Question Answering (VQA) on multi-modality data, while ignoring the in-depth characteristic of LVLMs. In this study, we introduce RadVUQA, a novel Radiological Visual Understanding and Question Answering benchmark, to comprehensively evaluate existing LVLMs. RadVUQA mainly validates LVLMs across five dimensions: 1) Anatomical understanding, assessing the models' ability to visually identify biological structures; 2) Multimodal comprehension, which involves the capability of interpreting linguistic and visual instructions to produce desired outcomes; 3) Quantitative and spatial reasoning, evaluating the models' spatial awareness and proficiency in combining quantitative analysis with visual and linguistic information; 4) Physiological knowledge, measuring the models' capability to comprehend functions and mechanisms of organs and systems; and 5) Robustness, which assesses the models' capabilities against unharmonised and synthetic data. The results indicate that both generalized LVLMs and medical-specific LVLMs have critical deficiencies with weak multimodal comprehension and quantitative reasoning capabilities. Our findings reveal the large gap between existing LVLMs and clinicians, highlighting the urgent need for more robust and intelligent LVLMs. The code and dataset will be available after the acceptance of this paper.

大型视觉语言模型（LVLMs）的最新进展在不同任务中展现了显著的能力，引起了AI领域的广泛关注。然而，它们在医学等专门领域中的性能和可靠性仍评估不足。特别是，大多数评估过度集中于基于多模态数据的简单视觉问答（VQA）来评估视觉语言模型（VLMs），而忽略了LVLMs的深入特性。在本研究中，本文介绍了RadVUQA，一种新颖的放射学视觉理解和问答基准，以全面评估现有的LVLMs。RadVUQA主要从五个维度验证LVLMs：1）解剖理解，评估模型视觉上识别生物结构的能力；2）多模态理解，涉及解释语言和视觉指令以产生所需结果的能力；3）定量和空间推理，评估模型的空间意识和将定量分析与视觉和语言信息相结合的能力；4）生理知识，测量模型理解和解释器官及系统功能与机制的能力；5）鲁棒性，评估模型对未协调和合成数据的处理能力。结果表明，无论是通用的LVLMs还是医学专用的LVLMs，在多模态理解和定量推理能力上都存在关键缺陷。本文的发现揭示了现有LVLMs与临床医生之间的巨大差距，强调了开发更健壮和智能的LVLMs的迫切需求。本论文接受后将公开代码和数据集。

Introduction

基础模型的最新进展在不同任务中展示了显著的能力。在各种基础模型中，融合视觉和语言知识的大型视觉语言模型（LVLMs，如GPT-4、Gemini和LLaVA）在现实应用中表现出了令人印象深刻的性能。基于这些成就，越来越多的医学LVLMs被开发出来，在图像描述、视觉定位和视觉问答（VQA）方面取得了显著成效。尽管LVLMs具有广泛的适用性，但它们在医学领域的性能和可靠性评估仍不充分。考虑到医疗应用的高风险和复杂性，这一评估差距尤其令人担忧。

为了解决这一问题，已提出了一些基准研究。例如，Lau等人提出了VQA-RAD用于VQA评估，该基准基于315张CT、MRI和胸部X光图像，包含3515个VQA对。SLAKE通过测试视觉和知识驱动的查询来评估LVLMs，考虑了更复杂的临床场景。OmniMedVQA[3]进一步扩大了最大VQA数据集的规模，从12种模态中收集了11.8万张图像和12.7万个QA对。这些基准显著提高了医学LVLMs的评估水平；然而，它们未能提供全面分析，以充分整合医学影像数据的独特特性。具体而言，现有研究没有系统地评估模型在定量和空间推理以及对合成或非协调数据处理能力等方面的关键方面。相反，它们将不同类型的QA对（如模态和解剖问题）合并在一起，并评估总体评估分数。因此，这些评估协议仅提供了有限的见解，未能阐明不同VLMs在各个方面的具体优势和劣势。此外，大多数医学大型视觉语言模型（LVLMs）的开发规模相对较小，通常参数约为70亿（见表I）。这种有限的规模限制了模型充分利用LVLMs潜力的能力，而LVLMs往往需要更大的参数数量来捕捉数据中更复杂的模式和细微差别。

为了弥补这些差距，本研究构建了一个全面的数据集RadVUQA，以从各个方面评估LVLMs。RadVUQA包含了两种模态，包括多解剖部位计算机断层扫描（CT）和磁共振成像（MR）数据集。与现有研究主要关注识别低层次特征（如平面、模态、器官和异常）不同，本文构建了RadVUQA来评估LVLMs的五个高层次属性：1）解剖理解（anatomical understanding）；2）多模态理解；3）定量和空间推理；4）生理知识；5）鲁棒性。特别是，这些基本属性是根据各种测试设置进行评估的，例如研究LVLMs在有无基于提示的思维链（Prompt-CoT）策略下的能力，使用开放式和封闭式问题等。除了作为评估基准的新特性外，RadVUQA还有望成为比现有基准更复杂的VLM训练集。它涵盖了全身CT和MR扫描中的117个和56个器官/结构，以及深入的问题以提高模型的能力。

本文研究了九个坚实的LLVMs，包括三个医学专用的LVLMs（LLaVA-Med、Med-Flamingo和RadFM）、四个通用的LVLMs（LLava、InternVL、Qwen-VL-Chat和BLIP2）。此外，本文还进一步包括了两个优越的商业模型GPT-4o和Gemini-1.50-pro，以测试当前LVLMs的上限性能。

Method

A. Data Resources and Data Preprocessing

1) 数据资源：

RadVUQA的开发采用了多源、多解剖学的公共数据集，最终形成了RadVUQA-CT、RadVUQA-MRI和RadVUQA-OOD三个子集。具体而言，对2D CT（或MR）图像进行了采样，以确保身体部位的多样性表示，涵盖了RadVUQA-CT（或RadVUQA-MRI）中的117（或56）个类别，如脾脏、心脏和肾脏等。数据集在提示方面也呈现出多样性，包括纯视觉提示、带文本描述的视觉提示以及融合文本和空间指令的提示。此外，问题类型被分为开放式和封闭式两种格式，以提供一个全面的评估框架。

RadVUQA-CT数据集来自TotalSegmentator，这是目前最大的全身CT公开数据集之一。该数据集包含1,204个3D CT扫描图像，标注了117个不同的人体解剖结构。排除了轴向平面宽度或高度小于200像素的扫描图像。从每个扫描图像中，本文提取了来自横断面、矢状面和冠状面的十五个2D切片，具体为沿着每个轴的总层数的25%、40%、55%、70%和85%处。这一过程共产生了11,448张2D CT图像，每张图像都附有相应的掩码标签。

RadVUQA-MRI数据集源自TotalSegmentator-MRI，该数据集由2011年至2023年间巴塞尔大学医院PACS系统随机抽取的MRI扫描图像组成。原始数据集包含298个3D MRI扫描图像，每个图像都标注了56个人体解剖结构。排除了轴向平面宽度或高度小于200像素的扫描图像。本文从总切片数的10%、25%、40%、55%、70%和85%处提取了1,021张2D轴向切片及其对应的掩码。

RadVUQA-OOD数据集来自多个资源，包括来自某来源的250张合成2D胸部CT图像、来自另一来源的250张真实2D胸部CT图像，以及来自embli3D的63张2D动物CT扫描图像。此外，通过引入运动模糊、窗口偏移、噪声、锐度和低分辨率等变体，对真实图像进行了增强，以模拟不和谐数据，共生成了1250张图像（每种变体250张）。

2) 数据预处理：

在TotalSegmentator中，原始语义标签是基于实例的，为同一语义类别内的不同实例分配不同的标签（例如，不同的肋骨）。然而，这种标注标准对于设计VQA数据集来说过于详细，超出了现有LVLMs的能力范围。因此，本文为每个实例分配了四种类型的标签：（1）空间类别标签（如左肺、右肺等）；（2）类别标签（如肺、心脏、肠道、肋骨等）；（3）解剖位置（如腹腔、胸腔、骨盆等）；（4）一般类别（如器官、腺体、骨骼、肌肉等）。本文的映射标准细节可参见补充材料。这些标签使能够根据先验知识而不是手工标注来设置问答对。

B. Question Design

与大多数通常基于分类数据组织的VQA数据集不同，RadVUQA是利用公开可用的分割数据集开发的（图1）。这确保了RadVUQA中的问答对（QA pairs）能够比现有同类数据集更准确地生成，并具有更丰富的语义含义。

1) RadVUQA-CT 和 RadVUQA-MRI：

RadVUQA中的每个问题都包括一个上下文提示和一个具体查询。首先，本文为给定图像的每个上下文提示设置了基本提示或高级提示。基本提示简要介绍了输入数据的上下文，而高级提示则通过向LVLMs提供现有结构的更多细节来丰富信息。值得注意的是，在所有QA示例中，'{}'内的内容代表每张图像特有的语义标签。

在上下文提示（基本或高级）之后，具体查询通过引入开放式问题（OEQs）和封闭式问题（CEQs）来评估LVLMs的能力，涵盖以下几个方面：

解剖理解：评估模型是否能从图像中识别出器官/结构。本文设置了两个OEQs来测试模型在不同提示下的性能。这些查询与基本或高级提示相结合。

可以发现，OEQ1.1比OEQ1.2包含更少的先验知识，旨在测试不同LVLMs的Prompt CoT（链式思维提示）的有效性。

多模态理解：探索解释语言和视觉指令的能力。本文通过提供RoI（感兴趣区域）的先验知识来实现这一点。特别是，本文在输入图像中用绿色边界框标记RoI，并要求LVLMs识别其解剖结构。这项任务要求模型不仅要理解语言指令，还要准确定位提示边界框（绿色的那个）。此外，CEQ2指的是多项选择题，进一步测试模型的理解能力。

定量和空间推理：测试LVLMs在定量分析和空间感知方面的能力。OEQ3.1同时考察模型的定量能力和解剖知识，要求模型识别最大物体并区分其解剖标签。

随后，OEQ3.2和OEQ3.3逐渐降低空间感知评估的复杂性，使能够评估模型以递减难度理解和解释空间关系的能力。

在这些场景中，首先要求LVLMs视觉上定位目标，然后识别其类别，接着说明RoI之间的空间关系。尽管OEQ3.3引入了额外的提示来分配对象，但对于现有的LVLMs来说仍然具有挑战性。

生理知识：考察模型了解器官或结构机制并理解其功能角色的能力。

这一评估超越了单纯的视觉异常识别，要求模型将这些观察结果置于更广泛的临床框架中进行理解。

2) RadVUQA-OOD:

尽管已经有一些针对医学LVLMs（大型视觉语言模型）的基准研究，但大多数研究都忽略了成像多样性对模型的影响，并且过分关注于增加评估集的规模，而不是深入洞察。这里就引出了一个问题：LVLMs在不同成像设置、质量和特性下的表现如何？不幸的是，尽管少数现有研究仅评估了噪声干扰，但这个问题在很大程度上仍未被充分探索。

最初，CT和MRI高度依赖图像预处理技术。例如，采集协议（如不同的重建核、归一化策略和患者定位）对模型性能的影响尚未得到彻底研究。这些因素在现实世界临床环境中至关重要，因为那里的成像条件远未实现标准化和统一化。在[22]的指导下，本文设计了OOD（域外）子集，以评估模型在这些不同场景下的能力，包括噪声、对比度差异、清晰度、运动模糊、低剂量扫描等。具体来说，本文从以下几个方面评估LVLMs：

鲁棒性：模拟各种场景，包括运动模糊、有偏见的成像协议（具有不同对比度和清晰度的不同重建核）、低分辨率扫描和噪声数据。为了公平比较，未协调数据的QA对（问答对）与OEQ1.1、OEQ1.2和CEQ1的QA对保持一致。
安全性能力：评估LVLMs对抗敌对攻击或恶意指令的能力。例如，用合成扫描或非人类扫描替换查询图像。因此，本文设计了两个QA对来测试这一现象。

总体而言，RadVUQA包含10,759张图像和193,662个问答对（不同的上下文提示与OEQs/CEQs结合），重点评估LVLMs的五个基本特性。该数据集包含多种解剖结构，其中CT扫描有117种，MRI扫描有56种。尽管与OmniMedVQA[3]相比，RadVUQA的模式和图像数量较少，但由于其深入而彻底的QA框架，RadVUQA包含了更多的QA对，通过广泛覆盖解剖结构来确保数据的多样性。本文想强调的是，尽管解剖属性可能看起来直观且简单，但它们对于评估LVLMs在医学领域中的核心能力至关重要。这些属性对于评估这些模型是否真正具备人类生理知识理解能力至关重要。