VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge

现有的问题

目前的视觉语言模型 (VLM) 能够很好地将粗糙或主要的视觉特征与语言联系起来。

然而，它们往往无法识别更精细的视觉细节（图 3）。造成这些缺陷的原因有很多。

一个主要原因是，用于医学视觉语言任务的全面且临床相关的公共数据集有限。
大多数医学影像领域的公共数据集都是为解决特定的狭窄 AI 任务而发布的，例如分类、回归和分割 $29$ 。
同时，包含自然语言的医疗保健数据集仅限于视觉问答 (VQA) 和报告生成等特定任务，而这些任务并未涵盖临床相关任务的广度。

这篇论文作者做了什么工作

在本研究中，我们提出了一个全新的 VLM 框架 VILA-M3，该框架通过整合现有分割和分类模型的领域专家知识 ，解决了通用 VLM 在应用于医学领域时面临的独特挑战。我们在多个医学成像基准测试中评估了我们的方法，结果显示其性能显著优于现有技术水平 (SOTA)，见图 1。

请添加图片描述

Key challenges

Limitations of Existing Medical Datasets:

在这项工作中，我们概述了对更具动态和自适应方法的需求，并表明域专家模型的按需使用可以改善模型性能。**数据集限制是我们需要并在框架中使用专家模型信息的主要原因之一。**尽管已建议使用GPT-4O之类的大型模型作为评估医学模型性能的潜在工具，但它们对记忆信息的依赖使其对精确任务不可靠 $5，15$ 。

Combining General Vision-Language Data with Healthcare Data:

医疗保健专用数据集虽然宝贵，但不足以完全训练同样需要语言理解能力的模型。为了克服上述挑战，我们采用了四阶段训练方案：预训练视觉编码器、预训练可变长度语言模型 (VLM)、指令微调 (IFT) 以及基于领域专家信息的 IFT。这两个 IFT 阶段确保模型能够保留其语言能力，同时又不牺牲在医学基准测试 $14$ 上的性能。这种方法不仅提升了模型的整体性能，还解决了医学语言及其精度要求所带来的独特挑战。

1.2. 贡献

基于上述挑战，我们提出了以下主要贡献：

• 专家知识集成：我们强调将专家知识集成到医学视觉语言模型 (VLM) 中以提高精度的必要性。

• 全面能力：VILA-M3 是首个能够在单一框架内处理分割、分类、报告生成和视觉问答 (VQA) 任务的医学视觉语言模型 (VLM)。

• 专家指导的指令微调：我们在已构建的 VLM 训练方案的基础上引入专家指导的 IFT 训练，从而保留了 VLM 的语言能力。

• 混合 2D/3D 信息融合：我们引入了 2D 和 3D 专家模型的有效集成，实现了领域专家模型的混合融合，这些模型可提供相关的 3D 空间信息，从而增强了仅限于 2D 输入的 VLM。

• 开源模块：我们提供了一个开源模块，用于医学视觉语言模型 (VLM) 中的数据准备、训练和模型评估。

相关工作

医学视觉语言模型 ：VQA 任务是首批将文本和图像直接组合在单个任务中的任务之一 $3$ 。这些任务后来扩展为 FLAN 风格的视觉指令调优任务 $52, 56$ 。基于 Transformer $49$ 的通用大型多模态模型（例如 GPT-4 $1$ 和 Gemini $46$ ）已展现出在构建基于文本和视觉组合数据集的智能对话助手方面的巨大潜力。在生物医学领域应用时，这些模型展现出理解基本概念的良好能力。然而，以高精度和细粒度处理复杂的领域特定任务仍然充满挑战和挑 战 $28, 37, 42, 58$ 。**预训练和指令调优对于跨模态对齐表征和增强推理能力至关重要 $32, 58$ 。**同时，目前已出现了多种针对医学大型 VLM 的方法，研究方向也有所不同。 **Med-Gemini $58$ 拥有 1.5 万亿参数模型，**涵盖基因组学和医学检查等非视觉任务。LLaVa-Med $28$ 基于流行的 LLaVa 架构 $34$ ，专注于使用学术医学数据集；而 Med-Flamingo $37$ 是 Flamingo $2$ 的扩展，引入了一种结合视觉和文本的新机制。BiomedParse 允许 VLM 本身执行可快速执行的分割 $60$ ，但无法推广到报告生成等更复杂的任务。虽然这些研究有望迈出 VLM 在医学领域的第一步，但与传统计算机视觉应用在分类和分割等狭窄任务上的表现相比，它们在应用于医学任务时仍存在精度限制和领域专业知识缺乏的问题，而传统 CNN 在这些任务上的表现通常优于 VLM。

医学视觉模型和专家系统：许多模型已被开发出来以应对特定领域和任务的挑战。它们在某些领域实现了最佳（SOTA）性能，并且通常专注于从精心策划的数据集中学习到的专家知识。例如，Myronenko 等人 $38$ 为多模态脑 MRI 创建了精确的病变分割模型；He 等人 $17$ 从数万个专家注释的 CT 样本中研究了 127 种常见的人体解剖结构分割。 Cohen 等人 $8$ 基于各种公开可用的数据集开发了几种胸部 X 光分类模型。在保持模块化灵活系统设计的同时，整合领域知识和引导式推理，可能是借鉴以往成功经验的可行方法 $39, 53$ 。

医疗 AI 中的评估和基准测试 ：视觉语言模型的评估是一项颇具挑战性的任务，并且很大程度上取决于所评估任务的类型。虽然评估分类、分割或目标检测等封闭式任务很简单，因为可以直接使用成熟的指标（例如 F1、Dice、准确率等），但如何评估答案变化范围广泛的开放式任务尚不明确。例如，VQA 和报告生成中的开放式问题需要评估整个句子或段落的正确性，这极具挑战性 $12$ 。许多先前的研究尝试用更强大的 VLM 来评估开放式、较弱的 VLM 输出。例如，ChatGPT-4o 正被用作评判者来评估答案 $28, 34, 54$ 。虽然使用更强大的 VLM 作为评判者对于计算机视觉任务来说可能是可以接受的，但这种评估方法并不适用于医疗保健领域，因为医疗保健领域需要达到事实级别的精度，并且患者的治疗结果取决于结果。我们的评估表明，像 ChatGPT-4o 这样的现成 VLM 的功能太有限，无法直接判断医学 VLM 的输出。

代理系统：生成式人工智能的灵活性为开发能够整合异构信息和通用推理的强大医疗代理提供了新的可能性。之前的研究大多侧重于在医学领域扩展大型语言模型 $30, 44, 45, 51, 57$ 。最近，Hoopes 等人 $18$ 开发了一个代码预测代理框架，该框架可以集成一系列外部系统和 API，用于执行包括脑区域分析在内的一系列神经影像任务。Li 等人 $27$ 提出了一个多模态大型语言模型，可以调用特定于任务的工具并汇总结果。