M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

原文链接：https://arxiv.org/abs/2404.00578

研究背景

背景介绍: 这篇文章的研究背景是医学图像分析在临床诊断和治疗中至关重要，尤其是多模态大语言模型（MLLMs）在这一领域的应用。然而，现有的研究主要集中在2D医学图像上，对3D图像的研究相对较少，尽管3D图像包含更丰富的空间信息。
研究内容: 该问题的研究内容包括：提出一个大规模的3D多模态医学数据集M3D-Data，并设计一个通用的3D MLLM模型M3D-LaMed，用于3D医学图像分析。此外，还引入了一个新的3D多模态医学基准M3D-Bench，涵盖八个任务，以促进自动评估。
文献综述: 该问题的相关工作有：现有的医学MLLMs主要基于2D图像数据，如LLaVA-Med、Med-PaLM M和Med-Flamingo等。尽管有一些研究尝试处理3D图像，如RadFM和RP3D，但在处理复杂的3D医学图像时仍存在挑战。

研究方法

这篇论文提出了M3D-LaMed模型和M3D-Bench基准。具体来说：

3D图像编码器: 使用3D Vision Transformer（3D ViT）作为视觉编码器，输入为RC×D×H×WR**C ×D ×H ×W 的3D图像，输出为n×dn ×d 的图像嵌入vv。
3D感知器: 提出了一种高效的3D空间池化感知器，通过重建3D空间并使用多层感知器（MLPs）调整嵌入维度，减少嵌入数量和维度，同时保留原始空间信息。
LLM: 使用预训练的LLaMA-2-7B模型作为基础LLM，提供通用的语言嵌入表示和生成能力。
提示式分割模块: 受LISA启发，使用提示式分割模块实现基于参考表达的分割任务，通过MLP将[SEG]标记的特征映射为分割提示，驱动分割模块生成分割掩码。

实验设计

数据集: M3D-Data包含120K图像-文本对和662K指令-响应对，涵盖八个任务，如图像-文本检索、报告生成、视觉问答、定位和分割。M3D-Seg组件收集了近6K个3D图像，来自25个公共医学分割数据集。
训练过程: 首先冻结视觉编码器和LLM，仅微调3D感知器；然后微调视觉编码器、3D感知器、LLM和分割模块。使用Dice和BCE损失进行分割训练，并采用LoRA策略进行参数高效的微调。
评估: 使用传统指标（如BLEU、ROUGE、METEOR）和LLM基础指标（如LLM-Based）评估模型性能。图像-文本检索任务使用召回率@1、@5、@10评估；报告生成任务使用BLEU、ROUGE、METEOR和LLM-Based指标评估；VQA任务使用多选题和BLEU、ROUGE、METEOR、BERT-Score评估；定位任务使用交并比（IOU）评估；分割任务使用Dice评估。

结果与分析

图像-文本检索: M3D-LaMed在各种难度水平下均显著优于PMC-CLIP模型，例如在100个测试样本和R@10指标下，M3D-LaMed的IR召回率为64.00%，而PMC-CLIP仅为9.00%。
报告生成: M3D-LaMed在报告生成任务中也表现出色，使用MLP的线性模型在BLEU得分上比RadFM高出2.92%，使用LLM基础指标得分高出4.17%。
视觉问答: 在闭式和开放式VQA任务中，M3D-LaMed在五个问题类型上均显著优于RadFM，例如在闭式VQA的五个问题类型上，M3D-LaMed的平均得分为75.78%，而RadFM为19.79%。
定位: 解锁视觉编码器可以显著提高输出框的定位任务性能，例如在腹部CT-1K数据集上，解锁后的定位准确率提高了29.25%。
分割: M3D-LaMed在语义分割和参考表达分割任务中也表现优异，例如在ACT-1K数据集上，M3D-LaMed的语义分割得分为73.64%，参考表达分割得分为73.63%。

结论

这篇论文通过构建大规模的3D多模态医学数据集M3D-Data，提出通用的3D MLLM模型M3D-LaMed，并引入全面的3D多模态基准M3D-Bench，显著推进了3D医学图像分析的研究。实验结果表明，M3D-LaMed在多个任务上均优于现有解决方案，展示了其在3D医学图像分析中的潜力。所有代码、数据和模型均公开发布，便于进一步研究和应用。

这篇论文在3D医学图像分析领域取得了重要进展，具有较高的学术价值和应用前景。

优点与创新

建立大规模3D多模态医学数据集：论文构建了包含120K图像-文本对和662K指令-响应对的M3D-Data数据集，这是迄今为止最大的公开3D多模态医学数据集，能够推动相关研究的进展。
提出多功能3D多模态语言模型：提出了M3D-LaMed模型，该模型能够处理图像-文本检索、报告生成、视觉问答等多种3D多模态任务，并且首次将3D提示可分区的分割模型与3D MLLM结合，实现3D医学图像的指代表达分割。
创建全面的3D多模态基准：引入了M3D-Bench基准，涵盖8项任务，这是第一个全面的3D多模态基准，能够自动且准确地评估模型的性能。
创新的模型架构：利用类似CLIP的预训练3D视觉编码器和高效的3D空间池化感知器，直接理解和推理3D图像。
引入基于LLM的评估方法：通过LLM进行自动和准确的模型性能评估，提高了评估的效率和准确性。

不足与反思

数据隐私和敏感性：由于医疗数据的敏感性和隐私问题，尽管使用了公开可访问的专业医疗网站上的数据，但仍存在数据隐私和披露的挑战。
模型泛化能力：尽管模型在多个任务上表现出色，但在处理超出训练数据范围的OOD（Out-of-Distribution）问题时，仍需进一步改进模型的泛化能力。
计算资源限制：在数据生成和模型训练过程中，使用了大量的计算资源，特别是在使用Qwen-72B进行数据生成时，这限制了模型的广泛应用和可访问性。

文章翻译

摘要

医学图像分析对于临床诊断和治疗至关重要，而多模态大型语言模型（MLLMs）的日益支持正逐步取代了二维医学图像。然而，以往的研究主要关注二维医学图像，而忽略了三维图像，尽管它们具有更丰富的空间信息。本文旨在利用MLLMs推进三维医学图像分析。为此，我们提出了一个大规模的三维多模态医学数据集M3D-Data，包含120K个图像-文本对和662K个针对各种三维医学任务（如图像-文本检索、报告生成、视觉问答、定位和分割）的指令-响应对。此外，我们还提出了一个多功能的三维医学大型语言模型M3D-LaMed，用于三维医学图像分析。同时，我们引入了一个新的三维多模态医学基准测试M3D-Bench，它促进了八个任务的自动评估。通过全面的评估，我们的方法被证明是一个稳健的三维医学图像分析模型，其性能优于现有解决方案。所有代码、数据和模型均可公开获取：https://github.com/BAAI-DCAI/M3D。

1. 引言

医疗场景[48]包含了大量的多模态信息，包括患者信息、诊断报告和各种模态的医学图像。与医学图像配对的诊断报告提供了准确且详细的描述、发现和诊断，被视为高质量注释。这些医学图像和文本被保存在数据库中，并按规模和无需额外成本的方式与医生的诊断工作流程一起保存。如何充分利用这些图像和文本数据来构建医学图像诊断模型是一个关键问题。

在最近的工作[32, 36, 45, 75]中，多模态大型语言模型（MLLMs）在各种多模态任务中展示了卓越的性能，有效地整合了图像和文本数据。通过结合视觉模型的感知能力[50,62,70]与大语言模型的生成能力[8,14,46,63,64,74]，MLLMs吸引了研究人员的显著关注，特别是在医学图像分析方面。现有的医学MLLMs[30,69,71,73]公开调整现有的2D MLLMs以处理医学图像和文本数据，以实现图像-文本检索、报告生成和视觉问答等任务。这些模型被提出作为理解和推理2D医学图像的有力工具。然而，当面对广泛使用的3D医学图像，如CT和MRI，它们包含丰富的空间信息时，如何利用这些数据进行有效的分析仍然是一个挑战。

在这项工作中，我们专注于三维医学图像，并扩展了MLLM在分析这些图像中的应用。为此，我们收集了一个大规模的三维多模态医学数据集M3D-Data，包括120K的图像-文本对和662K的指令-响应对，涵盖了各种疾病和任务。这个数据集是迄今为止最大的公共三维多模态医学数据集，可以推动相关研究的发展。此外，我们提出了M3D-LaMed，这是一个多功能的三维MLLM，用于医学图像分析。它可以执行图像-文本检索、报告生成和视觉问答等任务，并且首次包括了视觉语言定位和分割等任务。利用预训练的三维视觉编码器，在类似CLIP的策略下，以及高效的3D空间池化感知器，它可以直接理解和解释三维图像。M3D-LaMed首次与一个可交互的三维分割模型结合，实现了三维医学图像的参考表达分割。为了评估模型在三维医学分析中的能力，我们提出了一个多模态医学基准测试M3D-Bench，其中包括8个任务，涵盖三维医学图像分析的各个方面。这是三维医学图像分析领域的首个全面基准测试。除了传统的指标外，我们还引入了基于LLM的评估方法，使M3D-Bench能够自动准确地评估模型的性能。

总之，我们的贡献如下：

● 建立M3D数据集，一个包含120K图像-文本对和662K指令-响应对的大规模3D医学数据集。

● 提出M3D-LaMed，一个多功能的多语言模型（LLM），用于3D医学图像分析，并应用于各种3D多模态任务。

● 创建M3D基准测试，一个涵盖8个任务的全面3D多模态基准测试。

2. 相关工作

2.1 医学多模态数据集

在医疗场景中[48]，有丰富的不同模态的图像和文本可用。然而，以前的工作[5, 22]由于隐私和限制，难以构建大规模的医学多模态数据集。受CLIP[50]的启发，PMC-OA[35]通过网络爬虫从医学论文中获取图像和文本数据，产生了160万张2D图像-文本对。此外，MedMD[68]旨在实现多个目标：构建2D和3D医学模型，整合公共2D医学数据集，以及从医学专业网站爬取3D图像和文本数据。其3D数据集之一RP3D[68]包括51K张3D图像-文本对和142K张由大型语言模型生成的VQA数据。在我们的工作中，我们主要专注于通过爬取医学专业网站来构建大规模的3D医学数据集。M3D数据集包括120K张3D图像-文本对和662K张通过自动且低成本的数据生成流程生成的指令-响应对。此外，M3D数据的M3D-Seg组件收集了来自25个公共医学分割数据集的近6K张3D图像，便于进行视觉语言定位和分割等任务。总结来说，M3D-Data是最大的三维医学多模态数据集，支持各种任务，如表1所示。

2.2 医学MLLM

医学MLLM[30,69,71]通常是从强大的二维开源MLLM中微调的，使用医学多模态数据集。例如，LLaVA-Med[31]、Med-PaLM M[65]和Med-Flamingo[44]分别基于LLaVA[36]、PaLM-E[12]和Flamingo[2]等模型。像PMC-VQA[73]这样的大规模数据集的可用性已经使得从零开始训练医学MLLM成为可能，尽管最初仅限于2D图像。虽然RadFM[68]支持2D和3D图像，但它主要用于文本生成任务，如VQA，并且性能不佳。在我们的工作中，M3D-LaMed作为通用MLLM，用于三维医学图像分析。

表1. M3D-Data与其他数据集的比较。M3D-Data包含图像-文本对（M3D-Cap）和指令-响应对（M3D-VQA、M3D-RefSeg和M3D-Seg），这是最大的三维医学数据集，并涉及最多的任务。VQA：在封闭式和开放式问题下的视觉问答。ITR：图像-文本检索。RG：报告生成。REC：参考表达理解。REG：参考表达生成，SS：语义分割。RES：参考表达分割。

它不仅处理报告生成和 VQA 等文本生成任务，还处理视觉任务，例如 3D 医学图像中的视觉语言定位和分割，这对于医学图像分析中的识别和定位至关重要。

3. 数据集

M3D-Data的目标是为各种3D多模态医疗任务提供数据源。M3D-Data包含120K的图像-文本对和662K的指令-响应对，涵盖8个任务，如表1所示。

3.1. 图像-文本对数据

医疗机构，如医院，拥有广泛的医学图像和诊断报告存储库，并且通常伴随着文本描述。然而，由于患者数据的敏感性和隐私问题，公开披露如此全面的图像-文本数据集存在挑战。为了避免这些隐私问题，我们收集了来自公共可访问的专业医疗网站的医学图像和报告。具体来说，我们数据集中的每个患者案例都包括多个图像及其对应的报告，这些报告由Radiopaedia的专家精心审阅的注释补充。由于3D CT数据在医学图像分析中扮演着关键角色，特别是在诊断、定位和测量全身病变方面，我们成功编制了一个大规模的3D医学图像-文本对数据集M3D-Cap，包含120K对。M3D-Cap支持图像-文本检索和报告生成等任务。

3.2.指令-响应对数据

指令-响应对数据包含指令或问题及其对应的回答或答案的对。这些数据在各种多模态理解和生成任务中常用，例如视觉问答（VQA）、视觉语言定位和分割。这些任务的指令数据总和为662K。

3.2.1 VQA 数据

图1. M3D数据生成管道。(a) 在VQA数据生成管道中，我们采用LLM基于提示的方法从医学报告中生成五种类型的问题。随后，我们通过自我过滤去除脏数据，并通过LLM和专家检查测试集，实现99.4%的通过率。(b) 在定位和分割数据生成管道中，实施了三种可行的方法来构建图像掩码文本三元组，包括基于标签的指令、基于定义的指令和标注的指令。定位任务所需的框坐标可以直接从掩码中生成。

图2。M3D-VQA在五种问题类型上的数据统计。哪些、什么和在哪里是三个典型的问题。以词云形式展示了5个主题的样本。

医疗场景中 VQA 数据的获取和注释通常涉及大量费用，这主要是由于需要专门的医学专业知识。为了减轻这些成本，我们利用公共大型语言模型（LLMs）分析现有的诊断报告，并使用基于提示的方法生成指令-响应对，如图1(a)所示。此外，我们还应用自过滤技术根据预定义规则消除噪声数据。通过这一过程，测试集经过基于LLM的分析和专家评审的验证，结果令人印象深刻，通过率为99.4%（13729/13814）。考虑到使用Chat-GPT[46]相关的成本影响，我们选择免费且强大的Qwen-72B[3]进行数据生成。具体来说，我们生成了涵盖从每个诊断报告中提取的5个关键主题的多选题：平面、相位、器官、异常性和位置。M3D-VQA的数据统计，包括主题样本，如图2所示。采用多选题格式为开放式和封闭式评估提供了便利，便于全面评估。

3.2.2 坐标和分割数据

视觉语言定位和分割需要整合图像、文本和参考区域，通常表示为与任务相对应的框和掩码。为了简化数据处理，我们采用了统一的数据格式，由图像-掩码-文本三元组组成。这种格式通过将掩模转换为3D盒子的坐标，为定位任务和分割提供了资源。然而，在医疗机构的诊断过程中，病变掩模注释的稀有性使得创建3D图像-掩模-文本对数据集的成本更高，因为需要详细的区域注释。因此，我们开发了三种不同的方法的数据集，如图1(b)所示：（1）基于标签的指令数据：直接使用公共分割数据集的图像-掩模对，使用标签模板创建。（2）基于定义的指令数据：使用包含多个相关定义和描述的术语词典构建，由LLM生成，并随后使用定义模板进行指令数据创建。（3）注释的指令：专家注释关于指向区域的文本描述，以产生图像-掩模-文本三元组。此外，我们还利用低成本但强大的LLM，Qwen-72B，来增强文本内容并基于注释生成综合指令数据。在方法（1）和（2）中，我们通过合并来自公共存储库的密集注释的3D CT分割数据集M3D-Seg来构建联合分割数据集M3D-Seg，如附录表2中详细所示。同时，在方法（3）中，我们从Totalsegmentator注释了一个子集M3D-RefSeg。

4. 方法

由于3D编码器不可靠，我们从零开始训练视觉编码器。如图3(a)所示，我们在M3D-Cap上使用类似CLIP的策略预训练3D医学视觉编码器。随后，我们引入端到端调整，将3D信息整合到LLM中，使用指令数据，确保视觉和语言之间的无缝交互，如图3(b)所示。

4.1 模型架构

4.1.1 3D图像编码器

给定一个特定的3D图像I ∈ R C×D×H×W，其中C,D,H,W分别代表通道、深度、高度和宽度，我们推导出图像嵌入v=E_{img}(I),R^{n* d}。这里E_{img}表示图像编码器，n代表待处理的图像数量，d表示令牌维度。为了通用性和灵活性，我们利用3D Vision Transformer（3D ViT）[11]作为视觉编码器。3D ViT包括一个带有注意力机制的N层变换器。每一层操作从输入图像中提取的补丁，其中补丁大小为PD PH PW。我们可以直接从MONAI库导入标准的3D ViT。

4.1.2 3D感知器

由于3D图像固有地具有高维度和众多令牌，直接输入到LLM会导致显著的计算成本。为了缓解这一挑战，我们提出了一种直接且高效的3D空间池化感知器设计，旨在减少嵌入的数量和维度，如附录图1所示。

图3. 我们M3D-LaMed模型的概览。(a) 3D图像编码器通过跨模态对比学习损失进行预训练，执行图像-文本检索。(b) 在M3D-LaMed模型中，3D医学图像被输入到一个预训练的3D图像编码器和一个有效的3D空间池化感知器，以产生插入LLM中的精细嵌入。输出[SEG]标记被用作提示，以使用可提示的3D医学分割模型，从而获得3D掩模输出。有了我们的M3D-Data，M3D-LaMed可以在各种3D医学任务上得到利用。

来自视觉编码器的输出标记被重构到3D空间中进行池化。这一步有效地减少了标记数量，同时保留了原始的空间信息。其次，我们采用一系列多层感知器（MLPs）来调整嵌入维度，使其与LLM所需的维度对齐。通过实施这些步骤，3D感知器不仅降低了计算成本，还确保了空间信息的保留。

4.1.3LLM

在广泛的自然语言语料库上训练的大型语言模型提供了通用的嵌入表示和强大的生成能力。在我们的研究中，我们直接使用LLaMA-2-7B模型作为我们的基础LLM，因为它在捕捉语言模式和在不同领域生成连贯文本方面已被证明是有效的。

4.1.4 可提示的分割模块

受到LISA[28]的启发，我们利用MLLM的能力来实现可提示的分割模块进行指代表达式分割。具体来说，如果输出标记中存在[SEG]标记，我们就提取[SEG]标记的最后一层嵌入作为特征。随后，我们将这个特征映射成一个提示，通过MLP驱动分割模块，最终产生分割掩码。在我们的实现中，我们选择SegVol[13]作为可提示的分割模块，因为它具有强大的性能和与我们的框架的兼容性。

表2. 图像-文本检索比较。我们的模型在各种难度水平上均优于以前的模型。IR表示图像到文本检索。TR表示文本到图像检索。R@1、R@5和R@10分别表示召回率在1、5、10。

表3. 报告生成的比较。在基于LLM的度量中，我们使用Qwen-72B根据内容重叠对生成和参考进行绝对值0-100的评分。

4.2. Vision Encoder预训练

由于缺乏鲁棒的3D医学图像编码器，我们采用了CLIP[50]的架构和训练方法，在M3D-Cap上进行预训练。如图3(a)所示，我们在预训练中利用跨模态对比学习损失。视觉编码器从头开始进行预训练，而文本编码器则使用预训练的BERT[10]作为初始化。

4.3. MLLM训练

在获得预训练的3D医学视觉编码器后，我们将其集成到LLM中使用三维感知器进行端到端训练。我们的训练过程包括两个主要步骤。首先，我们将视觉编码器和LLM冻结，专注于仅使用图像-文本对对三维感知器进行微调。随后，我们使用指令数据微调视觉编码器、三维感知器、LLM和分割模块。如果输出标记中包含[SEG]标记，则使用与[13]类似的Dice和BCE损失进行分割训练。考虑到训练成本和重新训练LLM的原始知识，我们采用LoRA[20]策略对LLM进行参数高效微调。

5. 评估和基准测试

M3D-Bench是一个全面且准确的评估基准测试，涵盖了5个主要任务中的8个任务：图像-文本检索、报告生成、VQA、定位和分割。

5.1. 图像-文本检索评估

在3D图像-文本检索中，模型旨在根据它们的相似性匹配数据集中的图像和文本，通常涉及两个任务：文本到图像检索(TR)和图像到文本检索(IR)。为了评估，我们从M3D-Cap中选取了2000对高质量子集作为测试集。这个集合进一步根据检索数据池的大小分为四个难度级别：简单（100对）、中等（500对）、困难（1000对）和非常困难（2000对）。评估指标包括召回率在排名1、5和10的IR和TR，以评估模型从排名靠前的结果中检索相关图像或文本的能力。

5.2. 报告生成的评估

在报告生成中，模型基于从3D医学图像中提取的信息生成文本报告。为了评估，我们使用与图像-文本检索任务相同的测试集。我们将2000对高质量图像-文本对设为基础测试集，并将1000对图像-文本对设为小型测试集，以便用户评估。所有实验都在基础测试集上进行测试。由于评估生成报告与人类参考内容准确性的挑战，我们采用两种类型的指标：传统指标和基于LLM的指标。传统指标包括BLEU（双语评估下研究）[47]、ROUGE（召回率导向下研究）[34]、METEOR（具有显式排序的翻译评估指标）[4]和BERT分数[72]。这些指标衡量诸如n-gram重叠或变化等方面，以量化文本相似性，尽管语义理解有限。基于LLM的指标利用具有强大语义理解的LLM作为评估者，例如公共Qwen-72B。这些指标评估了生成和人类参考中提到的方面，并计算正确或部分匹配方面的百分比，分配从0到100的分数。

5.3. VQA评估

VQA任务涉及生成与给定图像和问题相关的文本答案，通常分为开放式和封闭式两类。在开放式VQA中，模型生成答案不受限制，而在封闭式VQA中，接受的答案被限制在预定义的选择集中。为了评估这两种形式，我们将M3D-VQA组织成具有四个答案选项（A、B、C、D）的多选题。随后，我们提供两个不同大小的测试集：基本测试集和小测试集。基本测试集包含2000张3D医学图像和13,791个涵盖五种类型的答案对。小测试集包含1000张3D医学图像和5000个涵盖五种类型的答案对。本文的结果基于基本测试集，小测试集已准备好供用户更快、更低成本地进行评估。经过自我过滤，移除了错误或低质量的数据后，采用LLM和专家检查的组合来识别问题，达到99.4%的通过率。对于封闭式VQA，问题和选择作为提示输入，答案是监督信号。准确度直接由答案和选择计算得出。对于开放式VQA，模型使用问题和相应的正确答案进行训练。评估涉及使用BLEU、ROUGE、METEOR和BERT-Score等指标来衡量模型生成文本与参考文献之间的相似性。

5.4. 位置评估

在视觉语言任务中，位置至关重要[7]，特别是那些涉及输入框和输出框的任务。涉及输出框的任务，如参考表达理解(REC)[26, 43]，旨在基于一个参考表达在图像中定位目标对象。相比之下，涉及输入框的任务，如参考表达生成(REG)[37]，要求模型根据给定的图像和一个位置框生成特定区域的描述。在我们的M3D-RefSeg和M3D-Seg中，掩膜被转换为表示最大边界矩形(x1,y1,z1,x2,y2,z2)的框坐标。在评估中，来自M3D-Seg的AbdomenCT-1K[42]数据中有20%用作测试集。对于涉及输出框的任务，我们计算了输出框与真实值的交并比(IOU)，作为定位度量。IOU得分大于0.2被视为命中目标，并相应地报告位置精度。对于涉及输入框的任务，BLEU、ROUGE-L、METEOR和BERT-Score被计算为评估生成描述和答案的指标。

5.5. 分割评估

分割任务在三维医学图像分析中至关重要，因为它具有识别和定位能力。为了应对各种文本提示，分割被分类为语义分割和参考表达分割。对于在3D封闭式问答（VQA）上的比较。我们的模型在五种类型的问答上均大幅度超越了其他3D机器学习语言模型（MLLM）。

表5. 对三维开放式问答的评估。我们的模型在五种类型的问题和四个度量评估中均优于其他MLLM。

语义分割，该模型基于语义标签生成分割掩码。参考表达式分割涉及使用模型对自然语言表达描述的目标进行分割。在M3D-Seg中，AbdomenCT-1K[42]、Totalsegmnetator[66]和CT-Organ[53]的20%数据被分配为语义分割和参考表达式分割的测试集。传统上，Dice被用作度量标准。

6. 实验

6.1. 实施细节

我们一致地应用Min-Max归一化来预处理3D CT图像作为输入。此外，我们将3D图像调整为标准化尺寸32 x 256 x 256。我们的3D视觉编码器采用3D ViT，使用12层变换器，补丁大小为4x16x16。输出嵌入是2048×768，代表2048个标记，具有768个特征维度。在我们的3D空间池化感知器之后，最终送入LLM的视觉标记是256 x 768。我们利用LLaMA-2-7B作为LLM基础，并加载预训练参数。

在视觉编码器预训练中，我们采用BERT和12层变换器的文本编码器作为文本编码器，最大文本长度为128。视觉编码器和文本编码器的[CLS]标记作为全局特征表示，线性层用于跨模态对比训练投影。此外，我们采用6 x 8的批量大小进行跨8个GPU的并行训练，学习率为10^-4，并有热身和余弦衰减计划。

MLLM训练有两个阶段。最初，我们冻结了视觉编码器和LLM，并仅用图像-文本对对3D感知器进行微调，采用批量大小为12x8，学习率为10^{-4，并应用热身和余弦衰减。具体来说，我们探索了两种情况：感知器中的1层线性层和2层MLP。随后，我们使用批量大小为12x8，学习率为2×10}-5，并应用热身和余弦衰减来微调视觉编码器、3D感知器、LLM和分割模块。

图4. 在微调中，3D定位（REG& REC）与冻结或解锁视觉编码器的比较。解锁视觉编码器可以提高输出框的性能，即REG任务。

表6. 在3D分割上的比较。我们的模型不仅在语义分割任务上超越了以往的方法，而且还实现了以前无法达到的RES任务。ACT-1K：AbdomenCT-1K。TS：ToalSegmentator。CTOrg：CT-Oran。

表7. 关闭式VQA消融研究。

使用SegVol[13]的参数作为初始化。我们一致地应用参数高效的LoRA方法进行LLM微调，其中LoRA参数设置为r=16，α=32，以及0.1的丢弃率。最大上下文长度定义为512。

我们所有的模型都使用AdamW[27,39]优化器进行训练，并利用DeepSpeed启用的bf16混合精度训练策略来优化训练过程。实施是在PyTorch中进行的，训练在8个NVIDIA A100 GPU上并行进行，每个GPU有80 GB的内存。

6.2. 图像-文本检索结果

由于医学图像分析中没有类似3D CLIP的模型，我们考虑使用2D模型作为基线。在评估过程中，我们沿深度维度对每个3D图像采样10个等间距的2D切片。当使用2D模型对切片进行检索时，我们识别出与目标最相似的3D图像。我们尝试使用CLIP[50]，但在医学领域表现不佳，得分接近0。因此，我们在医学领域选择了PMC-CLIP[35]作为基线模型。在表2中，我们发现我们的模型在各种难度水平上的检索性能远超2D PMC-CLIP模型，后者缺乏空间信息。

图5。与我们的模型和基准真值在图像-文本检索和报告生成方面的定性比较。预测和答案中相同的颜色表示相似的内容。

例如，在最简单的设置下（100 个测试样本和 R@10 指标），我们的模型在 IR 中优于 PMC-CLIP 54%。即使在最困难的设置（2000 个样本和 R@1 指标）下，我们的模型在 IR 中也比 PMC-CLIP 高出 17.95%。图 5 定性地表明，基于图像检索到的文本具有相似的内容。

6.3. 报告生成的性能

表3比较了使用感知器中的线性或MLP与RadFM以及我们模型的性能。无论使用传统指标还是基于LLM的指标，我们的模型在报告生成方面都优于RadFM。例如，我们的带有MLP的模型在BLEU得分方面比RadFM高出2.92%。基于使用更准确的LLM Qwen-72B评估，我们的模型甚至比RadFM高出4.17%。此外，我们的模型使用MLP的性能略好于使用线性。图5定性展示了我们模型的强大生成能力，在此我们生成的报告与正确答案有更多共同之处。

6.4. VQA的结果

我们评估了M3D-LaMed模型在封闭式和开放式VQA任务上的性能。

图6。封闭式和开放式VQA的定性比较。封闭式VQA要求模型从输入选项中选择正确的答案，而开放式VQA没有输入选项。

对M3D-VQA数据集进行建模。在表4中，对于封闭式VQA，我们的模型在所有五种类型的问题上都比RadFM表现得更好。参考表5中的开放式VQA，我们的模型也显著优于RadFM。在图6中，我们定性展示了我们的模型在开放式VQA和封闭式VQA上的理解能力。

6.5. 位置定位结果

图4描述了考虑两个子任务的三维视觉语言定位任务的评估，分别是REG（输出带有框）和REC（输入带有框）。

我们比较了冻结和解锁的视觉编码器在微调期间的表现。我们发现解锁的视觉编码器显著提高了REG任务。例如，准确率增加了29.25%，这需要从3D图像生成框输出。然而，在REC任务中，解锁的视觉编码器并未实现一致的性能提升。在图7中，我们提供了我们模型在视觉语言定位任务中卓越能力的定性展示。

6.6. 分割结果

在表6中，我们评估了考虑SS（语义分割）和RES（参考表达分割）的三维分割任务。

图7。定位和分割的定性比较。三维图像中的绿色框（掩模）表示真实情况，而红色框（掩模）表示预测。

在评估多模态大型模型的理解能力时，我们的性能在几个方面超过了SegVol。此外，我们识别出SegVol所缺乏的RES能力。在图7中，我们定性地展示了我们模型的分割能力。

6.7. 消融研究

在表7中，我们对封闭集VQA任务进行了消融研究，涉及四个方面：视觉预训练、空间池化、MLP和解锁视觉。省略视觉预训练意味着从头开始训练。省略空间池化涉及直接对序列标记进行池化。省略MLP意味着用单一线性层替换它。省略解锁视觉涉及在微调期间冻结视觉编码器。通过详细的消融实验，我们发现模型的每个部分都是不可替代的，使用视觉预训练作为起点并在微调期间解锁视觉编码器是更好的训练解决方案。

6.8. OOD问题的案例研究

我们的目标是调查我们模型的泛化能力，特别是其回答超出训练集范围之外的OOD问题的能力。为此，我们设计了非传统的概率问题，如图8所示。例如，在胸部和腹部的CT扫描中，我们的模型将阑尾识别为最小的器官，这是一个在训练集中不存在的概念。

图8. 非典型问题（OOD）案例研究。我们在OOD对话上测试了M3D-LaMed模型，这意味着所有问题都与我们的训练数据无关。我们发现M3D-LaMed具有很强的泛化能力，并且能够产生合理的答案而不是胡言乱语。在每组对话中，左侧的虚拟形象和问题来自用户，而右侧的虚拟形象和答案来自M3D-LaMed。

从训练数据中。同样地，当面对语法上不自然的查询"最聪明的器官"时，模型恰当地回答了"大脑"，尽管这个短语并未包含在训练数据中。虽然我们的数据集已经包含了描述异常的问题，但我们施加了更严格的限制，例如将查询限制在一、三和五个词以内。值得注意的是，我们的模型成功地解决了这些限制，即使它没有针对此类场景进行显式训练。此外，当面对与手术规划或寻求生活建议相关的查询时，模型生成了相关的回应，展示了其超越训练数据的适应能力。总之，我们的M3D-LaMed模型展现了针对OOD问题的强大泛化能力。这种熟练度源于我们对LLM执行轻量级LoRA微调而不是全参数微调的方法，这保留了LLM的原始理解和知识。通过利用LLM的内在能力和在新多模态数据集上的微调，MLLM呈现出增强后的专业和泛化能力。因此，基于健壮的LLM基础开发医学MLLM证明是不可或缺的。

7. 结论

总之，我们的研究推进了具有MLLM的3D医学图像分析。具体来说，我们构建了一个大规模的3D多模态医学数据集M3D-Data，包含120K个3D图像-文本对和662K个针对3D医学任务的指令-响应对。此外，我们还提出了M3D-LaMed，一个通用的模型，用于处理图像-文本检索、报告生成、视觉问答、定位和分割。进一步地，我们引入了一个全面的基准测试M3D-Bench，专为八项任务精心设计。我们断言，我们的方法为MLLM理解3D医学场景的视觉和语言奠定了坚实的基础。我们数据和代码的可用性将促进未来对3D医学MLLM的进一步探索和应用。