CIA-net：用于多模态MRI卵巢肿瘤分割的跨模态交互与聚合网络/文献速递-大模型与图像分割在医疗影像中应用

2026.3.11

本文提出CIA-Net，一个基于主次模态交互与聚合的混合卷积与Transformer网络，用于多模态MRI卵巢肿瘤分割，通过选择性融合互补特征并抑制噪声，在大规模卵巢肿瘤数据集及脑部和心脏分割基准上均实现了最先进的性能和良好的泛化能力。

Title 题目

CIA-net: Cross-modality interaction and aggregation network for ovarian tumor segmentation from multi-modal MRI

CIA-net：用于多模态MRI卵巢肿瘤分割的跨模态交互与聚合网络

文献速递介绍

卵巢癌是致死率最高的妇科癌症。MRI在卵巢癌管理中发挥着重要作用，尤其在精确术前诊断、监测治疗反应和复发监测方面。尽管CT广泛用于初步分期，但MRI在评估盆腔器官浸润和检测腹膜转移方面具有卓越的软组织对比度优势。精确的卵巢肿瘤分割对量化分析和指导治疗决策至关重要，例如预测手术切除可能性和化疗敏感性。然而，手动分割劳动密集且存在观察者间差异，因此需要开发鲁棒的自动分割方法。目前，深度学习在医学图像分割领域进展迅速，但在卵巢肿瘤分割上的探索较少，且现有研究主要集中于特定组织学亚型。卵巢肿瘤的异质性、不规则形状、对邻近结构的侵犯以及MRI序列和参数的多样性都增加了自动分割的难度。多模态MRI（包括T1、T2加权、DWI和ADC图）提供互补信息，可反映结构特征、水分子扩散和肿瘤形态。然而，简单拼接所有模态可能引入过多无关信息和噪声。为此，本文提出CIA-Net，一种统一的深度学习框架，通过将多模态输入分为一个主模态（T2）和三个次模态（T1、DWI、ADC），并引入跨模态协作模块（CCB）、渐进式上下文注入模块（PCIM）和渐进式邻域集成模块（PNIM），旨在选择性地整合有效特征，同时避免噪声和冗余，以实现卵巢肿瘤的自动分割。这是首次尝试开发适用于不同组织学亚型卵巢肿瘤的统一分割框架。

Aastract摘要

磁共振成像（MRI）是卵巢癌诊断的关键检查手段，其中卵巢肿瘤的准确分割对个性化诊断和治疗计划至关重要。然而，卵巢肿瘤常表现为混合囊性和实性区域，增加了自动分割的难度。临床实践中，放射科医生以T2加权成像作为主要模态来勾勒肿瘤边界，并结合多模态MRI提供的互补信息。鉴于此，本文提出了一种名为CIA-Net的跨模态交互与聚合网络，该网络采用混合卷积和Transformer架构，专门用于多模态MRI的卵巢肿瘤自动分割。CIA-Net将多模态MRI分为一个主模态（T2）和三个次模态（T1、ADC、DWI），每个模态拥有独立的编码器。其创新的跨模态协作模块通过渐进式上下文注入模块，选择性地将次模态的互补特征聚合到主模态中。此外，本文还引入了渐进式邻域集成模块，通过优化每个模态的相邻切片来过滤模态内和模态间的噪声和冗余信息。研究在大规模多中心卵巢肿瘤数据集（739名患者）上对CIA-Net进行了评估，并在两个公开的脑部和心脏分割基准上进一步验证了其泛化性和鲁棒性。与现有先进技术的对比实验结果表明了CIA-Net的有效性及其在临床应用中的潜力。

Method 方法

本研究提出的CIA-Net模仿了放射科医生的诊断工作流程，明确区分了一个主模态（T2加权成像）和多个次模态，以充分利用辅助序列的信息，同时避免噪声影响。CIA-Net的整体框架基于U-Net概念，包含混合Transformer编码器（执行选择性跨模态特征编码）和卷积解码器（通过跳跃连接中PNIM模块的辅助进行分层特征重建）。网络为每个模态使用独立的编码器路径，以保留其独特的特征分布。主要组件包括：跨模态协作模块（CCB）用于建立从次模态到主模态的交互路径；渐进式上下文注入模块（PCIM）集成在CCB中，负责选择性聚合互补特征并抑制噪声；渐进式邻域集成模块（PNIM）部署在跳跃连接中，通过整合切片间上下文来优化特征。输入图像首先通过嵌入层提取初始特征。随后，这些特征输入到四阶段Transformer编码器，每个阶段包含一个移位窗口块（SWB）和本文提出的CCB，CCB内部利用PCIM进行选择性信息融合。在CCB中，SWB独立处理每个模态的特征图以获得模态内上下文特征。然后通过PCIM将次模态信息选择性地融合到主模态中，CCB-MA处理主模态特征，CCB-MI提取次模态信息，实现单向特征传输。PCIM采用级联聚合过程，通过上下文注入模块（CIM）将次模态上下文渐进且选择性地注入主模态。CIM通过三个并行分支（主融合、注意力图和残差连接）运作，利用注意力图进行空间选择，并保留主模态特征的完整性。最后，编码器的多尺度特征图通过跳跃连接馈入四阶段解码器。PNIM被整合在这些跳跃连接中，通过建模切片间依赖性来增强特征表示，模仿放射科医生检查相邻切片以理解3D解剖上下文的过程，有助于处理肿瘤的切片间变异。PNIM采用渐进式结构，包含级联的邻域集成模块（NIM），每个NIM利用专门的邻域注意力机制，通过通道混洗和1D卷积学习切片间和模态间关系，最终通过残差块整合并校准相邻切片的有用信息。

Discussion讨论

本研究提出了一种用于多模态卵巢肿瘤分割的新型深度学习架构，并在大型多中心卵巢肿瘤数据集上表现出优异性能。通过在BraTS 2024和MyoPS 2020这两个公共基准数据集上验证，该方法的有效性得以进一步证实，表明其架构原则在不同解剖区域和临床应用中具有鲁棒性和泛化性。我们方法的成功归因于其模仿临床诊断工作流程的设计理念。通过指定一个主模态并将其他模态作为辅助信息源，模型避免了简单融合可能导致的低质量序列噪声影响特征质量的问题。框架的核心是PCIM，它促进了引导式的信息传输。PCIM的注意力机制能够识别次模态中空间相关的上下文，而原始主模态特征的独特残差连接确保了这些信息作为一种精炼而非替代。这种设计保持了主特征流的完整性，是我们模型鲁棒性能的关键原因。此外，PNIM通过整合切片间上下文来增强跳跃连接中的特征，从而改进了复杂肿瘤边界的描绘。精确和自动化分割工具的临床意义超越了简单的勾勒。虽然手动分割在某些临床流程中不常用于基础报告，但自动分割是支持个性化医疗的各种定量分析的关键技术。例如，基于MRI分割肿瘤体积提取的特征正用于构建预测最佳手术减瘤可能性的模型，这是晚期卵巢癌选择初次手术或新辅助化疗的决定性因素。类似地，基于分割的影像组学特征有望在治疗开始前预测患者对铂类化疗的敏感性。我们的工作提供了一个可靠的工具，可以生成这些高级应用所需的精确分割，满足了个性化卵巢癌治疗中的明确需求。尽管取得了可喜的成果，本研究仍存在一些局限性。首先，该架构为每个模态使用独立的编码器，增加了训练和推理期间的整体模型大小和计算成本。其次，PNIM中的邻域大小k等超参数是凭经验确定的，更具适应性的方法可能会改进性能和可用性。第三，虽然我们的主要卵巢肿瘤数据集规模大且为多中心，但不同中心病例分布不均，这可能会影响模型的泛化特性。最后，尽管模型在不同肿瘤类型上表现良好，但其在特别罕见的组织学亚型上的性能尚未具体评估，有待进一步研究。未来的工作将从几个方向展开。为解决计算成本问题，我们计划探索更高效的网络设计，可能涉及部分权重共享或更先进的交叉注意力机制。另一个方向是将分割模型集成到完整的下游分析流程中。这将包括基于我们模型分割提取的定量特征构建和验证治疗反应或患者预后预测模型，使我们的工作更接近临床决策支持工具。最后，将影像数据与其他信息（如基因组学和临床报告）融合，可以产生更强大的多组学预测模型，提供对肿瘤生物学更全面的视角。

Conclusion结论

本研究提出了一种新颖的多模态MRI分割网络，旨在解决卵巢肿瘤的特殊挑战。我们的方法基于主/次模态框架，利用渐进式上下文注入机制选择性地融合特征，同时保留主要影像数据的完整性。广泛的实验表明，我们的方法在大型卵巢肿瘤数据集上实现了高精度，并有效地泛化到公共脑部和心脏分割基准。这项工作提供了一个强大且通用的分割工具，通过改进定量分析支持肿瘤学的个性化治疗计划。

Results结果

为评估CIA-Net的性能，本研究构建了一个包含739名患者的大规模多中心卵巢肿瘤数据集，涵盖T1、T2、ADC和DWI四种模态，并经过组织病理学确诊（良性、交界性、恶性）。数据被分为训练集、验证集和测试集（65:10:25）。图像通过仿射变换配准到T2加权图像，肿瘤由经验丰富的放射科医生手动勾勒。所有对比方法均在nnU-Net框架下训练和评估，使用Dice相似系数、95% Hausdorff距离和平均对称表面距离（ASSD）作为评估指标。结果显示，CIA-Net在卵巢肿瘤分割任务中取得了最先进的性能，平均Dice分数为86.25%，比次优方法nnU-Net高出4.44%；HD95和ASSD也显著优于其他方法，表明其分割误差更少，轮廓勾勒更精确。Wilcoxon符号秩检验显示，性能提升具有统计学意义（p<0.0001）。定性结果也表明CIA-Net能更准确地勾勒出不规则形状和异质性强度肿瘤，避免了其他方法常见的欠分割、过分割或假阳性。此外，CIA-Net在不同大小（小于100 CC、100-500 CC、大于500 CC）和不同病理类型（良性、交界性、恶性）的肿瘤组别中均表现出最高的Dice分数和最小的四分位距，尤其在小肿瘤分割上优势显著，证明了其在复杂肿瘤病例中的鲁棒性。在模型复杂度和效率方面，CIA-Net的FLOPs为366.51G，与nnU-Net相当，单次推理时间为3.32秒/病例，在平衡分割精度与推理速度方面表现良好，具有临床部署潜力。消融研究进一步验证了关键组件的有效性：PNIM中邻域注意力机制的引入持续提升了性能，k=9时达到最佳。CCB、PCIM和PNIM模块的逐步添加带来了性能的显著提升，其中CCB贡献最大，证实了其在实现有效跨模态交互中的关键作用。选择T2作为主模态的性能优于T1、ADC或DWI作为主模态，这与T2提供主要肿瘤特征的临床认知一致。多模态融合实验表明，T2单独使用已具有良好性能，而逐步增加其他模态（T1、ADC、DWI）可进一步提高分割精度，其中T1对T2的补充信息最为显著，四模态融合效果最佳。模型生成的空间注意力图也证实，模型能够学习并利用辅助序列中的相关病理信息，将焦点集中在实际肿瘤区域。最后，在BraTS 2024脑肿瘤分割和MyoPS 2020心脏分割这两个公开基准数据集上的泛化性评估显示，CIA-Net在多个分割目标上均达到或超越了现有方法，特别是增强肿瘤、肿瘤核心、心肌水肿和瘢痕等挑战性区域，进一步证明了其架构原则的鲁棒性和泛化能力。

Figure 图