乳腺癌的早期精准诊断对提高患者生存率至关重要,而高质量的肿瘤分割始终是医学影像分析中的核心难题。近日,上海理工大学健康科学与工程学院周雷副教授课题组联合上海交通大学医学院附属瑞金医院,上海科技大学等单位,在模式识别与人工智能领域国际顶级期刊 《Pattern Recognition》发表的论文有效解决了该领域的关键问题。该工作由研究生郑磊担任第一作者,周雷副教授与上海科技大学生物医学工程学院沈定刚院长为共同通讯。该研究针对现有3D DCE-MRI分割网络中Transformer空间注意力计算代价高、局部细节易丢失的核心瓶颈,提出了一种关联感知区域 Transformer驱动的混合分割框架。该方法通过将空间相关性建模重构为通道域区域关联,显著降低注意力计算复杂度,同时引入仅在训练阶段生效的区域原型对比学习机制,在不增加推理开销的前提下有效提升肿瘤边界与区域判别能力。本推文将系统介绍该方法的设计思想与实验发现。
论文链接: https://www.sciencedirect.com/science/article/pii/S0031320325015973
代码链接: https://github.com/ZhouL-lab/HCRT
推文作者为郑磊,审核为周雷老师。本推文由论文作者授权发布。
作者简介(部分)
郑磊,上海理工大学健康科学与工程学院医学信息工程专业2023级硕士研究生,主要研究方向为基于多模态影像的乳腺癌辅助诊断,研究生阶段已发表多篇高水平SCI论文。
周雷,上海理工大学健康科学与工程学院副教授、硕导、入选上海理工大学志远计划。2014年博士毕业于上海交通大学电子信息与电气工程学院自动系,2020 -2021在上海科技大学生物医学工程学院沈定刚教授IDEA LAB进行访学工作,主要研究方向包括医学影像智能分析、图像/视频智能分析等。已发表相关领域的SCI和国际会议论文30余篇,大部分论文发表于人工智能领域国际顶级期刊或会议,包括Transaction on Medical Imaging、Transaction on Multimedia、Pattern Recognition、European Journal of Radiology、CVPR、ICIP、ICASSP等。
沈定刚,上海科技大学教授、生物医学工程学院创始院长,联影智能联席CEO,IEEE/AIMBE/IAPR/MICCAI/ISMRM/IAMBE Fellow,美国The Academy for Radiology & Biomedical Imaging Research杰出研究者奖,2024 IEEE EMBS 技术成就奖,2025 MICCAI Enduring Impact Award (持久影响力奖)。曾任美国 UNC-Chapel Hill 终身教授、冠名杰出教授,宾夕法尼亚大学 (UPenn)助理教授,约翰霍普金斯大学 (Johns Hopkins University)讲师。世界上最早开展医学影像人工智能研究的科学家之一,并最先将深度学习应用于医学影像。发表SCI论文760篇,H-index 164,引用11万余次。三个国际期刊高级编辑 (Senior Editor),六个国际期刊主编/副主编/编委。2017年底联合创建的联影智能公司,已成为医疗 AI 的头部企业,获得医疗器械认证62件,服务全球4000余医院、1.9亿人次。
期刊介绍
《Pattern Recognition》创刊于 1968 年,是模式识别与人工智能领域国际公认的顶级学术期刊。该期刊被中国计算机学会(CCF)列为人工智能领域 B 类期刊,充分彰显了其卓越的学术影响力与权威地位。
一 . 研究背景及主要贡献
1. 研究背景
乳腺癌是全球女性中发病率最高的恶性肿瘤之一,早期病灶的精准识别与治疗对提高患者生存率具有重要意义。作为乳腺癌影像诊断的重要手段,动态对比增强磁共振成像(Dynamic Contrast-Enhanced Magnetic Resonance Imaging,简称为DCE-MRI)因其对微小病灶的高敏感性以及清晰的病灶边界信息,在临床筛查与诊断中得到广泛应用。然而,DCE-MRI 数据具有三维结构复杂、尺度变化显著等特点,使得自动分割在实际应用中面临严峻挑战。尽管近年来深度学习方法,尤其是 CNN 与 Transformer 或 Mamba 相结合的混合架构,在乳腺肿瘤分割中取得了显著进展,但现有方法仍普遍存在计算复杂度较高、推理阶段开销较大或局部空间细节建模不足等问题,难以同时满足临床场景对高精度与高效率的双重需求。
基于上述研究背景,该研究提出了一种融合 CNN 与 Transformer 优势的高效混合分割网络HCRT(Hybrid Network with Correlation-Aware Region Transformer)。该方法采用双分支协同架构。其中,主分支以 CNN 编码特征为基础,通过引入关联感知区域 Transformer(Correlation-Aware Region Transformer,简称为CART)对区域级特征进行高效的长程依赖建模,以较低的计算复杂度捕获全局上下文信息;与此同时,针对通道注意力建模可能引起的空间细节损失问题,网络引入辅助分支,通过位置感知相关性(Position-Aware Correlation,简称为PAC)机制显式建模空间相似性关系,并对主分支注意力进行引导与细化,从而实现全局语义理解与局部结构保持之间的有效平衡。此外,进一步引入区域原型对比学习(Regional Prototype Contrastive Learning,简称为RPCL)作为训练阶段的辅助监督信号,通过区域级特征与可学习原型之间的对比约束,增强模型对肿瘤与背景区域的判别能力。该机制仅在训练阶段生效,在推理阶段不引入额外计算开销,从而在提升分割精度与泛化性能的同时,保证了模型的高效推理特性。
2. 主要贡献
论文的主要贡献描述如下。
(1)设计了一种用于特征提取的轻量化Ghost模块(Light Ghost Block),通过Ghost特征生成与深度可分离卷积相结合,在降低计算成本与参数量的同时,保持了良好的特征表达能力。
(2)提出了关联感知区域Transformer块CART,将多深度卷积通道注意力(Multi-Dconv Channel Attention,简称为MDCA)与位置感知相关性建模相结合,将传统空间注意力的计算复杂度由O(N^2)降低至O(C^2),同时通过位置相似性引导机制有效保留关键空间细节,实现全局与局部特征的高效建模。
(3)提出了一种新的区域原型对比学习损失函数(Regional Prototype Contrastive Learning, 简称为RPCL),通过区域级特征判别与原型对比学习,增强模型对肿瘤与背景区域的区分能力,从而同时提升分割精度与模型泛化性能。
(4)在多个大规模乳腺DCE-MRI数据集(包括私有与公开数据集)上对所提出的方法进行了系统评估。实验结果表明,HCRT在分割精度与稳定性方面均显著优于现有主流SOTA方法,验证了其有效性与实际应用潜力。
二 . 方法

图1 HCRT 网络架构
如图1所示,HCRT采用双分支编码器-解码器架构,专为乳腺肿瘤分割中"高精度与高效率难以兼顾"的问题设计。主分支负责处理输入的DCE-MRI体数据,先经过Light Ghost Blocks 进行高效特征提取,再通过四个CART模块逐步捕捉多尺度上下文信息,实现全局语义理解。辅助分支与主分支并行运行,通过生成PAC掩码来编码空间相似性。这些掩码会引导主分支中CART模块的注意力分配,确保在进行全局建模的同时,局部细节不被忽略。在推理阶段,主、辅两条分支共同工作,PAC掩码持续对注意力进行引导与细化,从而生成最终分割结果。同时,由于RPCL仅在训练阶段生效,推理时无需额外原型计算,保证了高效运行的同时仍能保持优秀的分割性能。
HCRT的核心在于高效特征提取、全局上下文建模和区域级判别能力增强的协同设计。下面对关键组件进行解析。
1. 轻量化 Ghost 模块( LGB )
LGB通过两步策略实现高效特征提取,使用1x1x1卷积提取少量核心特征,之后对核心特征图应用 3x3x3 深度可分离卷积,生成冗余特征图,用更低计算成本得到与标准卷积相当的特征表达,最终输出为Y=Concat(Yˊ,Y"),通过残差连接缓解深层网络梯度消失问题。
2. 关联感知区域 Transformer 模块( CART )
CART是HCRT捕捉长程依赖的核心模块,由 多深度卷积通道注意力和 位置感知相关性协同工作
( 1 )多深度卷积通道注意力( MDCA )
传统Transformer在3D医学影像上的空间注意力计算复杂度极高,呈二次方增长,显存开销巨大。MDCA的设计思路是将注意力机制从空间维度转移到通道维度,计算量大幅降低,同时通过局部特征编码保留空间信息。具体实现流程如下:在进入通道注意力计算前,先用3×3×3的深度可分离卷积对输入特征进行处理,将局部空间上下文显式注入特征图,确保后续通道注意力能够感知空间结构。将特征在通道维度重塑,计算通道间相关性矩阵,从而捕捉全局依赖关系。

图2 MDCA网络框架
( 2 )位置感知相关性( PAC )
PAC的目标是为通道注意力提供空间引导,增强肿瘤边界的精细刻画。生成与特征图尺寸一致的标准化3D坐标张量,并将其与特征图融合,让模型获得每个像素的"空间身份证",理解组织在三维空间中的绝对位置。在特定区域内计算像素间的相似性矩阵,用于判断哪些区域信息冗余、哪些区域特征独特。通过抑制高度相似的区域(通常是肿瘤内部平滑区域),突出相似性较低的边界区域,使模型聚焦于肿瘤与周围组织的差异。生成的空间权重被作用于MDCA输出,确保在建模全局上下文时,同时保持局部边界信息的精细性。
MDCA与PAC协同作用,使CART模块既能捕捉全局长程依赖,又能精准保留肿瘤边缘细节。
3. 区域原型对比学习( RPCL )
如图3所示,RPCL是HCRT 提升分割精度和泛化能力的重要训练机制,其核心理念是让模型在特征空间中区分肿瘤区域与背景区域。RPCL的具体流程描述如下。为肿瘤和背景分别维护可学习的"原型向量",每个像素的特征都与原型进行对比,从而学习到更具判别力的区域级特征,而不仅仅依赖单个像素。在特征聚合上,RPCL针对不同体积的病灶采用差异化策略:小病灶使用原型引导,保留精细结构;大病灶使用真实标签,确保全局语义稳定。这种设计兼顾了局部细节与整体语义。通过对比损失训练,模型会拉近同类特征与原型的距离,同时推远异类特征,实现特征空间的清晰类别分离,从而显著提高跨中心、多设备数据的鲁棒性。值得一提的是,RPCL仅在训练阶段生效,不增加推理阶段的计算负担。

图3 RPCL网络框架
三.实验及结果
1. 实验设置
为全面评估 HCRT 的性能,该研究在多中心、大规模乳腺DCE-MRI 数据集上开展了系统性实验。模型基于PyTorch 2.0.1框架实现,并在NVIDIA Tesla V100(32GB显存)GPU上完成训练。所有输入图像均统一重采样至各向同性的1×1×1 mm³ 分辨率,并随机裁剪为 128×128×48 的三维 patch,以在保证上下文信息完整性的同时兼顾计算效率。训练阶段采用Adam 优化器,初始学习率设为 1×10⁻⁴,权重衰减为1×10⁻⁵,每张GPU的批量大小为 2,训练共进行500 epoch。测试阶段使用滑动窗口策略对完整MRI进行推理,窗口步长设置为 64×64×8。实验数据来源于四个独立数据集:内部RJGD 数据集共1065例,按比例划分为训练集、验证集和测试集;外部验证集包括云南(YUNNAN)数据集100例、DBCM数据集541例(其中80例由人工精细标注作为金标准),以及来自瑞金医院的 DCIS 数据集 100 例。上述多中心数据用于系统评估模型在肿瘤分割任务以及不同乳腺癌亚型上的泛化能力。实验选择了四个指标,即Dice Similarity Coefficient(DSC)、Positive Prediction Value(PPV)和Sensitivity(SEN)以及Average Surface Distance(ASD)。
2. 实验结果
如表1所示,在瑞金-广东多中心(RJGD)数据集上,HCRT在多项评价指标上均取得了较为突出的表现。Dice系数达到82%,相较于经典的3D U-Net 提升了6.2%,较 UNETR++ 提升2.7%。在肿瘤边界刻画方面,HCRT 同样表现稳定:HD95 为 11.41 mm,ASSD为2.40 mm,说明模型能够较为准确地捕捉肿瘤轮廓,使分割结果更加平滑且一致。与传统 CNN 方法(如 3D U-Net、Attention U-Net)、主流Transformer模型(如Swin-UNet、UNETR)以及近期提出的轻量化网络相比,HCRT在分割精度与计算效率之间展现出更优的平衡,进一步验证了混合架构在3D DCE-MRI 乳腺肿瘤分割任务中的有效性。
表1 在乳腺肿瘤分割的内部和外部测试数据集上,HCRT和其它基准模型的性能比较

图4展示了 HCRT 模型与多种主流分割方法在 YUNNAN 独立外部数据集上的定性对比结果。通过这种直观的视觉对比,我们可以更清晰地看到HCRT 在实际临床案例中的表现优势。

图4 不同方法在YUNNAN数据集上的分割结果可视化比较。每一行对应一个受试者,显示的是增强后的轴位图像以及叠加的分割轮廓。红线表示真实标注(人工标注),绿线表示预测掩膜(自动分割)。
为了验证HCRT各个模块的有效性,该研究在YUNNAN数据集上进行了系统的消融实验,如表2所示。结果显示,轻量化 Ghost模块(LGB)在保留特征表达能力的同时有效降低了计算成本,Dice指数从75.83%提升至75.91%,FLOPs下降至49.91G。CART模块进一步增强了全局上下文建模能力和空间细节保留:引入MDCA后DSC提升至77.27%,PAC的加入则使DSC达到 78.62%,同时边界ASD降至9.37mm,表明模型在复杂肿瘤形状下仍能保持精确分割。RPCL在训练阶段显著提升了模型的判别能力,小病灶通过原型引导保留细节,大病灶利用真实标签稳定全局语义, DSC提升至77.00%,PPV和SEN也有明显改善,充分验证了原型对比学习对模型泛化能力的提升。
表2在YUNNAN数据集上进行了不同模块的消融实验,使用的图像块大小为128x128x48。↑ 表示值越高越好,↓ 表示值越低越好

在表3网络复杂度方面, HCRT在参数量、计算量和推理速度上表现平衡。与PLHN(11.04M 参数、146.14G FLOPs、0.1142s/patch)和UNETR++(31.05M参数、79.6% DSC、0.0578 s/patch)相比,HCRT仅使用6.26M参数、65.25G FLOPs,但DSC达到82.0%,推理时间为0.0763 s/patch,兼顾高精度与效率。与HCMA相比,HCRT尽管计算量略高,但分割精度更优,说明其在提升模型性能的同时未显著增加计算开销。整体来看,HCRT不仅实现了更准确的乳腺肿瘤分割,也保持了合理的计算成本和推理效率。
表3 不同方法的计算成本以参数量(M)、浮点运算次数(G)和每个图像块的平均推理时间来衡量。输入尺寸为128×128×48

四 . 临床价值
在该研究中,HCRT模型不仅在乳腺肿瘤分割任务中取得了稳定而可靠的性能,研究团队进一步探索了其在临床放射组学分析中的实际应用价值。在分子分型预测任务中,利用HCRT 分割结果提取的放射组学特征,有效支持了 雌激素受体与人表皮生长因子受体2等关键受体状态的判别,显示出分割质量对下游表型分析的重要影响。此外,研究还验证了HCRT在乳腺导管内原位癌术前升期预测中的潜在临床价值。针对部分乳腺导管内原位癌患者术前活检与术后病理结果不一致的问题,基于MRI影像通过自动分割获得的病灶体积与形态特征,并通过将MRI影像特征与超声、钼靶等多模态影像特征进行结合,设计了可用于辅助评估病灶的侵润风险评估算法,相关算法对帮助识别潜在高风险病例、为术前治疗策略制定提供客观的定量影像依据等任务具有非常重要的意义。
五 . 总结与展望
该研究提出了一种用于动态对比增强磁共振成像乳腺肿瘤分割的双分支混合高效Transformer网络HCRT,利用轻量级Ghost模块进行高效特征提取,并引入了关联感知区域Transformer模块以较低的计算复杂度捕获长程依赖关系。尽管如此,HCRT在处理低对比度肿瘤或体积过大的病灶时仍存在挑战,简单的减影操作难以充分提取区分特征,复杂增强模式的异质肿瘤也可能导致分割不完整。