PanTS:胰腺肿瘤分割数据集

论文链接:https://arxiv.org/html/2507.01291v1
项目链接:https://github.com/MrGiovanni/PanTS (提供了但暂时404)
Abstract
PanTS是一个大规模、多机构的数据集,旨在推进胰腺CT分析研究。它包含来自145个医疗中心的36,390张CT扫描,对超过993,000个解剖结构进行了专家验证的体素注释,涵盖胰腺肿瘤、胰头、胰体和胰尾,和24个周围解剖结构,例如血管/骨骼结构和腹部/胸部器官。每次扫描包括元数据,例如患者年龄、性别、诊断、对比相位、平面内间距、切片厚度,在PanTS上训练的AI模型在胰腺肿瘤检测、定位和分割方面的性能明显优于在现有公共数据集上训练的模型。我们的分析表明,这些增益直接归因于16×更大规模的肿瘤注释,并间接得到24个额外的周围解剖结构的支持。作为同类产品中最大、最全面的资源,PanTS为开发和评估胰腺CT分析中的AI模型提供了新的基准。
1 Introduction
胰腺癌是美国男性和女性癌症相关死亡的第三大原因[53,52,62]。尽管其临床重要性,但由于缺乏疾病特异性症状和腹部成像的偶然性,早期检测仍然是一个重大挑战[46]。因此,80-85%的胰腺肿瘤在晚期被诊断,当治疗选择有限且预后差时[65]。相反,早期肿瘤与明显更好的预后相关,强调了早期识别的迫切需要[68]。
计算机断层扫描(CT),尤其是增强扫描,是评估胰腺异常的主要方法[15]。回顾性研究表明,早期影像学体征-如导管扩张或局灶性萎缩-可能在临床诊断前数月出现,但通常未被发现[22,16,31]。然而,这些指标在临床实践中经常被遗漏,特别是当扫描是出于不相关的原因时[54,58]。CT扫描中的胰腺肿瘤在形状、大小、位置和放射学表现上高度异质性[48]
人工智能的最新进展已经显示出在CT扫描中自动检测和定位胰腺肿瘤的前景[11,33,37]。然而,大多数公开可用的模型都是在小型同质数据集上训练的,无法推广到不同的临床环境。这一缺点反映了一个基本的数据限制:胰腺是一个小的、解剖学上复杂的器官,其嵌入在关键血管、导管和邻近结构中,使得全面的注释和评估特别具有挑战性[23,36,34],胰腺肿瘤的准确分析不仅取决于肿瘤本身的识别,还取决于对其解剖学背景的理解。

为了解决这一局限性,我们提出了胰腺肿瘤分割数据集(PanTS)-迄今为止最大和最全面的胰腺CT分析数据集[1](#1)。PanTS包括来自145个医疗中心的36,390个CT扫描。每个扫描都与元数据配对,包括患者年龄,性别,造影剂相位,诊断,平面内间距和切片厚度。重要的是,PanTS包括超过993,000个经过专家验证的体素注释(图1中的示例),涵盖:
- 胰腺肿瘤沿着胰腺头部、体部和尾部,以实现肿瘤检测、定位和分割。我们发现,增加注释肿瘤的数量直接提高了AI在分布外数据集上的性能(图5)。为此,一个由23名放射科医生组成的团队在每次CT扫描中生成了体素肿瘤注释,以支持大规模的有效AI训练。
- 24个周围的解剖结构(例如,上级肠系膜动脉、胆管; § 3 \textcolor{red}{§3} §3中的完整列表)进行了注释,以实现全面的肿瘤分析。对肿瘤和附近结构的联合训练通过减少误报和提供丰富的解剖背景间接提高了AI性能(图6)。特征分析揭示,用肿瘤和解剖结构标签训练的模型学习到更多有区别的和可分离的表示,从而允许更精确的肿瘤检测和分割。
凭借其大规模、多样性和解剖细节,PanTS为胰腺CT分析中的AI开发树立了新的基准。它包括9,901个公开可用的训练扫描(非商业许可)和26,489个测试扫描保留用于第三方评估。此设置遵循医疗人工智能基准测试的最佳实践[45,7,6,35],确保公平和可重复的比较。我们还发布了一个强大的基线模型,nnU-Net,以及数据集。该基线模型在官方医疗细分十项全能(MSD)排行榜中排名第一。
2 Related Datasets & Our Contribution
2.1 胰腺和其他器官数据集
几个公共数据集在腹部CT中具有先进的多器官分割,包括BTCV [32](50 CTs,13个班级,1个中心),CHAOS [29](40 CTs,4个分类,1个中心),AMOS 22 [26](500 CTs,15类,2中心),WORD [41](150 CTs,16个类别,1个中心)和腹部CT-1 K [42](1,112 CTs,4类,12个中心)。这些数据集通常针对一般腹部结构或肝脏分割,机构数量的多样性有限(≤12个中心)和相对适中的数据集大小。TotalSegmentator [61]是迄今为止最雄心勃勃的努力之一,从单一来源提供117个类别的1,228个CT扫描。然而,它的焦点仍然是广泛的解剖结构分割,并且缺乏针对肿瘤学应用的专用设计。
限制条件:虽然这些数据集对于一般解剖分割是有用的,但它们不是专门为胰腺肿瘤分析设计的。它们都没有提供重要胰腺子结构的体素注释,例如胰腺的头部、体部和尾部、上级肠系膜动脉、胰管、胆总管、腹腔动脉和十二指肠。这些注释对于手术决策、肿瘤分期、参考器官如肝、脾、肾、肾上腺、主动脉和后腔静脉的标记不一致或不存在[38,39,27,69,67,56]。此外,远端解剖标志,包括肺、股骨、膀胱和前列腺,对空间定位和放射治疗计划很重要,很少包括在内。
我们的贡献:PanTS通过为27个有临床意义的结构提供体素标注来解决这些局限性,这些结构专门用于支持胰腺肿瘤分析。这些结构包括胰腺头部、体部和尾部的体素标注,以及对空间推理、邻近评估和下游临床工作流程(如放射治疗计划和血管侵入分析)至关重要的24个周围解剖结构。来自全球145个医疗中心的390次CT扫描,PanTS不仅是最大的器官分割数据集,而且也是最多样化的数据集-提供的机构代表性超过3倍,数据超过7倍,超过领先的数据集,如AbdomenCT-1 K [42]或AMOS 22 [26]。
2.2 胰腺和其他肿瘤数据集
肿瘤分割数据集历来专注于更常见的癌症和器官。例如,肝脏肿瘤由LiTS等数据集支持[10](201 CTs,7家中心)、HCC-TACE-Seg [47](105 CTs)和MSD Liver [6](201 CTs);结直肠肿瘤(Stagell-Colorectal-CT)[57](230例CT);肾肿瘤TCGA-KIRC [3](267 CTs)和KiTS 23 [19](599 CTs);和肺部肿瘤的MSD肺[6](96 CT)。大规模的努力,如FLARE 23 [44](4,500 CTs,14类,50多个中心)和autoPET [2](1,214 CTs,1类)靶向泛癌分析,但缺乏胰腺特异性细节或相关解剖结构的注释。
限制条件 :相比之下,胰腺肿瘤数据集仍然稀少且规模较小[9,8,14] JIH胰腺-CT [1](82 CTs)、胰腺-CT-CBCT-SEG [21](40 CTs)和CPred-舒尼替尼-panNET [13](38 CTs)均限于单中心,并侧重于狭窄的肿瘤类型或临床情况。PANORAMA [4](2,238 CTs,6个分类,7个中心)是一个重大进步,为胰腺导管腺癌(PDAC)及其相关结构(如导管和血管)提供了体素注释。然而,它没有为其他类型的胰腺肿瘤提供注释,这导致了 § 4 \textcolor{red}{§4} §4中讨论的评估问题。
我们的贡献:PanTS是胰腺肿瘤分割的最大和最全面的公开数据集,提供的注释CT扫描比PANORAMA多16倍,跨越20倍以上的医疗中心。除了胰腺肿瘤的体素注释外,PanTS还提供胰腺头部、体部和尾部的分割,从而实现精确的肿瘤定位和区域感知分期。该数据集支持临床相关任务的完整流程-肿瘤检测、分割、分期、可切除性评估和手术计划-还包括24个对评估肿瘤累及血管和邻近器官至关重要的周围解剖结构。现有数据集无法提供这种规模、多样性和任务对齐的解剖细节的组合。
3 PanTS: The Pancreatic Tumor Segmentation Dataset
PanTS包括36,390个CT扫描,具有胰腺肿瘤、胰头、胰体和胰尾以及沿着24个周围结构的精确逐体素注释(即胰腺、上级肠系膜动脉、胰管、腹腔动脉、胆总管、静脉、主动脉、胆囊、左和右肾、肝、后腔静脉、脾、胃、左和右肾上腺、膀胱、结肠、十二指肠、来自145个中心的该数据集包括成像元数据,诸如患者性别、年龄、对比相位、诊断、间距和扫描仪细节。
我们将PanTS分为9,901例(27%)的训练集和26,489例(73%)的测试集。两组均包含腹部CT扫描,详细数据集特征总结见表1 。数据和注释的授权为CC BY-NC-SA。我们已经将训练集发布到The PanTS Huggingface网站,测试集保留用于第三方评估。

3.1 数据集多样性
PanTS数据集包括广泛的胰腺肿瘤类型,包括胰腺导管腺癌、胰腺神经内分泌肿瘤(PNTT)、胰腺囊性肿瘤和囊性非肿瘤性病变。这些实体在大小、形态、衰减和纹理方面表现出异质性成像特征。CT扫描是使用不同对比相位、扫描仪型号、和成像协议。数据集还包含真实世界的成像伪影,例如金属诱导的条纹,导致空间分辨率和图像质量的显著变化。每个病例的肿瘤数量范围从1到6,肿瘤直径从4 mm到68 mm不等,测试集的肿瘤发生频率高于训练集。肿瘤的平均Hounsfield单位(HU)值在训练集中为60.8,在测试集中为67.7。数据集统计数据汇总在表1中。训练集和测试集遵循2:1的分割,并且来自完全不同的中心。因此,PanTS允许对AI泛化到未知机构进行全面评估。
3.2 数据集贡献者
PanTS数据集的CT扫描来自18个国家的145个中心。如图2所示,训练集的CT扫描来自11个公开可用的腹部CT数据集;测试集收集自3个中心,包括加州大学弗朗西斯科分校(UCSF)、波兰医院(PH)和北京大学第三医院(PUTH)。所有数据均匿名,并且CT扫描已经过视觉检查,以排除个人标识符的存在。应用于CT扫描的唯一处理是使用Python中的NiBabel转换为统一的NIfTI格式。来自训练集的所有CT扫描可以从其官方网站下载;测试集的使用已获得约翰霍普金斯医学的IRB批准,IRB 00403268。

3.3 注释方案
PanTS数据集中的胰腺肿瘤由一个由23名医学注释员组成的团队手动注释,这些医学注释员在胰腺成像方面具有不同的专业知识水平,如表2所示。每个CT扫描都使用MONAI-Label软件逐层注释[12],注释器分配一个预-定义的解剖标签或标记区域为背景,如果它不对应于任何定义的结构。初始肿瘤注释由具有≥3年放射学经验的注释者进行经验。然后由另外三名对初始标签不知情的注释者对每个注释进行审查。在出现分歧的情况下,专家作为最终仲裁者解决标签冲突。排除极小或模糊的病变样结构以确保一致性和质量。这种结构化的多注释者注释过程旨在确保一致性,解决模糊性,并实现高质量的体素注释。

PanTS数据集包括公共器官和肿瘤分割数据集(图2 )。然而,这些数据集并没有为我们在PanTS中的所有肿瘤和结构进行完全注释。PanTS训练集中的公共数据集有191个胰腺肿瘤注释。我们注释了885个额外的胰腺肿瘤,在PanTS训练集中达到1,076个胰腺肿瘤注释。附录A比较了公共数据集和PanTS中的结构注释数量。为了有效地跨胰腺头部、身体、尾部缩放体素注释,和24个其他解剖结构,我们采用了人在回路工作流程[49,36,66]。具体来说,基于AI的解剖分割器用于生成初始器官注释,然后由放射科医生手动验证和校正。这种AI辅助工作流程仅用于非肿瘤结构;所有的胰腺肿瘤都手工注释和检查。
3.4 注释标准
肿瘤注释包括整个胰腺肿块,包括实性和囊性成分以及病灶内坏死,同时排除邻近器官、脂肪和脉管系统。胰腺实质基于解剖标志被注释为头、体和尾:头包括钩突,并延伸至肠系膜血管;体尾分离点位于肠系膜血管和胰尾末端之间的中点,仅包括腺体组织,不包括周围的脂肪、血管和十二指肠。胰管是一个低密度的管状结构,从尾部延伸到乏特壶腹,包括管壁和管腔,但不包括邻近的实质和血管,相关的腹部血管注释如下:腹腔动脉从其起源到其三叉,上级肠系膜动脉(SMA)从其主动脉起源到第一大分支,肠系膜动脉从其主动脉起源到第二大分支,肠系膜动脉从其主动脉起源到第二大分支。门静脉从与脾静脉汇合到其进入肝脏;脾静脉从脾门到其与门静脉汇合处。对于所有血管,包括管腔和壁,而排除周围脂肪,器官和无关组织。其他血管,腹部器官,胸部结构和骨骼标志详见附录C。
3.5 注释质量控制
大型医学图像数据集不可避免地包含注释缺陷,特别是在体素注释中。虽然此类数据集仍然非常有价值,但可以通过系统地评估注释可靠性来进一步增强其效用。为了评估训练集中体素注释的内部一致性和质量,我们进行了注释者间一致性研究(图3E)。

具体来说,我们从训练集中随机选择了300个CT扫描,并让第二个放射科医生独立地重新注释,我们计算了每个病例两个注释之间的Dice相似系数(DSC)作为一致性的度量(图4A)。注释者之间的一致性中位数为DSC(%)= 86.1%,四分位距(IQR)为19.6%,表明注释者之间的一致性较高。(DSC < 20%),通常是由于小的或模糊的病变。为了确保注释质量,我们定义DSC = 20%的最小阈值,并标记所有此类病例,以便由高级放射科医师进行审查和可能的校正。

图4B显示了由两名放射科医生注释的CT扫描的代表性示例。左侧显示了高一致性病例,而右侧显示了低一致性病例(通常更微妙或模糊)。这种注释者间评估不仅确保了注释质量控制,还为基准自动化模型提供了参考:实现与该一致性水平相当或超过该一致性水平的DSC的系统可以被认为在分割性能方面与人类相当。
4 Justification of Annotating Large-Scale Tumor Datasets
一个核心假设是,按比例放大逐体素肿瘤注释可以显著提高AI性能,特别是在分布外(OOD)设置下,比如在训练中看不到的医院。为了评估这一点,我们在大小不断增加的胰腺肿瘤数据集上训练了一个标准的nnU-Net模型-MSD-Pancreas(n = 281),PANORAMA(n = 2,238)和我们提出的PanTS数据集(n = 9,901)---并在保留的PanTS测试集上评估了检测性能,其中包含来自任何训练数据中不存在的医疗中心的CT扫描。

如图5A 所示,模型性能随数据集规模而提高,但并不均匀。ROC曲线下面积(AUC)从0.810(MSD)适度增加到0.819(PANORAMA),然后在我们的PanTS训练集[2](#2)上训练时大幅增加到0.959。虽然这一趋势部分虽然这一趋势部分符合AI缩放定律[28,64]---这表明性能随数据集大小的增加而提高---从MSD到PANORAMA的有限增益表明仅扩展是不够的。PanTS的显著改进归功于其更大的尺寸和高质量的全面注释。PanTS包括来自145个中心的9,901个CT扫描,捕获了广泛的胰腺肿瘤类型,解剖变异,扫描协议和噪声分布-构建强大的可推广AI模型的关键因素。The MSD Leaderboard
为了进一步评估大规模注释的好处,我们将在PanTS数据集上训练的nnU-Net与在MSD上训练的领先AI方法进行了基准测试(图5B)。使用官方MSD测试集和由MSD挑战组织者评估的第三方,我们在PanTS上训练的nnU-Net在胰腺肿瘤分割中优于所有基线方法至少+4.9%DSC和+3.1%NSD,成为公共MSD-Pancreas排行榜中新的顶级AI模型。
5 Justification of Annotating 24 Surrounding Anatomical Structures
为了评估解剖背景对胰腺肿瘤分割的影响,我们比较了在两种标记方案下训练的标准nnU-Net的性能:2级设置(肿瘤和胰腺)和28级设置(肿瘤、胰腺亚区-头、体、尾-和24个周围解剖结构)。图6A示出了28类模型在肿瘤分割方面明显优于2类模型,平均DSC从57.4%提高到67.7%,提高了+10.3%。通过标准化表面骰子(NSD)测量的肿瘤边界准确度也从56.8%提高到66.5%,提高了+9.7%。

通过包括十二指肠、胆管和附近血管等结构,28类模型利用额外的空间背景来更有效地排除模糊边界附近的非肿瘤组织,增强解剖学复杂区域的空间推理。注释相邻器官进一步鼓励模型内化关键的空间关系,特别是在低对比度边界的区域[27,69]这些发现表明,解剖学注释起到了隐式正则化器的作用,帮助模型更有效地构建其潜在空间。
增加的24个周围结构提供了重要的上下文线索,能够更清晰地区分肿瘤和邻近组织。这种丰富的解剖监督指导模型学习空间关系,结构边界和典型器官配置-在胰腺中特别重要。这些结果突出了全面的多器官注释对于训练医学成像中强大和可推广的AI模型的重要性。
总之,我们的研究结果证实,包括空间相关的解剖结构可以改善感兴趣类别的分割。这强调了在设计大规模,高性能的医学AI数据集时,广泛的解剖注释的重要性。
6 Conclusion and Discussion
我们的PanTS数据集代表了数据驱动的胰腺癌研究的一个重大飞跃。PanTS数据集拥有来自145个医疗中心的36,000多张CT扫描和近100万个专家验证的体素注释,是迄今为止最大和最多样化的胰腺肿瘤分析公开资源。该数据集是通过23名放射科医生和多年手动注释的巨大合作努力开发的,质量保证和交叉验证。
尽管PanTS有其优势,但与正常解剖结构相比,它突出了注释肿瘤数据集的巨大挑战。即使在专家之间,注释者之间的一致性也可能是适度的,特别是对于小的、模糊的病变。我们对错误分类病例的分析提供了见解:在假阳性中,注释者注意到胰腺中细微的纹理不规则,但没有肿瘤存在的标志性体征相反,假阴性通常涉及微妙或非典型的表现,例如在难以可视化的区域中的外生性生长,如胰腺尾或弥漫性实质变薄,这可能指示潜在的恶性肿瘤。
这些发现强调了一个核心挑战:即使是经验丰富的放射科医生也可能错过早期或非典型肿瘤,这强调了在PanTS等大型、注释丰富的数据集上训练的AI模型的潜在价值。与此同时,他们强调了在解释手动和自动注释时需要谨慎--特别是在边缘病例中。未来的工作应该探索多模式学习,结合成像、病理和临床数据,以进一步提高准确性并降低不确定性。
重要的是,PanTS不仅仅是一个技术基准,它具有临床和转化意义。由于胰腺癌的晚期诊断和早期放射学体征的微妙性,胰腺癌仍然是最致命的恶性肿瘤之一。虽然人工智能有望实现早期检测,但之前的模型受到小型同质训练数据的阻碍。相比之下,PanTS提供了前所未有的规模和多样性,从而能够开发出强大的可推广的人工智能系统。它还为解剖感知评估指标提供了基础,自动报告生成、亚群分析和人工智能辅助教育。为了最大限度地发挥影响力,我们以非商业许可证的形式公开发布了基准模型和PanTS训练集,并发布了基准测试协议,以便在PanTS测试集中轻松进行第三方评估。
Appendix
A 相关数据集和我们的贡献

B 基线和实施细节
B.1 医疗细分十项全能中表现最佳的方法
Kim等人[30]提出了一种用于3D医学图像分割任务的神经架构搜索(NAS)框架。该方法通过在编码器和解码器阶段自动搜索最佳分层结构(包括神经连接和操作类型)来探索广阔的设计空间。为了解决与高分辨率3D数据相关的高计算成本,该框架引入了一种基于连续松弛的可扩展随机采样算法,该算法实现了基于梯度的高效优化。
nnU-Net [24,25]是一个自配置分割框架。它自动配置预处理、网络架构、训练和后处理。其自动配置由固定参数、考虑数据集特征和计算约束的相互依赖规则以及经验启发式的组合指导。
C2FNAS [63]是一种由粗到细的神经架构搜索(C2FNAS)框架,旨在减少开发特定任务3D分割网络所涉及的复杂性和手动工作。这种方法解决了传统NAS中搜索和部署阶段不一致的常见问题-通常由内存限制和扩展搜索空间引起-通过将架构搜索解耦为两个连续阶段。在粗略阶段,框架探索宏观网络拓扑,确定卷积模块如何连接。在精细阶段,它通过在先前发现的拓扑的指导下选择每个单元内的特定操作来细化架构。这种由粗到细的策略在保持可扩展性的同时减轻了搜索部署的不匹配。
DiNTS [18]介绍了一种为3D医学图像分割量身定制的可微分神经架构搜索(NAS)框架,其旨在实现灵活的拓扑设计、高搜索效率和受控的GPU内存使用。(例如,U-Net)或遭受大型3D数据集上的长搜索时间,DiNTS通过高度灵活和连续的搜索空间促进了多路径网络拓扑的自动发现。在将最佳连续架构转换为离散架构时观察到的性能下降-该方法结合了拓扑损失以保持搜索架构的质量。此外,DiNTS将GPU内存限制直接集成到搜索过程中,使其更适用于资源密集型3D任务。
Swin UNETR [55]通过分层、基于窗口的自注意机制捕获局部和全局特征,采用Swin Transformers来增强医学图像分割,通过使用Swin Transformers有效地建模全局上下文,性能优于原始UNETR。此外,Swin Transformers在大规模未标记3D医学图像数据集上的自监督预训练(使用掩码自动编码等技术)可以显著提高模型的鲁棒性和下游任务性能,这些功能使其在各种3D医学图像分析应用中具有最先进的性能,特别是在CT分割任务中。
通用模型[38,39,67]是为了克服特定数据集模型在器官和肿瘤分割中的局限性而提出的。传统模型往往由于尺寸小、部分注释和单个数据集多样性有限而具有较差的可推广性。相比之下,所提出的模型利用了从对比图像预训练(CLIP)中得到的文本嵌入对解剖标签进行编码。这使得模型能够学习语义结构化的特征表示,并有助于在不同的解剖区域中分割25个器官和6种肿瘤类型。该模型表现出对新领域和以前看不见的任务的强大可移植性。
B.2 实验设置
B.2.1 注释大规模肿瘤数据集的理由
为了验证按比例放大逐体素肿瘤注释的有效性并证明PanTS数据集的注释,我们设计了两个比较实验来评估增加注释数据量如何影响模型性能,特别是在分布外(OOD)场景中。
- 实验一:我们选择了两个广泛使用的公共实验室-MSD-胰腺(n = 281)和PANORAMA(n = 2,238)-作为与我们提出的大规模数据集PanTS进行比较的代表性基线(n = 9,901)。使用相同的配置,包括网络架构,数据预处理,增强策略,所有模型都在PanTS测试集上进行了评估,该测试集由未包含在训练数据中的医疗中心的CT扫描组成。
- 实验二:我们将在PanTS数据集上训练的nnU-Net与在MSD数据集上训练的领先人工智能方法进行了基准测试。具体来说,我们选择了Kim等人、nnU-Net、C2 FNAS、DiNTS、Swin UNETR和Uni. Model作为基线进行比较,所有这些都是在MSD训练集上训练的。官方MSD测试集用于评估,性能由MSD挑战赛的组织者独立评估。
该实验设置通过比较大小不断增加的数据集的模型性能以及通过在分布内和分布外条件下进行评估,实现了大规模肿瘤注释的益处的量化。
B.2.2 注释24个周围解剖结构的理由
为了评估结合详细的解剖背景是否提高了肿瘤分割模型区分肿瘤边界的能力,我们在两种标记方案下进行了比较研究,核心假设是分割额外的周围结构使网络能够更好地捕获解剖边界和空间关系,从而增强其定位和描绘肿瘤的能力。
具体来说,我们使用两种不同的注释协议来训练标准nnU-Net模型:
- 2类设置,仅包括肿瘤和胰腺区域,反映了公共数据集中常用的最小注释方法。
- 28类设置,包括肿瘤,胰腺子区域(头部,身体和尾部)和24个周围解剖结构,包括血管,胃肠道器官和邻近组织。
这两个模型都是在PanTS数据集的同一组CT扫描上训练的,确保性能差异完全归因于包含更全面的结构注释。所有训练配置-包括预处理步骤,增强策略和优化参数-在两种设置中保持不变。通过比较PanTS测试集上的分割结果,我们评估了更细粒度的解剖注释是否增强了泛化性能和肿瘤定位准确性。
B.3 实施细节
B.3.1 注释大规模肿瘤数据集的理由
- 实验一:使用nnU-Net框架训练三个标准nnU-Net模型。将CT扫描的方向标准化为一致的解剖方向。所有预处理参数(包括恢复间隔、强度范围和作物大小)均由nnU-Net框架通过对每个训练数据集的经验优化自动选择。详细的配置设置以JSON文件的形式包含在随附的代码存储库中。训练期间的数据扩充遵循nnU-Net框架定义的默认策略。所有模型均经过1,000 epoch的训练,每个迭代包含250次迭代。我们使用SGD优化器,基本学习率为0.01,批量大小为2。在推理过程中,我们应用了测试时增强,并使用了重叠率为0.5的滑动窗口策略,遵循默认的nnU-Net实现。
- 实验二:我们的nnU-Net模型的训练和推理过程遵循实验1中描述的相同配置。对于比较模型,我们报告了MSD挑战赛组织者在公共排行榜上发布的官方结果。
B.3.2 注释大规模肿瘤数据集的理由
两个标准nnU-Net模型使用nnU-Net框架进行训练,训练过程与实验1中描述的一致。两种设置之间的唯一区别在于用于训练的类标签,所有其他配置保持相同。
B.4 评估指标
每个评估指标都捕捉到了结果的一个特定方面,选择适当的指标对于突出感兴趣的特征至关重要。为了定量评估分割性能,我们采用了一套广泛采用的指标:Dice相似系数(DSC),归一化表面Dice(NSD),灵敏度,特异性和接受者操作特征曲线下面积(AUC)。
B.4.1 Dice Similarity Coefficient (DSC)
DSC测量预测分割和ground truth之间的体积重叠。它被定义为:
D S C = 2 ∣ P ∩ G ∣ ∣ P ∣ + ∣ G ∣ (1) \mathrm{DSC}=\frac{2|P\cap G|}{|P|+|G|}\tag{1} DSC=∣P∣+∣G∣2∣P∩G∣(1)
其中,P和G分别表示预测体素和真实阳性体素的集合。DSC的范围从0到1,数值越高表示一致性越好。它对于处理不平衡数据特别有用,是许多医学成像任务中的标准度量。
B.4.2 Normalized Surface Dice (NSD)
NSD在规定的公差 τ \tau τ内评估预测表面和ground truth之间的一致性,其反映了临床上可接受的偏差。其定义为:
N S D = ∣ { x ∈ ∂ P : ∃ y ∈ ∂ G , ∥ x − y ∥ < τ } ∣ + ∣ { y ∈ ∂ G : ∃ x ∈ ∂ P , ∥ y − x ∥ < τ } ∣ ∣ ∂ P ∣ + ∣ ∂ G ∣ , (2) \mathrm{NSD}=\frac{|\{x\in\partial P:\exists y\in\partial G,\|x-y\|<\tau\}|+|\{y\in\partial G:\exists x\in\partial P,\|y-x\|<\tau\}|}{|\partial P|+|\partial G|}, \tag{2} NSD=∣∂P∣+∣∂G∣∣{x∈∂P:∃y∈∂G,∥x−y∥<τ}∣+∣{y∈∂G:∃x∈∂P,∥y−x∥<τ}∣,(2)
其中, ∂ P \partial P ∂P和 ∂ G \partial G ∂G表示预测和ground truth分割的表面,NSD提供了更严格的表面水平评估,这在需要精确边界描绘的临床应用中尤其相关。
B.4.3 Sensitivity & Specificity
灵敏度(也称为召回率或真阳性率)量化了正确识别的实际阳性的比例,而特异性测量了正确识别的实际阴性的比例。它们被定义为:
Sensitivity = T P T P + F N , Specificity = T N T N + F P , (3) \text{Sensitivity}=\frac{TP}{TP+FN},\quad\text{Specificity}=\frac{TN}{TN+FP}, \tag{3} Sensitivity=TP+FNTP,Specificity=TN+FPTN,(3)
其中,TP、TN、FP和FN分别是真阳性、真阴性、假阳性和假阴性的数量。高灵敏度对于最小化遗漏检测是至关重要的,而高特异性对于减少假警报是重要的。
B.4.4 Area Under the Receiver Operating Characteristic Curve (AUC)
AUC通过测量ROC曲线下面积来量化模型区分类别的总体能力,ROC曲线下面积说明了灵敏度和特异性之间在不同阈值上的权衡。AUC值为1.0表示完美的分类,而值为0.5表示随机猜测。AUC对于评估模型在分割任务中的区分能力特别有用。
C 注释标准
胰腺和相关结构。
- 胰腺肿瘤:注释整个肿瘤肿块,无论其在胰腺内的位置如何。包括实性和囊性成分,以及任何病灶内坏死。包括邻近器官、脂肪和血管。
- 胰腺头部、体部和尾部:注释胰腺实质,分为三个解剖区域。头部位于上级肠系膜血管的右侧,在十二指肠的弯曲部内,并且包括钩突。胰体位于肠系膜上级血管的左缘和主动脉的左缘之间。胰尾位于主动脉的前方,向脾门延伸。包括整个腺实质,不包括周围的脂肪、血管和十二指肠。
- 胰管:胰腺内低密度管状结构,从尾部到乏特壶腹,包括管壁和管腔、胰腺实质和血管周围的血管。
血管结构。
- 主动脉:标注从隔膜到分叉的整个管腔。包括动脉壁和任何钙化、溃疡、血栓或夹层。周围组织和器官。
- 腹腔动脉:确定为来自主动脉的短动脉分支。从其起源到其分为左胃动脉、脾动脉和肝总动脉。包括管腔和壁。周围脂肪和器官。
- 上级肠系膜动脉(SMA):从其在主动脉处的起点追踪到主要分支点。包括血管壁和管腔。脂肪、胰腺和肠周围的血管。
- 后腔静脉:注释从其在后腔静脉处的起点到其进入右心房的整个管腔和壁。包括任何管腔内血栓。脂肪和结构周围的血管。
- 门静脉:SMV和脾静脉汇合形成的明亮强化血管。注释从汇合处到肝脏入口。包括管腔、壁和任何血栓。
- 脾静脉:从脾脏到SMV汇合处的轨迹。包括管腔和壁,不包括邻近的胰腺组织和脂肪。
腹部器官。
- 肝脏:注释整个实质,包括所有节段、肝内血管、胆管和任何肝脏病变。注释邻近器官和脂肪。
- 脾脏:注释整个脾实质和任何病变。注释周围脂肪和附近结构,如胃、肾脏和结肠。
- 左肾和右肾:注意肾实质。包括肾盂、输尿管、肾周脂肪和邻近结构。包括肾脏病变(如果存在)。
- 左右肾上腺:注释整个腺体和任何病变。检查周围的脂肪和附近的器官。
- 胆囊:注释壁和内腔,包括底部,体部和颈部。包括胆结石或息肉。胆囊管和肝组织。
- 胃:注释整个胃壁和胃腔,包括胃底、胃体、胃窦和幽门,包括病变、邻近器官和脂肪。
- 十二指肠:注释从球到Treitz韧带的管壁和管腔。包括病变。胰腺、胆管和脉管系统。
- 胆总管(CBD):识别为低衰减管状结构。注释从肝管汇合处到Vater壶腹。包括管壁和管腔。
- 结肠:注释盲肠、阑尾、升结肠、横结肠、降结肠和乙状结肠的壁和腔。包括病变。脂肪、肠系膜和网膜。
- 膀胱:注释管壁和管腔。包括管腔内病变。脂肪、肌肉和生殖结构周围的病变。
- 前列腺:注释整个实质和前列腺尿道。包括病变。脂肪、静脉丛和精囊周围的病变。
骨骼结构。
- 左右股骨(近端):注释股骨头、股骨颈和小转子远端5 cm处。包括皮质骨和松质骨以及任何病变。观察周围的肌肉和血管。
胸部器官。
- 左肺和右肺:注释肺实质,支气管血管束,脏层胸膜和任何病变。胸腔积液,壁层胸膜,纵隔结构和胸壁。
D 基准测试结果的附加分析
我们参加了医学分割十项全能(MSD),这是一个广泛认可的基准,旨在评估医学图像分割算法在各种解剖结构和成像模式中的通用性和鲁棒性。在MSD的十项分割任务中,Task07(门静脉期CT上的胰腺和胰腺肿瘤分割)由于胰腺形状复杂、体积小,以及通常难以从周围组织中描绘出的低对比度肿瘤。
我们的方法在Task07中排名第一,胰腺分割的Dice相似系数(DSC)为0.80,胰腺肿瘤为0.52,在解剖结构和病变级别准确性方面优于所有竞争方法。
与nnU-Net的原始MSD获奖作品[25]相比,胰腺的平均DSC为0.69,肿瘤的平均DSC为0.21,我们的方法分别将分割准确率提高了+11%和+31%。这表明我们的管道在处理类别不平衡,难以分割的肿瘤和可变器官形态方面具有重大影响。
此外,诸如nnFormer、UNETR和Swin UNETR等利用基于Transformer的架构的方法在胰腺分割方面显示出适度的改进(DSC约为0.74-0.76),但在肿瘤分割方面表现不佳(DSC始终低于0.30)。这些模型在捕获小的或对比度差的肿瘤方面通常表现不佳,可能是由于它们缺乏特定任务的监督或细粒度的上下文先验。
E 实验计算资源
E.1 数据预处理和存储
为了将原始CT体积转换为我们实验中使用的标准化格式,我们实现了多步预处理管道,包括以下阶段:
(1)匿名化和DICOM到NifTi转换;
(2)通过将Hounsfield单位(HU)裁剪到-1000到1000范围来进行CT强度归一化,然后将所有体积重新定向到一致的RPS(右-后-上级)方向;
(3)器官和病变掩模对齐;
(4)合并成结构化的多器官体积。
该流水线在配备有64核AMD Ryzen Threadripper 7980 X CPU和128 GB RAM的工作站上执行。在预处理期间不使用GPU加速。跨CPU线程的并行化使我们能够在90小时内处理36390个CT体积。预处理后,包含28个解剖区域的体积CT图像和每体素器官和肿瘤注释的数据集需要大约6.6 TB的存储空间。为了确保可重复性和易于访问,我们根据标准化文件夹约定对数据进行结构化,并为每个病例提供详细的元数据。
E.2 模型训练和推理
所有模型均使用24 GB内存的单个NVIDIA RTX 4090 GPU进行训练。训练过程消耗约8 GB GPU内存,完成1,000个epoch需要约18小时。在推理过程中,内存占用量约为5 GB。鉴于测试集的大小很大,(26,489次CT扫描),我们在多个GPU上并行执行推理,以加快评估速度。具体而言,我们使用了一台配备八个NVIDIA RTX 4090 GPU的服务器,从而可以在大约两天内处理完整个测试集。
F 潜在的负面社会影响
根据标准化文件夹约定对数据进行结构化,并为每个病例提供详细的元数据。
E.2 模型训练和推理
所有模型均使用24 GB内存的单个NVIDIA RTX 4090 GPU进行训练。训练过程消耗约8 GB GPU内存,完成1,000个epoch需要约18小时。在推理过程中,内存占用量约为5 GB。鉴于测试集的大小很大,(26,489次CT扫描),我们在多个GPU上并行执行推理,以加快评估速度。具体而言,我们使用了一台配备八个NVIDIA RTX 4090 GPU的服务器,从而可以在大约两天内处理完整个测试集。
F 潜在的负面社会影响
PanTS为推进胰腺CT分析提供了宝贵且前所未有的资源;然而,必须承认几个潜在的社会风险。首先,如果145个参与中心的人口统计学或临床分布不能充分反映全球患者人群的多样性,则大规模数据集可能会无意中加强现有的偏倚。这可能导致模型在代表性不足的人群中表现出降低的性能,从而加剧了医疗保健的差异。其次,尽管严格匿名,包括的详细的元数据(例如,患者年龄、诊断、扫描阶段)引起隐私问题,特别是在包含罕见病症的多机构数据集中。第三,由于在PanTS上训练的模型表现出实质性的性能改进,存在这样的风险,即,这种基准可能会激励过拟合(overfitting)到特定于血管的解剖学或成像特征,从而限制了真实世界的普遍性。最后,越来越多的可用性和对基准驱动评估的依赖可能导致在没有足够的监管监督或临床验证的情况下,在临床工作流程中误用或过度依赖AI系统。这些问题强调了道德数据集管理,谨慎的基准设计和负责任的AI部署在医疗保健中的重要性。