超声成像作为一种替代的低成本、易于获取的非电离成像方式已显示出巨大的前景,可用于乳腺癌筛查。特别是,随着最近便携式设备的出现,超声检查预计将在中低收入国家中越来越普及。然而,超声成像在乳腺癌诊断中的可靠性高度依赖于操作超声医师和检查放射科医生的经验。
为了解决这一限制,人们开发了计算机辅助诊断(CAD)工具来标准化超声测试。深度学习技术的进步使得肿瘤检测、分割和分类等任务实现自动化。卷积神经网络(CNN)在区分良性和恶性乳腺病变方面,通过结合从超声图像中提取的放射组学特征进一步提高此类模型的性能。
深度学习方法面临数据缺失、数据分布不平衡、解空间巨大等挑战,加剧了学习过程的不确定性,从而影响了这些学习算法的性能。为了缓解这些问题,至关重要的是以忽略不可靠预测或将其传递给放射科专家的方式来呈现 CAD 模型的不确定性估计 。
本研究的重要目的是:设计一个指标量化乳腺病变分类结果的不确定性;采用所提出的不确定性度量来改进模型的性能特征。
数据集
总共包含 1150 张图像,其中 469 个病变的横向和纵向视图。病变边界注释是参考超声检查专家放置的卡尺进行的。 BIRADS评分由放射科专家进行评分,据此将病变分为良性(N=839,BIRADS=1&2)或恶性(N=311,BIRADS 3+,活检阳性)。
BI-RADS评分系统是将乳腺肿块分为0~6级,随着级别的升高,恶性风险度也逐渐升高。0级是指需要进行进一步检查;1级为阴性;2级为良性;3级是可能性大的良性,需要半年随诊一次超声;4级是可疑恶性,需要进行活检;5级是高度恶性,需要进行手术切除;6级是已经病理证实为恶性。
基于手动病灶边界注释:
对图像进行裁剪以消除超声成像软件添加的轴和标签,然后使用最近邻插值技术将其大小调整为 120x120 像素。随后,将每个图像的像素强度归一化至零均值和单位标准差,然后分为大小为 10x10 像素的非重叠图像块。
通过随机选择70个良性和 70 个恶性病变图像形成包含 140 个观察值的测试数据集。鉴于用于训练和验证模型的剩余观察数量有限,特别是在恶性病变的情况下(769 个良性图像和 241 个恶性图像),通过随机平移或翻转每个图像来执行数据增强。选择这些变换是因为它们提供了病变的真实替代视图,这可能是由于超声探头的不同定位和方向造成的。
良性和恶性图像分别增加了 2 倍和 7 倍,总共有 3225 个观察值(1538 个良性图像和 1687 个恶性图像)。在增强数据集上执行 90% / 10% 的训练/验证划分。不对 140 张图像的测试数据集进行任何转换。
Vision Transformer模型
与图像相对应的所有10x10块都被展平并投影到维度为64的线性序列。随后,将分类(CLS)标记以及可学习的位置嵌入添加到线性投影中。生成的张量作为Transformer的输入,该Transformer由8个编码层和4个用于自注意力层的头组成。然后,Transformer的输出通过多层感知机(MLP)具有两个由(全连接层、GeLU激活函数和dropout组成)。全连接层的大小分别为 2048 和 1024,而 dropout 率设置为 0.3。具有 softmax 激活函数的最终密集层用于估计图像属于两个类别中的每个类别的概率。该模型使用 Adam 优化器进行了 50 多个 epoch 的训练,学习率为 0.0001,批量大小为 32,稀疏分类交叉熵作为损失函数。
不确定性估计
通过使用dropout 作为贝叶斯近似来量化测试数据集中每个观测值的分类结果的不确定性。将dropout添加到训练模型的最终分类层,并通过在0.1-0.6的范围内随机改变dropout率,对每个测试图像进行N=100次的推理过程。
认知不确定性被测量为多个推理过程中分类得分的标准差 。然而,标准偏差仅提供不确定性的衡量标准,而不是与预测可靠性相关的决定,而预测的可靠性将导致放射科专家随后进行审查。
提出了一种替代指标,即分类不一致率(CIR),它将分类的不确定性量化为预测标签偏离多个推理过程中平均分类结果的次数。
表示测试数据集中观测值的概率得分,属于阴性和阳性类,分别对于一个推理过程,。给定观测值的计算过程如下:
其中,表示不同推理过程的概率分数的平均值,如果,则接收值为0。如果,则接收值为1.
若,则表示一致,预测的结果很好。若可能表示分类结果不可靠。