2025.12.19
这篇文章发表于《Medical Image Analysis》期刊(2026 年第 109 卷),由同济大学、上海大学等机构学者撰写,聚焦医学图像中的分布外(OOD)检测问题,提出一种差异化证据深度学习方法 D-EDL。
Title 题目
01
D-EDL: Differential evidential deep learning for robust medical out-of-distribution detection
D-EDL:用于鲁棒医学分布外检测的差异化证据深度学习
文献速递介绍
02
深度学习在医学图像分析中取得了显著进展,但现实世界的临床数据常因疾病流行率差异导致分布外(OOD)样本的出现。当遇到这些未见过的OOD图像时,神经网络容易以过高的置信度将其错误分类为已知分布内(ID)类别,显著增加误诊风险。因此,模型自动标记无法可靠分析且需人工干预的输入至关重要。现有OOD检测方法主要分为三类:基于辅助异常值的方法(不切实际)、基于扰动的方法(对医学图像效果差)和基于不确定性估计的方法。证据深度学习(EDL)因其在性能、效率和可扩展性方面的优势而备受关注。然而,EDL存在过度惩罚问题,即对具有高数据不确定性的样本过度约束证据,导致不确定性高估并将ID样本误分类为OOD。本研究揭示了KL散度正则化在经典EDL中造成过度惩罚效应,使得具有高数据不确定性的ID样本被误判为异常值,从而影响OOD检测性能。针对此问题,本文提出了差异化证据深度学习(D-EDL),通过引入差异化限制和排除模块(ROM)来有效建模模糊性,并在测试时采用原始证据推理(RI)以提高鲁SD和准确性,同时提出了平衡检测分数(BDS)以严格评估临床OOD检测性能。
Aastract摘要
02
在计算机辅助诊断中,疾病发病率的极端不平衡常导致罕见病症在测试时被忽略,从而产生分布外(OOD)样本。为了避免不可靠的诊断输出,检测这些OOD样本对临床安全至关重要。尽管证据深度学习(EDL)及其变体在检测异常值方面表现出巨大潜力,但由于医学图像的变异性,其临床应用仍面临挑战。我们发现,当遇到数据不确定性高的样本时,EDL中的Kullback-Leibler (KL)散度倾向于抑制固有的模糊性,导致证据估计中出现过度惩罚效应,损害了模糊分布内(ID)病例与真实异常值之间的区分。受临床实践中确证性诊断和鉴别诊断过程的启发,我们提出了差异化证据深度学习(D-EDL),这是一种简单但有效的鲁棒OOD检测方法。具体来说,我们将KL视为确证性限制,并创新性地用排除模块(ROM)取代它以进行差异化限制,这在保持OOD敏感性的同时,减少了对模糊ID样本的过度惩罚。考虑到极端测试场景,我们引入了测试时原始证据推理(RI)来绕过不确定性估计中的不稳定性,并通过精炼证据进一步提高了鲁棒性和精确性。最后,我们提出了平衡检测分数(BDS)来量化在不同敏感性下最佳平衡误诊和漏诊时的临床性能潜力。在ISIC2019、骨髓细胞形态学数据集和EDDFS数据集上的实验结果表明,我们的D-EDL优于最先进的OOD检测方法,在鲁棒性和临床适用性方面取得了显著改进。
Method 方法
03
本文提出差异化证据深度学习(D-EDL)以减轻EDL在医学OOD检测中的过度惩罚问题。首先回顾了EDL中的证据不确定性估计,其中输出逻辑通过非负证据e=[e1,...,eK]来表示对类别的支持度,并与Dirichlet分布的参数α=e+1相关联,不确定性u=K/S。其次,分析了KL正则化引起的过度惩罚问题,它通过惩罚错误类别的证据来强制各类别证据互斥,导致对模糊ID样本的不确定性高估。为解决此问题,受临床鉴别诊断的启发,D-EDL提出差异化限制,设计了排除模块(ROM),仅排除最不可能的类别证据,并通过证据缩放来降低其影响,从而在保持低复杂度的同时,既能建模模糊性又避免证据无限增长。此外,为了解决极端测试场景中精炼证据可能导致的不稳定性问题,我们引入了测试时原始证据推理(RI)策略,即直接利用未经处理的原始证据进行推理,以提高OOD检测的鲁棒性和精度。最后,提出了平衡检测分数(BDS)这一新颖指标,它使用独立于测试时间的阈值,通过平衡假阳性(误诊)和假阴性(漏诊)来评估临床OOD检测的综合性能,弥补了AUROC在临床应用中的不足。
Discussion讨论
04
本节讨论D-EDL在实现差异化限制时的三个主要问题:排除单个类别、通过证据缩放进行精炼以及使用相同缩放因子。排除单个类别可以避免引入额外超参数,并保持方法的低复杂度。通过证据缩放而不是直接归零来精炼证据,可以正确建模不确定性并降低预测不确定性。使用相同的缩放因子能够保持类别证据之间的相对比例不变,从而在修正不确定性估计的同时不影响证据的内在关联。此外,D-EDL采用训练时使用精炼证据、测试时使用原始证据的非对称策略。这种设计旨在解决医学OOD检测中学习阶段和部署阶段目标与限制的根本差异。训练时,精炼证据通过差异化限制优化决策边界,尤其对模糊样本有效。测试时,原始证据提供鲁棒的不确定性量化,避免了精炼证据在极端场景下可能引入的系统性扭曲。尽管D-EDL取得了有希望的结果,但仍存在局限性,例如单类别排除策略对OOD约束不足、数据集多样性不足、数据不平衡导致的少数ID类别与真实OOD样本混淆,以及D-EDL目前仅适用于单标签场景。未来的研究方向包括探索自适应排除多类别、建立更全面的医学OOD检测基准、研究类别感知差异化限制方法和不确定性校准技术,以及将D-EDL扩展到多标签OOD检测。
Conclusion结论
05
本文提出了一种差异化证据深度学习(D-EDL)方法,旨在减轻经典EDL在医学OOD检测中的过度惩罚问题,并降低临床应用风险。首先,我们分析了过度惩罚与KL散度之间的关系,并指出了其在OOD检测中的不足。接着,受临床诊断启发,我们用排除模块(ROM)取代了KL散度,以实现差异化限制。此外,通过对精炼证据的研究,我们提出使用原始证据来获得更鲁棒的OOD检测,以避免极端测试场景中潜在的证据扭曲。通过ROM中精炼的证据,我们的方法不仅扩大了ID和OOD之间不确定性的差异,而且描绘了高数据不确定性样本固有的模糊性,从而避免了现有方法中的不确定性低估。最后,我们提出了平衡检测分数(BDS)以评估不同方法在真实临床应用中的性能。全面的实验结果验证了所提出方法在医学OOD检测中进行OOD检测和可靠证据不确定性估计的有效性。
Results结果
06
本研究在ISIC2019、骨髓细胞形态学(BMC)和眼部疾病诊断和眼底合成(EDDFS)三个数据集上进行了实验,这些数据集具有高类内变异性和低类间差异,对OOD检测构成挑战。为了模拟临床罕见病情况,选择样本稀少(ISIC2019和EDDFS少于500例,BMC少于5000例)的类别作为OOD。实验采用ResNet18作为骨干网络,AdamW优化器,学习率为1e-4。评估指标包括ID分类的准确率(Pre)、召回率(Rec)、F1分数(F1s),理论OOD检测的AUROC和FPR95,以及临床OOD检测的BDS。实验结果显示,D-EDL在AUROC、FPR95和BDS上均优于所有对比的最先进OOD检测方法。消融研究证实了移除KL约束、引入ROM和采用RI策略对性能提升的有效性。定性分析也表明,D-EDL能够生成更稳定且单峰分布的不确定性估计,有效区分ID和OOD样本,避免了经典EDL中的不确定性低估问题。
Figure 图
07

图1. EDL和本文提出的D-EDL在医学OOD检测中的概述。(a) 是真实医学数据集中的代表性医学图像,展示了OOD检测中ID类别之间模糊性的挑战。(b) 和 (c) 是经典EDL和D-EDL在处理OOD检测中模糊ID样本时的示意图。左侧面板显示证据估计,右侧面板说明不确定性估计。颜色越深表示值越高。对于位于类别簇之间的模糊样本,我们的D-EDL方法在测量证据和不确定性方面表现出卓越的能力,从而实现了改进的OOD检测性能。

图2. 所提出方法的概述。(a) 展示了D-EDL。在训练中,ID数据的证据在ROM中被重新形成以满足差异化限制。对于包括ID和OOD在内的复杂测试数据,直接利用原始证据生成不确定性以避免(b)中所示的错误检测。(c) 表示临床应用中自适应异常值检测的过程。γ是自定义敏感度,τ是自适应阈值。不确定性值大于τ的测试样本被识别为异常值,否则被预测为ID。

图3. 针对不同ID(清晰)、模糊ID和OOD测试样本的Dirichlet分布单纯形。

图4. 不同样本在 (a) 带有KL的EDL 和 (b) 不带KL的EDL 中的证据估计图。

图5. 在不同敏感度设置下,采用自适应异常值检测过程的临床OOD检测结果详情。在所有方法中,我们的方法取得了最好的结果。

图6. ISIC2019数据集上基于EDL方法的OOD检测比较。所有指标均相对于基线EDL进行了归一化。

图7. ISIC2019数据集中不同模型在训练数据(蓝色)、有效数据(红色)和OOD数据(绿色)上导出的空位分布比较。为了更直观地呈现,显示时使用了对数尺度的转换值。对于旨在进行OOD检测的理想证据神经网络,训练数据上的空位分布应尽可能接近有效数据上的分布,并尽可能不同于OOD数据上的空位分布。

图8. ISIC2019数据集中,具有确证性限制 (a)、无限制 (b) 和差异化限制 (c) 的不同模型导出的空位分布比较。为了更清晰地呈现,这些值经过对数尺度转换后进行了归一化显示。