通过知识整合重新审视医学图像检索

论文总结

1、有开源代码：Nandayang/Revisiting-Medical-Image-Retrieval-via-Knowledge-Consolidation: This is the official codes for Anomaly-aware Content-based Image Recommendation (ACIR)

2、论文提出了一种新的医学图像检索方法 ACIR ，核心是通过知识融合提升检索性能、处理类内变化和识别分布外样本。论文融合了两种主要知识：

层次化特征知识：
- 浅层特征（纹理、边缘等局部结构）
- 深层特征（语义信息）
- 通过 Depth-aware Representation Fusion (DaRF) 模块，自适应地整合这些多级特征。
结构一致性知识：
- 利用图像的低分辨率"指纹"计算结构相似性，区分同类中外观差异大的样本（如不同切面的CT图像），缓解"过集中"问题。

3、融合方法：

ConvPiT 混合编码器：
- ConvNet 提取多级特征，再用 Pixel Transformer 全局细化。
DaRF 模块：
- 用浅层特征作为语义引导，更新深层特征，生成更可区分的融合表示。
KAN 层替代 MLP：
- 进一步整合多级特征，生成最终哈希码。
Structure-aware Contrastive Hashing (SCH)：
- 引入结构一致性矩阵，调整正/负/中性样本对的对比损失权重。

摘要

随着人工智能和数字医疗日益渗透医疗系统，健全的治理框架对于确保伦理、安全和有效的实施至关重要。在此背景下，医学图像检索成为临床数据管理的关键组成部分，在决策和保护患者信息中发挥着重要作用。现有方法通常通过瓶颈特征学习哈希函数，但这些特征无法从混合嵌入中生成代表性的哈希码。尽管对比哈希显示出更优的性能，当前方法常将图像检索视为分类任务，使用类别标签来创建正负对。此外，许多方法在模型遇到外部OOD查询或对抗性攻击时，未能解决分布外（OOD）问题。在本研究中，我们提出了一种新颖的方法，用于整合层级特征和优化函数的知识。我们通过引入深度感知表征融合（DaRF）和结构感知对比哈希（SCH）来实现知识整合。DaRF自适应地将浅层和深度表示整合到混合特征中，SCH则结合图像指纹以增强正负配对的适应性。这些融合的功能进一步促进了离场检测和基于内容的推荐，助力打造一个安全的人工智能驱动医疗环境。此外，我们还提出了内容引导排名，以提升检索结果的稳健性和可重复性。我们的综合评估表明，所提方法能够有效识别OOD样本，并在医学图像检索方面显著优于现有方法（p< 0.05）。特别是，我们的方法在解剖放射学数据集的平均精度提升了5.6%至38.9%。

引言

诊断和患者结局的改善越来越依赖于医学图像，导致大量影像数据积累，用于临床和研究（Willemink 等，2020）。除了文本查询系统，图像检索对于病例分析和临床教学至关重要，这有助于快速访问相关图像，支持临床医生和人工智能模型的高效诊断和疾病预后。然而，在大型图像库中导航可能很有挑战性，因为大多数现有方法难以根据内容对图像进行排名。有趣的是，哈希通过将高维数据转换为已知的二进制码，提供了一种高效的解决方案作为哈希码。这些哈希码使得利用汉明距离进行有效的相似性搜索。然而，由于特征提取能力有限，传统哈希技术常常产生不精确的结果。为弥合这些空白，研究人员提出了深度学习方法（Li 等，2018）进行图像检索，并取得了显著的改进。特别是，现有的深度哈希方法可分为两类：动态哈希（包括双重态和三元态哈希）和固定哈希。动态哈希利用深度对比学习，鼓励正对在潜在空间中靠近，同时将负对推开（Yang 等，2023）。固定哈希将检索任务视为另一种分类方式。通过训练网络学习每个类别的预定义哈希码（Yuan 等，2020;Fan 等，2020）。尽管持续努力，医学图像检索仍面临诸多挑战。（1）表征学习不足。大多数方法利用最终瓶颈的特征或简单地连接层次嵌入来生成哈希码。这些技术无法适应深层和浅层特征，导致表征学习不足。（2）过度集中化。图像检索的目标是找到与查询图像同一类别的图像，通常通过对正负图像对比训练实现。然而，同一类别样本间存在显著的视觉差异会阻碍模型的收敛（见图1）。类内变体使模型学习适用于类别中所有样本的通用表示变得复杂。此外，大多数方法使用松弛后的汉明距离来测量距离，这导致训练过程不稳定，因为概率函数突然出现。（3）分配外能力较弱。现有方法在分布外（OOD）数据上表现较差，因为模型倾向于将OOD样本分配到已知类别，反映出普遍性和鲁棒性较弱。（4）内容推荐不足。大多数当前研究并不基于内容相似度生成排名结果。为应对这些挑战，本研究引入了异常感知内容基图像推荐（ACIR），旨在实现高性能检索，并根据图像内容准确排序相关图像。（1）为同时捕捉低层和高层表示，我们提出一个深度感知表征融合（DaRF）模块用于集成多层特征，随后使用像素视觉变换器（PiT）从Convstem中全局细化深度特征。（2）针对过度集中的问题，我们引入了一种结构感知配对机制，利用图像指纹进行对比哈希。这有助于ACIR为具有较大班内差异的正图像对分配中性标签。此外，我们采用了皮尔逊系数来测量潜空间中的样本距离，缓解了锐利概率函数带来的不稳定训练过程。（3）为解决职场外幻觉，引入了自监督解码器以识别外勤样本。（4）基于内容的分类是通过计算层级合并嵌入之间的平均相似度实现的。为了全面评估该方法在医学数据集中的全部容量，我们在多解剖数据集上进行了实验，包括RadioImageNetCT（29,903张灰度图像，16类）和乳腺癌语义分割（BCSS）数据集（18,678张RGB图像，6类）。主要贡献可总结如下：• 我们引入了一种结构感知配对机制，利用图像指纹分配中性标签，解决了过度集中化问题。• 我们提出了一种新颖架构，整合了ConvMSA、PiT和深度感知融合模块，以增强层级嵌入巩固，实现高效的表示学习。• 为缓解梯度问题，我们采用皮尔逊相关系数作为松弛汉明距离的替代方案来估算样本距离。• 开发了自监督的值班检测模块，利用图像重建输出的差异实现稳健可靠的检索。• 我们提出了一种内容引导的排名机制，以实现稳健且精准的检索。

图1。医学图像检索的挑战，表现学习不足（使用深度特征或层级连接）、过于集中化的问题（忽略类别内差异）、OOD干扰（对OOD样本的容量较弱）以及缺乏基于内容的推荐

方法

图3展示了拟议ACIR的概述。ACIR主要由四个部分组成，包括混合编码器ConvPiT和深度感知的融合模块用于学习高效表示，结构感知对比学习用于解决过度集中化问题，一个用于重构对象检测模块，以及内容引导排序用于排名检索。

问题定义

给定一组图像 X 及其标签 L = {l1， l2， ... ， lN }，图像对习和 xj 之间的语义相似度 si，j 定义为它们的类标签 si，j = {1， li = lj 0， li ≠ lj 。（3）对于相似矩阵 S = {s0,0， s0,1， ... ， sN，N } （N 个配对样本），哈希模型 φ（Θ）可以通过最大化二元嵌入 H = {h1， h2， ... ， hK } ̂ΘMAP = − arg mθin（log P （S|H） + log P （H）），（4）其中 log P （H）是 H 的先验概率，log P （S|H）是对可能性估计。给定两个哈希向量 hi， hj 时，相似度 si，j 的条件概率由 P （si，j |hi， hj ） = {  （ሰ（hi， hj ））计算，si，j = 1 1 −  （ሰ（hi， hj ）））， si，j = 0 （5）其中 ሰ 表示评估 hi "接近"程度的距离测量，hj 是转换距离的概率函数（例如，汉明距离）到概率。

层级知识整合

有效的图像检索模型需要将原始数据映射到具有代表性的嵌入中，确保同一类别的样本能恰当地围绕其哈希重心聚集。本节介绍了ACIR如何提取和整合层级知识，包括利用PiT进行全局优化高层特征，以及利用DaRF自适应集成多层表示。尽管视觉变换器（ViT）擅长捕捉全局特征，但与卷积神经网络（ConvNets）相比，它们需要更多的训练数据和计算成本（Dosovitskiy 等，2021）。相反，纯ConvNet由于其固有的局域性归纳偏差和平移不变性，难以捕捉全局特征表示。为了从输入图像中提取高质量的层级信息，ACIR 架构采用混合方法：它使用 ConvNet stem 提取浅层和深度特征（见图2），然后用像素变换器（PiT）全局细化这些特征。研究表明，将ConvNet与变换器结合可以克服变换器因分词输入图像而产生的局部性限制，并且表现优于标准ViT（Heo等，2021;Weinzaepfel 等，2022）。然而，随着更小的 ViT 模型采用更小的代币大小来解决代币化的局部性问题，这一优势会被削弱。虽然缩小令牌大小有助于解决局部性问题，但这大大增加了计算负担。理解跨标记交互在表征学习中的重要性，我们强调计算不同标记之间的相互作用并通过自我关注机制评估其影响至关重要。因此，ACIR将每个像素（1 × 1）视为一个符号，并进行逐像素位置嵌入（PE），以便进行全面的跨符号计算。

其中 CLS 表示类标记，pn 表示特征图中被压平的像素数量（包含高轴和宽度轴）。一旦获得这些像素嵌入，L MSA层进一步细化深层特征，实现全局精细嵌入。这些全局精炼嵌入均由所有像素标记（如图2中蓝色方块所示）推导出来，而 $cls$ 符号（用橙色方块表示）表示全局表示。为了进一步解决类别间的小差异，ACIR整合了Convstem的低层和高层特征，通过卷积多头自注意力（ConvMSAs）和深度感知融合进行细化，实现知识整合。ConvMSAs 计算通过展开特征映射实现卷积感受场中的自我关注。ConvMSA处理的特征富含局部-全局上下文和增强的空间关系表示。在普通MSA中，查询（Q）、键（K）和值（V）大小为N×C（其中N为序列长度，C为嵌入dim）。在CovnMSA中，给定输入xin∈RB×C×H×W ，窗口大小（pw， pw），嵌入首先从B×C × （nhph） × （nwpw）重新排列到（Bnhnw） × C × p×pw，其中H = nhph 和 W = nwpw。则通过1×1个变形层得到Q′、K′和V ′

其中Nh表示头部数，Dh表示头部凹，C = Dh ×Nh. ≉1×1（Cin， Cout）（⋅）×表示以xin（形状为Bnhnw × Cin ×× pw）为输入，输出一个（Bnhnw × Cout × p× pw）张量。随后，Q′、K′和V ′被重新塑造和排列，以促进注意力机制，转变为适合多头注意力的维度（从B×DhNh × p×pw到B × Ng × phpw × Dh）。随后，通过对 Q′ 和 K′ 之间的缩放点积应用软极值来计算注意力

自关注后，输出被重新塑造为原始输入大小（B × C × （nhph） × （nwpw））。除了ConvMSA，DaRF还旨在自适应整合不同层级的特征，生成全面的特征嵌入。浅层特征E主要捕捉低层次语义意义，但富含文本信息;而深层特征Ed则带有更多语义意义，但文本细节较少。这些知识最初来自浅层（第2个）和深层（最后一个）变异块，随后是用于局部自我关注的ConvMSA。ConvMSAs后，输出通过自适应池化对齐至相同形状，并输入DaRF进行特征融合。利用低层知识更新高层知识，我们利用浅层特征的语义指导，识别并聚焦对应的深度表征。

这有助于模型生成更易区分的嵌入。DaRF后，融合后的二维表示RF被投影到与输入xin相同的通道，并通过全局平均池进一步压缩为一维矢量，然后与MSA层的全局和精炼表示符号串接。随后，我们使用了两层Kolmogorov-Arnold（KAN）（Liu等，2024）作为多层感知的替代方案，后者在边缘上具有可学习的激活函数，进一步巩固多层次知识。给定输入经验值，定义一个包含Cin维输入和Cout维输出的KAN层为

结构感知对比哈希

对于合并嵌入，下一步是学习一个哈希函数，将这些嵌入转换为哈希码。基于方程（4），大多数研究通过用概率函数放松汉明距离来量化样本对的相似性（例如，使用S形形、tanh和高斯分布将距离重新缩放到 $0,1$ ）。然而，当汉明距离较小（较大）时，这些函数呈现出锐利（平坦）的形状，导致梯度姿态不佳。此外，这些松弛的汉明距离仅评估样本间的大小，这加剧了哈希向量的过度集中化。尽管一些研究者应用余弦相似性来评估哈希向量的方向（Jang 和 Cho，2020），但大小评估被忽视了。为了弥合这一差距，我们旨在通过考虑哈希嵌入的大小和方向来评估不同样本之间的"距离"。因此引入了皮尔逊系数，用于测量大小和方向相似性，其中

其中1是一个全1向量，长度与哈希嵌入HI相同。λ 设为 2，以避免数值误差。为缓解过度集中，我们对同一类别内表现出显著视觉差异的样本距离进行了加权（见图1）。与自然图像不同，医学图像即使在低分辨率下仍保留了关键的结构信息，这对于基于内容的检索至关重要。因此，我们对原始图像进行了下采样，生成了低分辨率指纹，用于计算结构一致性（见图2）。基于这些先验知识，我们实现了结构感知配对机制，将样本分为正对（同类，外观相似）、中性对（同类，视觉差异）和负对（不同类别）。通过添加中性对，结构感知的对比损耗现在表示为 LSC = −H ∗ si，j log S（hi， hj ） − eH（1 − si，j ） log（1 − S（hi， hj ）），（15），其中 H 表示表示结构一致性的 Hermite 矩阵。通过引入约束 eH，模型得到了增强对于来自不同类别且存在小范围跨类变异的样本进行惩罚。这确保了这些细微差别被放大，旨在更好地区分类别。与此同时，厄米矩阵H还减轻了中性对（例如同类但不同平面的CT图像）的惩罚，以增加类内变异的容忍度。除了过度集中的问题外，另一个挑战是阶级不平衡，导致偏好回收的偏向。尽管Cao等人（2017、2018）提出了数据失衡的解决方案，但这些工作主要聚焦于正负对的不平衡，忽略了负对的变异。换句话说，在对比学习中，所有负对都被视为同一类。为解决这个问题，我们制定了一个可直接集成到对比学习中的类别权重矩阵。给定N个属于范畴C的样本，类别权重矩阵WM记为WM = wT w，其中w = {w1， w2， ... ， wC }是类别权重，其中

分布外检测

研究表明，重建模型在重建OOD样本时遇到困难，且产生更高的重建误差（Li等，2023）。在本研究中，我们设计了一个光解码器，利用ConvNet茎的深度表示重建原始输入。此外，跳过连接被移除，迫使解码器仅用给定的特征表示来重建输入。具体来说，ACIR的解码器包含一组融合块，结合了整合层、实例归一化（IN）、LeakyReLU和上采样层，并通过L1损耗进行优化。为了降低计算成本，上采样刻度分别设置为2、4和4。为评估灰图的重建误差，采用多尺度结构相似性（؈�sim）（Wang 等，2003）。给定指数权重αM、βj和γj，∹sim估计了X和y在M尺度上的相似性

基于内容的相似度排名

给定查询图像XQ，ACIR首先通过评估汉明球内的汉明距离，识别数据库中所有潜在候选图像XD。随后，评估XQ与其重建RQ之间的残差（L1或1 − ∹sim）。如果XQ的重建残余ER超过OOD阈值τ，则该数据被识别为OOD数据。然而，依赖汉明距离来确定当大量样本共享相同（最小）汉明距离到XQ时，顶K样本可能会引发问题。例如，可能有1000个候选人距离为0，而仅请求前200个样本。纯基于哈明的排序无法进一步区分这些同样遥远的样本。为了解决这个问题，我们使用了内容相似度作为额外的排名标准。具体来说，我们从编码块提取多层特征表示，并计算平均皮尔逊相关系数（PCC），以捕捉样本间更深层的内容相关关系。当多个候选物在相同的汉明距离上并列时，该内容相似度评分提供了更细致的区分。

实验和结果

数据集与训练细节

我们在两个公开数据集上进行了实验。BPS：BPS包含来自Amgad等（2019）和Graham等（2021）收集的18,703张图像，分为肿瘤（n = 6659）、间质（n = 4052）、炎症（n = 2798）、坏死（n = 1876）、脂肪（n = 1674）和腺体（n = 1619）六类。具体来说，图像被分为训练组（n = 13 092）、有效组（n = 3740）和测试组（n = 1871组）。RadIN-CT：基于RadioImageNet（Mei等，2022）的RadIN-CT包含多例解剖病例，包含十六种临床模式：正常腹部（n = 2158）、空气空间不透明度（n = 1987）、膀胱病理（n = 1761）、肠道异常（n = 2170）、支气管扩张（n = 2025）、间质性肺病变（n = 2278）、肝脏病变（n = 2182）、正常肺（n = 2028）、结节（n = 2029）、骨质肿瘤（n = 1584），卵巢病变（n = 1471）、胰腺病变（n = 2165）、前列腺病变（n = 948）、肾脏病变（n = 2200）、脾脏病变（n = 653）和子宫病变（n = 2194）。该数据集主要由轴向平面图像组成，也包含一些噪声、放大和日冕视图样本。这29,903张图像分为训练组（n = 20,932）、验证组（n = 5980）和测试组（n = 2,991组）。训练策略：所有可训练参数均以Henormal初始化初始化。训练期间，使用了随机翻转（上下、左、右）和调整作物大小（比例∈ $0.8， 1.0$ ）。此外，亮度、对比度、饱和度和色调的调整也随机应用于BPS数据集。模型在两块NVIDIA RTX 3090 Ti GPU上使用AdamW优化器训练，初始学习率为3e−4，辅弦学习率调度器（lrmin = 2e−6，lrwp = 1e−4，epochwp = 5）。所有比较均按照原始论文进行训练（使用ImageNet预训练权重）。

实验环境与评估指标

比较研究。我们对三个数据集进行了比较研究，评估了中心相似性量化（CSQ）（Yuan 等，2020年）、深度极化网络（DPN）（Fan 等，2020）、深度柯西哈希（DCH）（Cao 等，2018）、深度平衡离散哈希（DBDH）（Zheng 等，2020b）、二次球面互信息哈希（QSMIH）（Passalis 和 Tefas，2021）、ViT-LLaMa（Pang 等，2023）、基于注意力的三元态哈希（ATH）（Fang 等，2021）、基于特征集成的检索（FIRe）（Weinzaepfel 等， 2022年），以及多尺度三重态哈希（MTH）（Chen 等，2023年）。所有这些比较都发表在高影响力期刊/会议上，大多数（除MTH外）都是开源的。消融研究为更好地了解不同模块的有效性，在RadIN-CT数据集上进行了消融研究。我们建立了三个基线，分别是ConvNet（ResNet50）、ViT（基于ViT）和我们的混合模型ResNet50+PiT。这些基线首先用柯西交叉熵损失训练（Cao等，2018），随后用LW SC、DaRF和KAN增强用于消融研究。此外，研究了方程（17）中α的超参数选择，其值以0.25为单位从0到1。所有这些模型都按照相同的训练策略（使用预训练权重）进行训练，以实现公平的比较。分布外评估为了评估不同模型对OOD样本的能力，在额外的OOD数据集上评估了前4方法。我们从验证和测试集（RadIN-CT）中随机抽取了8000个样本（每个类别500个样本），并结合了一个非分布类别"OOD"（n = 500）。特别是，这500张OOD图像是从视网膜（Hoover等，2000）、脑MRI（Calabrese等，2022）、BPS、细胞成像（Sypetkowski等，2023）和VOC2012（Everingham等，2015）数据集中随机选取的。通过对应的哈希码进行平均来识别哈希中心。当对应的哈希码位于汉明球之外（r = bit 4 + 1），相对于其哈希中心时，即可识别出OOD样本。除了上述标准外，ACIR还根据方程（19）中的阈值τ识别OOD样本。评估指标性能通过平均平均精度（mAP）和宏平均平均精度（maAP）进行评估。当（1）检索到的样本与查询图像属于同一类，（2）查询图像的哈希码与检索样本的哈希码相符或接近（在汉明球内）时，才算入真阳性预测。此外，汉明球内的样本被视为真阳性样本。评估过程中，我们主要评估了前100个取样以报告mAP。显著性通过在使用ACIR得出的评估结果与比较方法之间进行Wilcoxon符号秩检验得出，P < 0.05表示两对方法之间存在显著差异。

实验结果

RadIN-CT上的比较实验表1中RadIN-CTL数据集的比较结果凸显了所提方法（ACIR）的优越性能。ACIR表现优于所有对比方法，在128位中实现了最高的0.716 mAP和0.701的maAP，与其他方法相比，mAP至少提升了5.6%（p < 0.05）。CSQ在8位时实现了0.660 mAP，优于其16位、64位和128位变体。FIRe在64位中获得了0.658 mAP和0.628 maAP，随后是视觉语言模型ViT-LLaMa（实现了0.644 mAP和0.619 maAP，128位）。有趣的是，尽管QSMIH（0.492 mAP）和DPN（0.573）在紧致比特中表现逊色，但在16位、64比特和128比特中取得了相当的结果。出乎意料的是，为生物医学图像检索开发的方法（ATH、MTH）显示出较低的mAP和maAP，分别为0.352（0.316）和0.560（0.531）mAP（maAP）。 BPS上的对比实验。所有模型在BPS数据集上的平均表现均超过RadIN-CT数据集，多个模型表现出显著成就。ViT-LLaMa模型在不同比特层级下均取得高mAP分数，128比特时最高为0.971。除DBDH和ATH外，大多数比较方法显示mAP超过0.94。除了ACIR，ViTLLaMa-128比特实现了最高的mAP（0.971）和maAP（0.969），其次是CSQ-8比特（0.97 mAP，0.967 maAP）和MTH-8比特（0.968 mAP，0.962 maAP）。在BPS上，ACIR-8位与MTH-8位之间未观察到显著差异（p>0.05），表明紧凑哈希位具有潜在的上界检索能力。相反，ATH和DBDH的性能相对较低，mAP峰值分别为0.474（64位）和0.756（8位）。消融手术。表2展示了消融实验的结果。所提混合模型显著优于基线模型（<CNN和ViT）的0.645 mAP和0.614 mAP，分别领先2.3%和5%。使用结构感知对比损耗长频SC训练的模型，表现持续优于对应模型（p < 0.05），尤其是在maAP方面。特别是，应用长白SC，ConvNet显示mAP（maAP）增长3.1%（3.3%），ViT提升3.8%（3.3%）mAP（maAP），混合模型改善1.8%（2.9%）。值得注意的是，混合模型被DaRF进一步改进，mAP占1.4%，maAP占1.5%。此外，Kolmogorov-Arnold层的引入使mAP和maAP分别增加了0.9%和0.9%的额外增长，而非使用MLP来聚合层级特征。值得注意的是，整合内容引导排名（CGR）在mAP（增长1.5%）和maAP（增长1.3%）上均有显著提升。这些结果凸显了该方法在提升整体检索性能方面的有效性。对于超参数选择，mAP和maAP在α = 0.5时分别达到0.701和0.680的最佳性能。特别是，性能从α = 0（mAP：0.662，maAP：0.651）提升到α = 0.5，达到峰值后，在α = 0.75（mAP：0.693，maAP：0.672）和α=1（mAP：0.681，maAP：0.658）时下降。非分布评估 OOD评估结果（针对前四名方法）见表3。我们首先计算了每个类别的哈希中心，并根据预测分配了类别标签，随后评估宏观精度和召回率。如表3所示，ACIR-128比特实现了最佳的鲁棒性，精度最高达90.2%，召回率0.901%，80.4%的外域检测率（500个中402个）。有趣的是，尽管ViT-LLaMa-128位在宏观精度和召回率上为FIRe-64未变形位，但它识别的OOD采样更多（85/500）。

讨论

本研究提出了一种新颖方法，结合知识巩固（使用混合ConvPiT和深度感知融合）、结构感知对比学习和分布外（OOD）检测，用于医学图像检索。该方法在病理和放射数据基础上进行了全面评估，并进一步评估了包括自然影像、磁共振、细胞影像和视网膜影像在内的外向数据集。与现有研究相比，我们的方法在解决医学图像数据库相关挑战方面取得了显著更好的结果（p < 0.05）。整体表现。BPS数据集的结果显著优于RadIN-CT数据集，表明班间规模更大BPS的变异。RadIN-CT复杂的特性反映了模型在相似样本中准确检索疾病模式的能力。这凸显了模型处理"硬"数据集的能力，这些数据集包含更多类且类别间变异较少。例如，MTH在RadIN-CT表现不佳（第9名，0.560 mAP），但在BPS数据上表现强劲（第3名，0.967 mAP），表明MTH在复杂数据集方面存在困难。有趣的是，CSQ在紧凑哈希码方面表现具竞争力，8位的mAP表现优异（第2名0.660），但表现不及16位、64位和128位。这表明较长的预定义哈希码可能导致性能下降。官方实现后，ATH在两个数据集上表现均不佳，原因不明。相比之下，我们提出的方法展现出卓越的鲁棒性和准确性，在所有比特级别和数据集中都实现了最佳性能。预培训评估。本研究中，变压器/混合方法（ACIR、ViT-LLaMa和FIRe）表现出相当的性能。除了SOTA ACIR外，ViT-LLaMa在RadIN-CT上排名第5（0.644 mAP），在BPS上排名第2（0.971 mAP）。同样，FIRe在RadIN-CT上获得第4名（0.658毫帕）和第6名（0.958米/帕）。由于大多数变形金刚需要迁移学习，因此问题是：从零开始训练时，他们能否保持良好表现？为此，我们进一步研究了Transformer和混合模型在未预训练的情况下的性能，详见表4。有趣的是，没有预训练，Transformers和混合模型在ConvNets上表现不佳。具体来说，ViT-LLaMa和混合模型（FIRe和ACIR）的性能分别下降了近34%和9%，而ConvNets仅下降了约5%。这表明变换金刚和混合模型更依赖海量数据或预训练权重。如果没有预训练，这些模型可能会被困在局部最优状态，并表现出收敛缓慢。知识整合。表2的结果表明，知识巩固在表征学习中对于检索模型非常重要。通过整合全球精细化特征（混合*）和多层表示（DaRF），检索性能显著提升，分别相较CNN和ViT提升了2.3%和6%的mAP。

分布外估计表现。我们使用t-SNE（Van der Maaten 和 Hinton，2008）来可视化来自顶尖模型（FIRe、CSQ和ACIR）的哈希嵌入分布。t-SNE的特征来源于最后一层之前的表示（ACIR用KAN，FIRe和CSQ用线性）。ACIR展现了强大的稳健性，并实现了最先进的性能。其类别群更整洁干净，大多数值班样本均被成功识别（见图4）。相比之下，FIRe和CSQ的OOD样本紧密聚集在已知类别周围，表明缺乏知识整合的模型在提取可区分特征方面能力较弱。此外，FIRe和CSQ的类别分布更为分散，呈拉长形状。相比之下，ACIR的类别分布呈现出更为紧凑的聚类，表明合并后的特征比对照特征更易区分。此外，不同类别特征被混合使用（见放大窗口），用于FIRe和CSQ，显示出对OOD样本的处理能力较差且特征表示准确率较低。尽管ACIR在识别离职样本方面能力强，但错误地将部分样本归类为离职。有趣的是，这些样本中的大多数要么标注错误，要么质量不佳，或者存在令人困惑的模式或性状（见图5），这显示了ACIR对异常现象的韧性。相比之下，CSQ的错误预测包括图5（右）中的展示，归因于其在识别户外样本方面的性能相似（见表3）。与ACIR相反，CSQ错误预测的OOD样本缺乏特定特征，且未检测到低质量样本。上限性能。虽然某些模型通过增加哈希比特数量获得更好的性能，但过长的哈希比特可能导致性能下降。特别是DBDH、DCH、DSDH和ATH等型号在16位时表现优于8位。另外，像DPN、FIRe和MTH等模型在64位时达到最佳性能，但当哈希长度增加到128位时，准确率明显下降。此外，QSMIH、ViT-LLaMa以及新提出的ACIR也展示了进一步增强的潜力。因此，我们对这三种模型进行了额外的实验以确定他们的最大能力。结果很有趣，三款模型在256位时均有显著提升，而512位时的趋势则各异。这表明通过这些方法生成的稀疏哈希码能够保留更详细的信息。此外，这也引发了一个新的潜在研究问题："考虑到硬件的快速进步和存储技术的持续更新，是否仍然需要将数据压缩成紧凑的哈希码？"（见表5）排名取回。从检索结果中选出前三名相似和不同样本，并按数据库样本哈希码与查询图像之间的汉明距离排序。我们评估了三种方法：ACIR、CSQ（RadIN-CT第二名模型）和ViT-LLaMa（BPS第二名模型），以探讨不同方法的排名检索性能。对于每个比较，均列出查询图像中前三名相似和不相似样本（见图6）。ACIR的检索结果基于相似性得出良好，而CSQ和ViT-LLaMa的结果则存在混淆。例如，通过查询图像描绘肾脏病理，ACIR能够高效识别具有相似模式的图像。相比之下，CSQ和ViT-LLaMa均未能准确根据图像内容排序检索结果。此外，这两个模型检索到的最相似样本与查询图像相比，视觉上存在显著差异。为了进一步探讨不同模型对过度集中化问题的能力，我们计算了在不同决策边界（不同汉明球半径）下，前四方法的准确性、精度和召回率。理想情况下，能够解决过度集中问题的稳健模型应当同时展示随着汉明球（决策边界）半径R的扩大，精度和回忆力同时提升。或者，它可能表现出稳定或略微降低的精度，同时回忆率有所提升。相比之下，过度集中化的模型往往将大部分样本集中在聚类中心附近。因此，增加决策边界R对召回的影响有限，因为大多数样本已在核心区域内。从表6可以看出，当R = 0时，CSQ表现显著良好。然而，一旦决策边界R（半径）从0增加到1，CSQ的精度和召回率仅有适度提升，显示出过度集中化的倾向。具体来说，CSQ会将同一类别内的样本过于紧密地围绕单个中心点排列;因此，当决策边界从R=0放宽到R=1时，CSQ未能扩大对合理分散样本的覆盖范围。相比之下，ViT-LLama、FIRe 和 ACIR 在 RRR 从0提升到1时，回忆率显著提升，表明它们对过度集中化问题更具韧性。其中，ACIR在广泛的半径范围内，它以持续更高的准确率和召回率脱颖而出。这表明ACIR的建模方法更能反映样本的实际分布。由于"类中心"是通过平均属于某类的所有哈希码来定义的，过于依赖紧密的重心（如CSQ所做的）可能在R = 0时带来短期收益，但会忽略样本在类别内的自然扩散。相比之下，ACIR即使半径扩大，仍保持高性能，包含更多正确属于各类别的样本。因此，ACIR不仅实现了强的准确性和召回率，还展示了对过度集中化的能力。计算成本与推理效率。除了准确性外，深度学习模型的一个主要关注点是计算成本和推理效率。这里我们报告了前四种方法（包括CSQ、ViT-LLaMa、FIRe和ACIR）的FLOP（浮点操作）、#Param（可训练参数数量）和推断时间，如表7所示（比特配置仅影响模型的最后一层，因此这些模型的计算成本相似）。结果表明，尽管拟议的ACIR实现了最先进的性能，但其效率低于CSQ和FIRe。然而，ACIR的优越性能表明，尽管ACIR相对复杂，但其性能潜力更大，且上限更高。这正是临床应用所需的。此外，ViT-LLaMa在效率和性能方面均排名第四，显示其产能相较其他顶级方案相对较弱。图像检索与数据协调。数据协调指的是消除多中心数据集的非生物偏见（Nan 等，2022a;Schmidt 等，2020），而图像检索作为前置步骤起着至关重要的作用。有效的数据协调对于实现AI模型的全部潜力至关重要，尤其是在多中心研究中，数据不一致会显著阻碍模型表现。理想情况下，具有相似内容/目标的数据应当协调一致，以确保同一类别的样本被分配到同一分布中。例如，在某些跨学科领域，研究人员利用合成模型对应跨模态数据，以消除空间-光谱差异（Sun 等，2021）。通过基于内容的检索，可以实现基于内容的协调，识别并调整这些差异，确保后续任务更准确可靠。通过改进模型处理多样化数据集的方式，我们可以促进医学界更广泛的协作，加快发现和创新的步伐。局限性与未来研究方向。在图像检索中，评估通常依赖于计算诸如mAP等指标。这些指标非常适合可以通过类标签直接评估检索相关性的场景。然而，在基于内容的图像推荐语境中，单靠类别标签不足以判断内容相似性，因为推荐任务强调感知或结构上的相似性，而非类别匹配。因此，需要一种新的评估指标，不仅衡量检索准确性，还能评估内容相似度。该指标应包含视觉相似性、语义一致性和结构一致性等因素以反映图像推荐的细腻性质。开发这样的评估框架将使人们更全面地理解系统识别内容相关图片的能力，弥合传统检索指标与内容推荐系统需求之间的差距。除了需要进一步训练的监督方法外，无监督方法也提供了有前景的替代方案，尤其是在注释数据有限或不可得的情况下（Sun 等，2022;Nan 等，2022b）。然而，关于无监督算法的稳定性和可重复性，以及它们能否持续弥合感知相似性与语义内容之间的差距，仍存在挑战。

总结

本文介绍了一种创新且有韧性的图像推荐系统，基于内容相似度产生有序检索结果。建议的ACIR通过深度感知表征融合和结构感知对比哈希，创造性地将层级知识整合为混合表示。OOD检测模型显著提升了模型的检索能力，尤其是在非分发查询样本中。大量实验表明，ACIR在病理和放射数据集的基于上下文检索和OOD识别方面实现了最先进的性能。结果表明ACIR是一种有前景且适应性强的解决方案，适用于各种成像环境中的实际图像检索应用。