深度学习论文:Local Feature Matching Using Deep Learning: A Survey

深度学习论文: Local Feature Matching Using Deep Learning: A Survey

Local Feature Matching Using Deep Learning: A Survey

1 概述

近年来，深度学习模型的引入引发了对局部特征匹配技术的广泛探索。本文旨在全面概述局部特征匹配方法。这些方法根据是否使用检测器分为两大类。基于检测器的方法包括"先检测后描述"、联合检测与描述、"先描述后检测"以及基于图的技术。相比之下，无检测器的方法则包括基于CNN、基于Transformer和基于Patch的方法。

下图展示了局部特征匹配方法的代表性时间线

本文对局部特征匹配方法的划分

2 Detector-based Models

各种基于检测器的、用于可训练局部特征匹配的显著方法的比较。

2-1 Detect-then-Describe

在特征匹配中，稀疏到稀疏的匹配方法很常见。它遵循"先检测后描述"的步骤，先检测关键点位置，再提取特征描述符。这些描述符通过度量学习方法训练，使相似点在特征空间中接近，不相似点远离。为提高效率，检测器常关注图像小区域，强调低层次结构。而描述符则捕捉更大区域内更高级别的信息，为匹配提供详尽特征。

2-1-1 Fully-Supervised

局部特征匹配领域经历了显著变革，主要得益于标注数据集和深度学习技术的结合。这一变革使得从手工特征方法转向更多依赖数据的方法，改变了特征匹配的格局。卷积神经网络（CNNs）在描述符学习过程中起到了革命性作用，允许从原始局部补丁直接进行端到端学习，构建局部特征的层次结构。

L2Net[80]：引入了渐进式采样策略，强调描述符之间的相对距离，对中间特征图施加额外监督，推动了鲁棒描述符的发展。
OriNet[81]：使用CNNs为图像中的特征点分配规范方向，采用孪生网络训练方法，提出GHH激活函数，提升了特征描述符的性能。
HardNet[83]：简化学习过程，专注于度量学习，无需辅助损失项。
DOAP[84]：采用学习排序公式，优化局部特征描述符以进行最近邻匹配。
KSP[85]：引入子空间池化方法，利用CNNs学习不变和有区别性的描述符。
DeepBit[86]：提供无监督框架学习紧凑二进制描述符。
Bingan[87]：使用GANs学习紧凑二进制图像描述符。
GLAD[88]：针对个人重新识别任务，结合局部和全局人体线索。
Geodesc[89]：整合SfM算法的几何约束，使用几何相似性损失函数，提高3D重建任务中的描述符效果。
GIFT[90] 和 COLD[91]：分别利用组卷积和多级特征蒸馏网络架构，提取鲁棒的局部描述符。
SOSNet[92]：在HardNet基础上引入二阶相似性正则化项，提升描述符学习的性能。
Ebel等人[93]：基于对数极坐标采样方案，实现尺度不变性。
HyNet[94]：引入混合相似性度量和正则化项，优化损失函数。
CNDesc[95]：探索L2归一化，使用交叉归一化技术。
Key.Net[96]：结合手工和学习的特征，使用尺度空间表示提取关键点。
ALIKE[97]：提供可微关键点检测模块，优化关键点位置。
ZippyPoint[98]：基于KP2D，引入加速提取和匹配技术。
ContextDesc[100] 和 MTLDesc[101]：引入上下文感知，改进局部特征描述符。
AWDesc[102]：从大型复杂模型转移知识到小型简单模型，平衡准确性和速度。
RIFT[104] 和 SRIFT[106]：基于频域的特征描述符，改善跨模态图像匹配。
SemLA[107]：在图像融合任务中使用语义引导的特征匹配。

这些方法展示了局部特征匹配领域从传统手工特征到数据驱动方法的转变，以及深度学习技术如何推动这一领域的创新和发展。

2-1-2 Weakly Supervised and Others

弱监督学习为模型提供了学习鲁棒特征的机会，而无需依赖密集标注的标签，这为训练深度学习模型中最大的挑战之一提供了解决方案。已经出现了几种利用从相机姿态轻松获取的几何信息的弱监督局部特征学习方法。

AffNet [108] 是弱监督局部特征学习的关键进步，专注于学习局部特征的仿射形状。这种方法挑战了对几何重复性的常规强调，表明这不足以进行可靠的特征匹配，并强调了基于描述符的学习的重要性。AffNet引入了一个硬负常数损失函数，以提高仿射区域的匹配性和几何精度。这已被证明在增强仿射共变检测器的性能方面非常有效，特别是在宽基线匹配和图像检索方面。该方法强调了在开发更有效的局部特征检测器时，需要同时考虑描述符的匹配性和重复性。
GLAMpoints [109] 提出了一种半监督关键点检测方法，创造性地从强化学习的损失公式中汲取洞见。在这里，奖励被用来根据最终对齐的质量计算检测关键点的重要性。这种方法已被注意到对最终图像的匹配和配准质量有显著影响。
CAPS [110] 引入了一个弱监督学习框架，该框架利用成对图像之间的相对相机姿态来学习特征描述符。通过使用极线几何约束作为监督信号，他们设计了可微匹配层和粗到细架构，从而生成了密集描述符。
DISK [111] 最大化了强化学习将弱监督学习整合到端到端基于检测器的流水线中的潜力，使用策略梯度。这种将弱监督与强化学习整合的方法可以提供更鲁棒的学习信号并实现有效的优化。
$112\] 提出了一种群组对齐方法，利用群组等变CNN的强大功能。这些CNN在提取具有辨别性的旋转不变局部描述符方面非常高效。作者使用自监督损失以获得更好的方向估计和高效的局部描述符提取。$

联合检测与描述方法旨在解决稀疏局部特征匹配在极端环境变化下性能下降的问题，这通常受限于关键点检测器和局部描述符的局限性。传统关键点检测依赖低级信息，易受光照、天气影响。即便单独优化检测器或描述符，集成到匹配流程中也可能导致信息不一致。为此，联合方法整合了检测与描述任务，通过CNN实现深层特征映射，从而融合两任务信息，提升性能。这种方法允许检测与描述过程受图像高级特征影响，增强匹配的准确性和鲁棒性。

基于图像的描述符方法取得了显著进展，这些方法将整个图像作为输入，并利用全卷积神经网络生成密集描述符。这些方法通常将检测和描述过程结合起来，从而在两个任务中都提高了性能。

SuperPoint[61]：采用自监督方法同时确定关键点位置和它们的描述符。模型首先在合成形状和图像上进行训练，然后使用真实图像进行自注释过程，以提高模型对现实世界图像的相关性。
LF-Net[117]：受Q-learning启发，使用现有的SfM模型预测匹配图像对之间的几何关系，如相对深度和相机姿态。
RF-Net[118]：引入基于感受野的关键点检测器，并设计了一个通用的损失函数项，称为"邻居掩码"，以促进补丁选择的训练。
Reinforced SP[119]：采用强化学习原理处理关键点选择和描述匹配中的离散性。
R2D2[63]：结合网格峰值检测和描述符的可靠性预测，使用L2-Net架构的密集版本。
D2Net[62]：采用联合检测和描述方法进行稀疏特征提取，与SuperPoint不同，它在检测和描述过程中共享所有参数。
RoRD[120]：提出了一个双头D2Net模型，结合普通和旋转鲁棒特征对应，以解决极端视点变化。
HDD-Net[121]：设计了一个可交互学习的特征检测器和描述符融合网络，独立处理检测器和描述符组件，并关注学习过程中的相互作用。
MLIFeat[122]：设计了两个轻量级模块，用于关键点检测和描述符生成，利用多级信息融合联合检测关键点和提取描述符。
LLF[123]：提出使用低级特征监督关键点检测，并将其与描述符共同学习以最大化描述符匹配。
FeatureBooster[124]：在传统特征匹配流程中引入描述符增强阶段，建立了一个通用轻量级描述符增强框架。
ASLFeat[126]：使用多级特征图上的通道和空间峰值改进D2Net，引入精确检测器和不变描述符。
密集预测框架：采用可变形卷积网络（DCN）减轻由低分辨率特征图提取关键点引起的限制。
SeLF[127]：基于ASLFeat架构，利用预训练的语义分割网络中的语义信息，学习语义感知特征映射。
SFD2[128]：提出从全局区域提取可靠特征，同时通过隐式嵌入高级语义来抑制不可靠区域。

这些技术展示了在不同成像条件下，通过统一模型整合检测和描述任务，如何实现更高效的学习和局部特征提取的卓越性能。

2-3 Describe-then-Detect

局部特征提取的一种常见方法是"先描述再检测"（Describe-then-Detect）流程，首先使用特征描述符描述局部图像区域，然后基于这些描述符检测关键点。

D2D[129] 提出了一个名为"描述到检测"（Describe-to-Detect，D2D）的关键点检测新框架，强调了特征描述阶段固有的丰富信息。该框架涉及生成大量密集特征描述符的集合，然后从这个数据集中选择关键点。D2D引入了局部深度特征图的相对和绝对显著性测量来定义关键点。
PoSFeat[130] 针对弱监督局部特征学习，提出了一种特别设计的解耦训练方法，用于"先描述再检测"流程。这种方法将描述网络与检测网络分开，利用相机姿态信息进行描述符学习，从而提高性能。通过一种新颖的搜索策略，描述符学习过程更加熟练地利用相机姿态信息。
ReDFeat[131] 使用一种相互加权策略，结合多模态特征学习的检测和描述方面。
SCFeat[132] 提出了一种用于弱监督局部特征学习的共享耦合桥接策略。通过共享耦合桥和交叉归一化层，框架确保了描述网络和检测网络的独立、最优训练。这种分离增强了描述符的鲁棒性和整体性能。

这些方法展示了在局部特征提取中，如何通过不同的策略和框架来提高关键点检测和描述符学习的效率和准确性。

2-4 Graph Based

在传统的特征匹配流程中，通过特征描述符的最近邻（NN）搜索建立对应关系，并根据匹配分数或相互NN验证来消除异常值。最近，基于注意力的图神经网络（GNNs）已成为获取局部特征匹配的有效手段。这些方法创建以关键点为节点的GNN，并利用自注意力层和来自Transformer的交叉注意力层在节点间交换全局视觉和几何信息。这种交换克服了仅使用局部化特征描述符所带来的挑战。最终结果是根据软分配矩阵生成匹配。

SuperGlue[69] 采用注意力图神经网络和最优传输方法来解决部分分配问题。它处理两组兴趣点及其描述符作为输入，并利用自注意力和交叉注意力在两组描述符之间交换消息。这种方法的复杂性随着关键点数量的增加而呈二次方增长，这促使后续工作进行进一步探索。
SGMNet[70] 在SuperGlue的基础上增加了一个种子模块，该模块仅处理一小部分匹配点作为种子。放弃了全连接图，转而使用稀疏连接图。然后设计了一个带有注意力机制的种子图神经网络来聚合信息。关键点通常只与少数几个点表现出强相关性，因此大多数关键点的邻接矩阵连接稀疏。
ClusterGNN[71] 利用图节点聚类算法将图中的节点划分为多个簇。这种策略应用了带有聚类的注意力GNN层来学习两组关键点及其相关描述符之间的特征匹配，从而训练子图以减少冗余信息传播。
MaKeGNN[134] 在稀疏注意力GNN架构中引入了双边上下文感知采样和关键点辅助上下文聚合。
GlueStick[135] 受SuperGlue启发，将点和线描述符纳入一个联合框架进行联合匹配，并利用点对点关系将匹配图像中的线连接起来。
LightGlue[136] 为了使SuperGlue适应计算复杂性，提出了根据每对图像之间的匹配难度动态改变网络深度和宽度的方法。它设计了一个轻量级置信度分类器来预测和完善状态分配。
DenseGAP[137] 设计了一个利用锚点作为图像间和图像内上下文的稀疏但可靠的先验的图结构。它通过有向边将这些信息传播到所有图像点。
HTMatch[138] 和 Paraformer[139] 研究了注意力在交互混合中的应用，并探索了在效率和效果之间取得平衡的架构。
ResMatch[140] 提出了特征匹配中残差注意力学习的思想，将自注意力和交叉注意力重新表述为相对位置参考和描述符相似性的学习残差函数。它旨在通过经验手段弥合可解释匹配和过滤流程与基于注意力的特征匹配网络之间的鸿沟，后者天生具有不确定性。

这些方法展示了如何通过注意力机制和图神经网络来提高局部特征匹配的效率和准确性，尤其是在处理具有挑战性的视觉匹配任务时。

3 Detector-free Models

尽管特征检测能够缩小匹配的搜索范围，但在处理极端情况（如大量视点变化或涉及无纹理区域的图像对）时，基于检测的方法仍面临挑战，即便有出色的描述符和匹配技术。与之相对，无检测器方法避免了特征检测器的使用，直接在图像的密集网格上提取视觉描述符，实现密集匹配。因此，与基于检测的方法相比，这些技术更能捕捉图像对中可重复的关键点。

3-1 CNN Based

在早期阶段，无检测匹配方法常常依赖于使用相关性或代价体来识别潜在的邻域一致性的CNN。

NCNet[64]：分析图像对应点的四维空间邻域一致性，无需全球几何模型。
Sparse-NCNet[65]：使用稀疏相关张量上的4D CNN，减少内存和时间消耗。
DualRC-Net[66]：以粗到细的方式建立图像间的密集像素级对应关系。
GLU-Net[67]：适用于几何匹配、语义匹配和光流的全局-局部通用网络。
GOCor[142]：完全可微的密集匹配模块，预测深度特征图间的全局优化匹配置信度。
PDCNet[68]：概率深度网络，估计图像间对应关系及其置信度。

3-2 Transformer Based

CNN的密集特征接收场在处理低纹理区域或区分具有相似特征表示的关键点时可能存在局限性。相比之下，人类在这些区域匹配时倾向于同时考虑局部和全局信息。鉴于Transformer在计算机视觉任务中的成功，研究人员已经探索将Transformer的全局接收场和长期依赖性融入局部特征匹配。出现了各种将Transformer集成到局部特征匹配的特征提取网络的方法。

COTR[154]：结合稀疏匹配和密集匹配的优势，使用自注意力联合学习两幅图像。
ECO-TR[155]：端到端模型，加速COTR，智能连接多个Transformer块。
LoFTR[72]：创建GNN，使用自注意力和互注意力层获取特征描述符，生成低纹理区域的密集匹配。
Aspanformer[73]：基于流预测的概率建模，自适应变化局部注意力范围。
SE2-LoFTR[156]：改进LoFTR模型，使其对平移和旋转具有等变性。

3-3 Patch Based

基于补丁的匹配方法通过匹配局部图像区域来增强点对应关系。它将图像划分为补丁，提取每个补丁的描述符向量，然后匹配这些向量以建立对应关系。该技术适应大范围位移，并在各种计算机视觉应用中很有价值。

Patch2Pix[169]：弱监督方法，学习与极端几何变换一致的对应关系。
AdaMatcher[170]：解决补丁级匹配中的几何不一致问题，自适应分配匹配并估计图像间比例。
PATS[171]：自监督学习比例差异，处理多对多关系。
SGAM[172]：分层特征匹配框架，先进行区域匹配，再通过几何一致性细化为点匹配。

下图展示了多个流行的深度学习模型在局部图像匹配任务中的性能表现。