Towards Generalizable Scene Change Detection

Abstract

尽管当前最先进的场景变化检测（SCD）方法在训练充分的研究数据上取得了显著成果，但在未见环境和不同时间条件下却变得不可靠------域内性能在先前未见环境中从77.6%降至8.0%，在不同时间条件下则降至4.6%------这迫切呼唤具有泛化能力的SCD方法及其基准。为此，我们提出泛化场景变化检测框架（GeSCF），旨在解决未知域性能与时间一致性问题，以满足日益增长的任意场景变化检测需求。该方法以零样本方式利用预训练的Segment Anything Model（SAM）。我们设计了初始伪掩码生成与几何-语义掩码匹配模块，将用户引导的提示与单图分割无缝转化为无需引导的输入图像对场景变化检测。此外，我们定义了泛化场景变化检测（GeSCD）基准，并引入新指标与评估协议，以推动SCD泛化性研究。在此过程中，我们发布了ChangeVPR数据集，该数据集包含具有多样环境场景（涵盖城市、郊区和乡村）的挑战性图像对。跨多种数据集的广泛实验表明，GeSCF在现有SCD数据集上实现了19.2%的平均性能提升，在ChangeVPR数据集上实现了30.0%的提升，性能近乎达到先前最优方法的两倍。我们相信，本工作将为鲁棒且泛化的SCD研究奠定坚实基础。

1. Introduction

场景变化检测（SCD） $37$ 是一项关键技术，可广泛应用于视觉监控 $54$ 、异常检测 $20$ 、移动机器人 $31$ 及自动驾驶汽车 $21$ 等领域。该技术能够在光照变化、季节更替和天气条件等挑战下，准确识别场景中跨时间步长的显著变化，这对系统效能与可靠性具有决定性影响。

近年来， SCD 模型通过利用深度特征 $3,48$ 和改进模型架构 $11,35,44,50$ 取得了显著提升。然而，这一进展引发了一个根本性问题："这些模型能否检测超出研究数据范围的任意现实场景变化？"如图1所示，我们的研究结果表明，其宣称的效能在实际应用中并不成立。具体而言，当输入顺序被颠倒时，模型生成的变化掩码存在不一致性；当部署到具有不同视觉特征的未知领域时，性能会出现显著下降。究其原因，当前 SCD 方法过度依赖训练数据集------这些数据集通常规模有限 $3,42$ 、覆盖范围稀疏 $3,42,44$ ，且由于高昂的变更标注成本，数据集主要由合成数据构成 $25,34,35$ 。

为应对这些挑战，我们提出通用场景变化检测框架（GeSCF），这是首个零样本场景变化检测方法，能够不受时间输入顺序和环境条件影响实现鲁棒性检测。我们的方法基于Segment Anything Model（SAM） $23$ ------这一开创性视觉基础模型在图像分割领域具有重要地位。虽然SAM在单图像内任意对象分割方面表现优异，但引导SAM识别并分割两幅输入图像间的差异仍面临重大挑战。这种困难源于SAM专为可提示交互式分割设计，依赖用户引导提示和单图像输入，而场景变化检测需要处理图像对以识别差异。为弥合这一差距，我们提出两项创新：初始伪掩码生成与几何-语义掩码匹配。通过分析SAM特征空间的局部语义特征，我们实现了像素级变化候选对象的二值化处理且无需额外成本。此外，我们利用SAM类别无关掩码的几何特性及掩码嵌入语义特征来优化最终变化掩码------同时整合了对象级信息。

此外，我们通过开发新的评估指标和评估协议，引入了泛化场景变化检测（GeSCD）基准，以促进SCD在泛化性方面的研究；大多数传统SCD方法分别聚焦于单个基准，而非针对未知域和时间一致性的泛化能力。我们相信，在各类具有强大零样本能力的任意模型蓬勃发展的时代，GeSCD能够满足开发任意场景变化检测日益增长的需求。具体而言，我们的GeSCD通过广泛的跨域评估来严格测试方法在多样环境中的泛化能力，并对时间一致性进行定量评估。这种双管齐下的评估策略不仅确保了方法的鲁棒性与可靠性，也为SCD领域树立了新的基准。在设计GeSCD的过程中，我们收集了ChangeVPR数据集，该数据集包含来自三个著名视觉位置识别（VPR）数据集的精心标注图像。这一综合数据集涵盖了城市、郊区和乡村环境，且图像均处于具有挑战性的条件下，显著拓展了传统SCD领域的范围。

综上所述，我们的贡献如下：

**1. Problem Formulation.**我们提出GeSCD，一种场景变化检测中的创新任务框架。据我们所知，这是 SCD 研究中首个全面解决泛化问题与时间一致性问题的研究。

**2. Model Design.**为解决GeSCD任务，我们提出GeSCF------首个零样本场景变化检测模型。GeSCF展现出完整的时间一致性，并在与训练数据集紧密耦合的先前 SCD 模型基础上展现出更强的泛化能力，我们的模型在未见领域实现了显著的性能提升。

**3. Benchmark Set up.**我们提出新的评估指标、ChangeVPR数据集以及一种能有效衡量 SCD 模型泛化能力的评估方案。这些成果为该领域未来研究提供了坚实基础，为后续研究提供指导与启发。

**Segment Anything Model.**Segment Anything Model (SAM) $23$ 为图像分割树立了新的标准，并在多个计算机视觉领域取得了显著进展：医学影像 $63$ 、伪装目标检测 $46$ 、显著性目标检测 $27$ 、图像修复 $61$ 、图像编辑 $56$ 以及视频目标跟踪 $58$ 。通过利用点或边界框等几何提示，SAM 在多样化的分割任务和未见过的图像分布上展现出了卓越的零样本迁移能力。尽管 SAM 展现了令人印象深刻的能力，但其在零样本场景变化检测方面的潜力仍未得到充分探索。在本工作中，我们通过引入一种新颖的、无需训练的方法来扩展 SAM 的用途，使其能够超越单图像分割，引导 SAM 检测一对自然图像之间的变化。

**Change Detection.**在变化检测（Change Detection, CD）领域，根据数据特征的不同，研究大致可分为三个方向：遥感变化检测、视频序列变化检测以及自然场景变化检测------后者也是本工作的研究重点。遥感变化检测 $5--7, 10, 19, 32, 41$ 利用卫星或航空平台获取的数据来检测地表随时间的变化，从高空视角观察城市化、森林砍伐和灾害破坏等现象。此外，视频序列变化检测侧重于将视频帧分割为前景和背景区域，通常对应于运动目标 $2, 28$ 。与上述两种变化检测不同，自然场景变化检测旨在从地面视角检测局部变化，例如车辆移动 $3$ 、行人移动 $44$ 、物体的出现与消失 $3, 42, 44$ ，以及显著背景变化，如建筑物的建造或拆除 $42, 44$ 。此外，由于数据采集的特殊性，图像通常由安装在移动车辆或机器人上的相机拍摄，因此该任务本质上涉及图像对的未对齐和噪声问题 $26$ 。综上所述，本工作聚焦于自然场景变化检测 $3, 11, 25, 35, 43, 44, 48, 50$ ；在本文的其余部分，我们将自然场景变化检测简称为 SCD。

**Scene Change Detection (SCD).**在现有的 SCD 基准测试中，大多数方法采用监督学习 $3,11,35,43,44,48,50$ 或半监督学习 $25$ ，且在特定训练数据集上经过深度优化与评估，导致泛化能力较弱。尽管已有研究提出自监督预训练策略 $39$ 或利用时间对称性 $50$ ，但在应用于未见数据时仍存在显著性能差距。此外，对称结构依赖于领域特定的先验知识，若缺乏适当的归纳偏置，该架构在未知领域中难以实际应用。相比之下，我们的GeSCF框架具有统一性且无需训练即可在未见数据上展现稳健性能，同时在所有场景下均保持对称架构特性。

**Segment Anything with Change Detection.**先前的研究主要采用参数高效微调（PEFT）策略将自适应多模态学习（SAM）应用于遥感分类任务 $57$ 。例如，多项研究利用了带有可学习适配器的SAM变体 $62,64$ $57$ ，通过微调适配器网络和针对特定数据集定制的变化解码器 $13,29$ 。与这些方法不同，我们的方法是 SCD 首个完整的SAM集成框架，通过利用SAM的内部副产品，在无需任何指导和可学习参数的情况下有效实现变化候选对象的二值化处理。此外，我们进一步挖掘了SAM类别识别掩码中蕴含的宝贵先验信息 $1,12,18,56,61$ ，首次实现了跨领域稳健的零样本 SCD 。

3. GeSCF

3.1. Motivation and Overview

尽管网络规模的数据 $8, 33, 36$ 非常丰富，并且各种零样本泛化模型 $22, 23, 60$ 也已出现，但由于变化标注的成本高昂 $65$ ，当前的 SCD 仍然受困于数据集方面的局限。因此，我们的研究动机源于如何让 SCD 从像 SAM 这样近期出现的、基于网络规模数据训练的模型中受益。通过解决这一问题，我们旨在克服构建泛化性 SCD 模型这一长期存在的障碍，最终提出了我们的 GeSCF 模型。

图2展示了GeSCF流程的概览。GeSCF通过两个关键阶段------初始伪掩码生成和几何-语义掩码匹配------来处理专为单图像输入、可提示交互式分割而设计的SAM与用于识别图像对变化的目标SCD之间的技术差距。首先，我们从图像编码器中截取并关联特征面（包括查询、键和值），以获取丰富的多头相似性图；然后，通过基于偏度算法的自适应阈值对低相似度像素进行处理，将这些相似性图转换为二值伪掩码。最后，我们利用SAM类别无关掩码的几何属性对伪掩码进行精细化处理；随后，通过比较双时相图像中对应掩码嵌入的语义相似性来进一步验证这些掩码，确保检测到的变化具有意义且在上下文上准确。

3.2. Preliminary

由于我们的GeSCF利用了从SAM图像编码器截取的一组图像特征，我们首先回顾此类特征的获取方式。

Feature Facets. SAM 的图像编码器采用了 Vision Transformer (ViT) 架构 $15$ ，每个 ViT 模块内部包含多头自注意力层和多层感知机 $15, 49$ 。在第个 ViT 模块的多头自注意力层中，查询、键和值特征面表示为，其中 $ N $、$ H $、$ W $ 和 $ C $ 分别表示头的数量以及特征面的高度、宽度和通道维度。

Image Embedding and Mask Embedding. 类似地，我们从第个 ViT 模块的最终多层感知机层提取图像嵌入。此外，给定图像嵌入和任意二值掩码，我们通过对所有二值掩码非零的空间位置上的图像嵌入进行平均，计算得到掩码嵌入，从而获得被掩码图像区域的单一向量表示。

3.3. Initial Pseudo-mask Generation

如文献 $23$ 所示，SAM 在相同自然场景内的掩码嵌入之间保持了语义相似性。此外，正如先前研究 $4, 9$ 所观察到的，注意力图能够捕捉图像中具有语义意义的目标。基于这些基础性见解，我们扩展了 SAM 特征空间的利用方式，将其应用扩展到双时相图像，并利用来自不同层的多头特征面，而非仅依赖于单图像嵌入 $23$ 。

**特征面与层选择。**如图3所示，SAM特征面的相似性图能够有效地突显语义变化，同时相对不受季节或光照差异等视觉变化的影响。具体而言，我们的特征选择策略遵循以下原则：(a) 与其他视觉变化相比，语义变化应在相似性图中显著呈现；(b) 变化区域的相似性值应与周围区域形成清晰对比；(c) 未变化区域中的伪影应最小化或呈现得较为微弱。我们通过实验观察到，所有特征面均满足原则 (a)；然而，原则 (b) 和 (c) 在使用键（或查询）特征面时比使用值特征面时更为明显。此外，我们发现这些原则在中间层中比在初始层或最后层中更为显著。因此，我们采用中间层键特征面的相似性图，作为伪掩码生成后续步骤的输入。详细的定量分析请参见补充材料。

因此，将相似性图二值化的一个关键因素是相似性分布的偏度（γ） $38$ （见图4）。对于右偏分布，其中大多数像素呈现较低的相似性得分，并伴有高得分的长尾，需要较低的阈值来捕获分布中较大部分作为变化区域。相反，对于左偏分布，其中大多数得分较高，仅有一小部分低得分的尾部，则需要较高的阈值以避免误报。为此，我们提出了一种基于分布偏度进行动态调整的自适应阈值函数，从而实现更精确且对上下文敏感的伪掩码生成方法，具体公式如下：