原文标题:Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection
中文标题:多源域自适应目标检测中的目标相关知识保存
论文地址: https://arxiv.org/pdf/2204.07964
代码地址:无官方实现?我有点纳闷难道顶会不公布代码的吗
这篇文章是由北京航空航天大学、中科院深圳先进研究院、商汤科技研究院等机构发布的。
1 、摘要
领域自适应目标检测(DAOD)是一种很有前途的方法,可以缓解检测器在新场景下的性能下降。尽管在单源域适应方面做出了巨大努力,但由于组合过程中的知识退化,具有多个源域的更通用的任务仍未得到很好的探索。为了解决这个问题,作者提出了一种新的无监督多源DAOD方法,即目标相关知识保存(target relevant knowledge preservation,TRKP) 。具体而言,TRKP采用师生框架,构建多头教师网络,从已标记的源域数据中提取知识,引导学生网络学习未标记的目标域的检测器。教师网络进一步配备了对抗多源解纠缠(AMSD)模块,以保留源领域特定知识并同时进行跨领域对齐。此外,提出了一种整体目标相关挖掘(HTRM)方案,根据源域-目标域相关性对源域图像进行重新加权;通过这种方式,教师网络被强制捕获与目标相关的知识,从而有利于减少在目标域中指导目标检测时的领域漂移。在各种广泛使用的基准上进行了广泛的实验,取得了sota效果,突出了有效性。
2 、Introduction
2.1 、跨域自适应目标检测的起源与发展
在过去的十年中,卷积神经网络(CNN)取得了巨大的进步,并在视觉目标检测方面取得了显着的进步。不幸的是,当应用于模型未曾见过的场景时,由于域转移,精心构建的检测器会遭受显着的性能下降。由于对新收集的数据进行标注相当昂贵且耗时,因此域自适应目标检测(DAOD)已受到越来越多的关注。它源于无监督领域自适应(UDA),被证明能有效地将知识从学习领域(称为源域)转移到仅使用用于分类的未标记图像的新领域(称为目标域)。与UDA相比,DAOD更具挑战性,因为它可以同时定位和分类具有域偏移的图像中不同目标的所有实例,它需要生成域不变表示来减少存在复杂前景和背景变化时的差异。
2.2 、跨域自适应目标检测主流的研究方法
已经有很多文献对 DAOD 做出了许多努力,这些方法主要在对抗性特征对齐或半监督学习的范式中解决它。前者通过梯度反转层(gradient reversal layer)混淆的对抗性判别器直接源域和目标域的特征进行对齐,并可在图像级、实例级或类别级实现。后者根据源域训练的模型预测伪标签,并将其作为对目标域的指导,通过加强模型一致性来弥合领域差距。 对于单对源-目标域适应检测,这两种方法都显示出令人满意的DAOD结果。
2.3 、多源域自适应目标检测的方法和局限
多源域自适应(MSDA)被认为是UDA中更实用的场景,因为它假设学习多种源域可以更好地适应目标域。除了源域和目标域之间的差异外,MSDA还处理不同源域之间的差异,以避免负迁移。尽管多源问题在分类中很普遍,但在检测中却很少被研究。据我们所知,最近唯一的尝试是由DMSN给出的;它遵循了MSDA中首先为多个源域分配动态权重进行对齐,然后将复合源域适应于目标域,并说明了不同领域知识对DAOD的必要性。然而,它存在两大局限性:(1)分割和合并的纺锤网络(divide-and-merge spindle network)进行早期对齐;它将来自不同源域的数据分开处理,然后将它们合并;这种早期对齐意味着在合并不同源域的数据之前,就尝试对它们进行某种形式的对齐或调整,以便它们在特征层面更加一致;然而,这样做可能会导致从各个单独源域中学到的领域特定知识的退化,因为不同源域之间存在差异(gaps),在早期对齐时可能会忽略或削弱这些差异。(2)损失记忆库(loss memory bank)通过临时差异衡量源域中与目标相关的知识;损失记忆库是一种机制,它通过比较源域和目标域之间的临时差异来评估源域中与目标域相关的知识;这种方法可能会导致只找到一个局部最优解(local optimum),而不是全局最优解;局部最优解意味着模型可能只在当前的训练阶段表现良好,但可能无法很好地泛化到目标域。
2.4 、本文提出的方法
为了解决上述问题,本研究提出了一种新的多源 DAOD 目标相关知识保存(TRKP)方法,旨在增强来自不同来源域的目标相关知识学习,并减少适应目标域时的领域知识退化。具体来说,TRKP 在师生框架中执行多源 DAOD,构建了多头教师网络来从各个已标记的源域中提取知识,并指导学生网络在未标记的目标域中构建检测器;为了抑制知识退化,教师网络嵌入了对抗性多源解缠(AMSD)模块,以在跨域对齐过程中尽可能地保存相应独立检测头获取的源域特定知识。在此基础上,还提出了一种整体目标相关挖掘(HTRM)方案,根据源域-目标域相关性对源图像进行加权。通过这种方式,教师网络被强制在全局层面捕获和高亮目标相关知识,从而有利于减少领域差异,以便检测器在目标领域适应。在公共基准上进行了广泛的实验,并报告了最新的性能,证明了TRKP的优势。
2.5 、本文贡献
本研究的贡献有三个方面:
1 **)**提出新颖的教师-学生网络结构;用于多源领域自适应目标检测(MSDAOD)。这个网络结构通过使用多头教师结构和对抗性源解耦模块来减轻在对齐过程中目标相关源域知识的退化。这意味着该方法能够更有效地整合来自多个源域的知识,同时减少不同源域之间可能存在的干扰,从而提高模型在目标域上的适应性和性能。
2 **)**提出了一种新的目标相关挖掘过程(target-relevant mining procedure),用于在全局层面上测量源域和目标域之间的相关性。这种方法可以显著增强从不同源域获取与目标域相关的知识。通过在全局层面上评估源域和目标域之间的相似性和差异性,能够更准确地识别和利用对目标域有用的知识,从而提高跨域检测的准确性。
3 **)**在现有研究中取得显著性能提升,并在更复杂的场景中建立良好的基线:研究不仅在现有的评估协议中通过大幅度的性能提升超越了最先进的方法,而且在包含更多源域的更复杂场景中也取得了良好的基线性能。这表明该方法不仅在理论上是有效的,而且在实际应用中也具有很高的实用价值。通过在更复杂的多源领域自适应场景中进行测试,该研究证明了其方法的鲁棒性和适应性。
3 、Related Work
3.1 、Domain Adaptive Object Detection(领域自适应目标检测)
由于经过良好调优的检测器应用在新场景时会出现性能下降,无监督域自适应(UDA)是解决这一困境的有效方法。域自适应目标检测 (DAOD) 通过减少已见场景和未见场景之间的域转移来解决该问题。最近的大多数研究可以分为两类:(1)基于特征对齐的方法,通过对齐检测器中的差异特征来解决域迁移问题;(2)基于半监督学习的方法,直接将UDA描述为半监督学习问题。然而,这些研究都是基于单一源域的假设而设计的,没有涉及多个源域。在这里,我们提出了一种新的基于半监督学习的方法,专门针对多源DAOD。
3.2 、Multi-Source Domain Adaptation(多源域自适应)
对UDA的研究一般集中在单对源域和目标域之间的对齐。多源域适应(MSDA)则考虑了更一般的情况,即有多个源域可用;由于包含更多不同的数据,这有利于模型的泛化能力,但由于源域之间也存在域迁移,因此更具挑战性。有几个早期的研究通过加权源域组合来处理这个问题,以实现与目标域相关的预测,并进行严格的理论分析。最近的尝试在对抗性适应中进行了这一重新加权过程。此外,许多研究的目的是减少多个源域之间的域漂移问题,动态对齐由源域-目标域对和源域对组成的特征分布;与显式特征对齐不同,使用伪标记的目标域样本进行隐式对齐。而以上所有这些方法都侧重于分类,而据我们所知,DMSN是第一个将MSDA引入目标检测的方法;除了一般的DAOD方法外,它还开发了源域之间的特征对齐和伪子网学习,用于源域之间的加权组合。然而,它的特征对齐受到知识退化的限制,其临时域差异度量导致局部最优。相比之下,我们的TRKP旨在保留更多来自不同源域的目标相关知识,以促进多源DAOD。
4 、 Method
4.1 、Framework Overview(框架概述)
1 ) 本节首先描述无监督多源 DAOD 的问题场景,然后概述所提出方法的框架。与一般的 MSDA 任务类似,我们考虑 K 个已知标签的源域 {S1,···, SK} 和一个未标记的目标域 T。对于第k个源域 Sk (k = 1,··· ,K),存在 N Sk 个标记图像 D Sk = {(I Sk i , y Sk i )} NSk i=1 ,其中 I Sk i 表示第k个源域中的第 i 张图像,y Sk i 表示该图像的对应标签(包含了目标类别和bbox的位置);对于目标域T,存在 N T 个未标记图像 D T = {I T i } NT i=1 ,这些图像被简单地表示为 I T i ,因为没有提供标签,所以没有类别信息。在MSDA中,无监督DAOD旨在通过使用所有源域{D Sk }K k=1 ∪ 目标域 D T 的数据,将检测器在源域**{S** k } K k=1中学习到的知识传递到目标域T中,从而训练一个能够在没有标签的目标域上表现良好的目标检测器。
2 ) 为了实现这一目标,本文提出了一种新的方法,即目标相关知识保存(target-relevant knowledge preservation,TRKP)。受到单源 DAOD 中半监督学习成功的启发,TRKP 采用了师生框架,事实证明该框架在知识迁移领域是有效的,并且能有效弥合源域与目标域之间的差距。具体而言,如下图所示,TRKP主要由教师检测器TeDet(·)和学生检测器StDet(·)组成,分别对源域中的检测知识进行编码,并在目标域中进行目标检测。StDet(·)采用与TeDet(·)相同的架构;通常,通过在源域 {D Sk }K k=1 上进行训练教师模型TeDet(·)来编码源域中的知识,并且随后为每个未标记的目标域图像 I T j 生成伪标签 ˆy T j ,该伪标签最终被用来指导学生模型StDet(·),即在**{(** I T j ,ˆy T j )} N T j=1上训练StDet(·)。
3 **)**多源域偏移和源域到目标域的差异都会显著影响多源域对目标域的适应。DMSN 通过采用早期的多源域对齐和本地存储库(local memory bank)来处理这些问题,但这会导致源域中的知识退化,从而只能达到局部最优。为了克服上述问题,作者开发了一个对抗性多源解缠(AMSD)模块以及一个整体目标相关挖掘(HTRM)方案,如下图所示,并进一步纳入师生框架中。AMSD 使得TeDet(·)能够将来自多个源域的知识分开处理,每个源域的知识被独立地学习和提取,并通过对抗性学习来防止它们之间的相互干扰,从而保留每个源域的独特信息。
4 ) HTRM根据源域 {D Sk }K k=1 图像与目标域 D T 图像的相关性对其进行整体加权,进一步促进 TeDet(·)对全局细化的目标相关知识进行编码。
4.2 、Adversarial Multi-Source Disentanglement(对抗性多源解缠,AMSD)
4.2.1 、Knowledge Degradation in MSDA(MSDA 中的知识退化)
目前用于MSDA的方法通常通过多源域组合或对齐来处理领域差异问题。如下图(a)所示,基于组合的方法通过将所有源作为一个整体来弥合源-目标域的差距,而不考虑它们的差异;因此从源域 S1 提取的目标相关知识可能会受到另一个源域 S2 的负面干扰,这种知识退化降低了多源知识转移的质量。相反,如下图(b)所示,基于对齐的方法更注重消除不同源域之间的域迁移,但在没有目标域引导的情况下,可能会导致与目标相关的知识严重丢失,导致另一种知识退化。由于我们的目标是从多个标签丰富的源域中探索与目标域相关的知识,以在未标记的目标域中训练检测器,因此应该减少上述两种知识退化。有几项研究强调异构领域适应或各种领域偏差下的人脸识别中的特定领域知识保存,但并不直接适用于 MSDA。这促使我们提出一种解决方案,该解决方案可以联合保存特定领域的知识,并如下图(c)所示对齐源域和目标域。
4.2.2 、Knowledge Preservation via Disentanglement(通过解纠缠来保存知识)
1 **)**为了缓解知识退化,我们在训练TeDet(·)期间提出了AMSD,下图展示了基于AMSD的整个训练流程,实线箭头表示师生之间的训练,虚线箭头表示解开。(a)教师检测器在解缠的多个源域上进行训练。(b)教师检测器:为目标域的图像生成伪标签。(c)学生检测器采用伪标签进行训练,从而完成多源域自适应。通过对多个源域的特定知识进行编码而不相互干扰。
2 ) 特别是,我们在TeDet(·)中采用了多头结构,其中每个源域Sk都有一个单独的RoI检测头H Sk ( · ) ,但与其他源域共享相同的基础网络G src ( · ) (包括骨干网络和RPN区域提议网络),这种结构被有效证明具有很强的泛化能力。此外,由于多个头部{HSK(·)}对不同的源域具有不同的参数,因此也便于实现多源解缠和知识保存。学生检测器StDet(·)采用与TeDet(·)相同的多头架构,由基础网络G tgt (·) 和检测头H T **(·)**构成。
3 ) 作者通过对抗性学习最小化源域之间的相关性来解耦多源域。 作者没有使用额外的域判别器,而是在不增加模型复杂性的情况下,对源域ROI检测头**{H** SK } 和源域之间的特征施加约束。具体地说,给定来自多个源域的标记图像**{(I** Sk i , y Sk i )} ,由源域基础网络G SRC 提取对应的深层特征,表示为**{** F sk i =G SRC (I Sk i )} 。在特征抽取器G SRC 和检测头**{H** SK } 之间引入梯度反转层(gradient reverse layer)GRL(·) 来实现对抗性学习**。** 在GRL的前向传播中,对于输入特征 F sk i 产生对抗特征 ˆ F sk i =GRL(F sk i );在GRL的反向传播中,输入梯度的符号被简单地反转并乘以系数µ。为了便于从第k个源域S k 中学习特定领域的知识,将第k个检测头H Sk的损失函数定义为:
其中,l[·]是常规检测损失(例如focal loss焦损失和smooth L1 loss平滑L1损失);λ是平衡参数。
从公式(1)中可以观察到,标准检测损耗 l [H Sk ( F sk i )] 利用第k个源域 S k 中的特征训练检测头 H SK ,从而编码第k个源域 S k 中的知识。附加损失 l [H S j (ˆ F sk i )] 使用来自不同源域 S j (j ̸ = i) 的对抗性特征 ˆ F sk i 来衡量真实标签与检测头 H Sj 的预测之间的差异。在反向传播中,ˆ F sk i 通过GRL被反转。因此最小化 l [H S j (ˆ F sk i )] 会增加检测头 H sj 对输入特征 F sk i 的预测误差。换句话说,Eq.(1)中的损失函数 L HSk i 强制检测头 H Sk 从第k个源域 S k 中编码特定领域的知识,同时通过迫使其他检测头H Sj ( j / = i **)**产生不同的预测来迷惑它们。
根据Eq.(1),对教师检测器进行如下训练:
正如在Eq.(2)中优化的那样,每个检测头 H Sk 从其他源域中解脱出来,从而编码特定领域的知识。通过这种方法,可以减轻源域之间的相互干扰,有利于减少知识退化。
4.2.3 、Multi-Source Knowledge Adaptation(多源域知识自适应)
通过AMSD训练教师检测器TeDet(·)后,每个检测头编码的领域特定知识随后通过训练学生检测器StDet(·)适应目标领域。具体地,在给定来自目标域的未标记图像 I T j ,每个检测头 H Sk 分别生成预测 ˆY T , Sk j ,并且取平均(在ROI上进行)ˆY T j =1/K*Σ(ˆY T , Sk j ),ˆY T j 作为最终的伪标签。最后,由TeDet(·)指导学生StDet(·),基于**{(** I T j , ˆy T j )} N T j=1 进行以下优化过程:
在基于Eq.(3)的StDet(·)训练过程中,多源域和目标域完成隐式对齐。然而,用固定的教师检测器TeDet(·)训练学生检测器StDet(·)往往会导致过拟合。指数移动平均(EMA)机制可以通过用StDet(·)的梯度对TeDet(·)的学习进行正则化。因此作者将其应用于框架中,以更有效的方式实现多源域知识适应。
4.3 、Holistic Target-Relevant Mining(整体目标关联挖掘)
1 **)**从Eq.(2)中可以看出,在训练TeDet(·)时,对来自多个源域的图像进行平等处理。由于缺乏目标域的引导,与目标域相关程度较低的图像也会被赋予与目标域相关程度较高的图像相同的重要性,从而降低了知识自适应的质量。以前在 MSDA 中的工作是通过使用专门为分类而设计的分布加权组合来解决这个问题,这并不完全适合于目标检测。DMSN 首次尝试使用动态丢失记忆库(dynamic loss memory bank)来测量源域和目标域之间的差异。然而它只捕获小批量的局部相关性信息,从而导致局部最优解。
2 ) 为了解决上述问题,作者开发了HTRM,通过为每个源域图像 I Sk i 分配与目标域相关的权重 α Sk i 来保证教师检测器能在全局层面编码目标相关知识。首先通过教师源域特征提取器 G SRC (·) 对每个源域图像 I Sk i 提取深度特征 F SK i ;为了避免大量背景的干扰,我们只根据标签 y Sk i 选取位于目标区域的RoI特征,并将这些特征进一步池化为 { f SK i, j } | y Sk i | j=1;通过重复这个过程,最终得到了来自多源域的所有图像的实例级特征集,表示为G:
其中,f SK i, j 表示第 k 个源域 Sk 中第 i 张图像的第 j 个实例(例如,一个对象的边界框)的特征;|y Sk i | 代表第 i 个图像 I Sk i 中带标注信息的边界框数量;f SK i, j 重复**|y** Sk i | 次形成一个集合,这个集合包含了第k个源域中第i张图像的所有实例的特征。Nsk表示第k个源域中的图像总数;K表示源域总数。最里层得到了一个源域内一张图像的所有边界框特征,中间层得到了一个源域内所有图像的所有边界框特征,最外层得到了所有源域的所有图像的边界框特征。
3 **)**类似地,学生检测器通过学生特征提取器Gtgt(·)对目标域中的图像提取特征集,表示为Q:
其中,f T n,m 表示目标域 T 中第 n 张图像的第 m 个实例(例如,一个对象的边界框)的特征。{f T n,m } 大括号表示对于目标域T中的每张图像都提取了所有实例的特征,并将它们组成一个集合。ˆy T n 表示目标域第n张图像的所有伪标签边界框数量**;**NT表示目标域中的图像总数。
4 ) 采用KNN最近邻算法挖掘跨域相关性**{** α Sk i }。挖掘过程主要包括两个步骤:
a)对于目标域的每个特征 f T n,m ∈Q ,算法会在源域特征集 G 中寻找它的 K 个最近邻 ;其中余弦距离作为相似度度量,余弦距离是一种衡量两个向量之间角度差异的方法。
b)对于第K个源域的第i张图像 I Sk i ,它由多源域特征集合 { f SK i, j } | y Sk i | j=1 表示;算法会计算一个频率 W sk i ,该频率是通过统计目标域特征集Q中包含 { f SK i, j } | y Sk i | j=1 中至少一个成员的个数得到的。
W sk i 通过使用来自目标域的整体特征集来计算的,从而在全局视图中挖掘目标相关性。基于频率 W sk i 可以得出每个源域图像与目标域图像的相关性权重α Sk i ;相关性越高的图像在后续的训练中会被赋予更高的权重。基于W sk i 的相关度权重α Sk i计算公式如下:
其中,γ和β控制 α Sk i 的大小;由Eq.(4)可知,当源图像 I Sk i 与目标图像密切相关时,α Sk i 会变大,反之变为0。
5 ) 基于**{** α Sk i **}**可以对多源图像的重要性重新加权,并通过重新制定等式2中的损失函数,将其应用于训练目标相关的教师检测器。公式如下:
根据Eq.(5)可以明确强制TeDet(·)从目标相关的样本中学习,从而抑制与目标无关的信息的干扰。
5 、Experiments
5.1 、Implementation Details
采用 Faster R-CNN 与RoI Align 和 VGG16 作为基本检测器进行公平比较。所有输入图像都被调整大小,以便较短的长度具有600像素。对于师生学习框架,采用与UBT相同的设置,UBT是半监督目标检测的代表。伪标签的置信度阈值设置为0.7。EMA中的平滑系数设为0.9999。对于AMSD,超参数λ和µ分别固定为0.2和0.01。对于HTRM,最近邻居的个数 K '被设置为5。Eq.(4)中的比例因子γ和β默认固定为1.0和0.5。当批大小为16时,学习率为0.01。在训练中使用20个epoch,其中教师检测器在前10个epoch单独训练,之后对源图像进行HTRM重新加权,然后训练StDet(·)进行域适应。所有实验均在8颗NVIDIA 1080Ti gpu上进行。
5.2 、Comparative Approaches
将TRKP与以下最先进的方法进行了比较:(1)仅源(Source-only)方法,该方法应用基本的Faster R-CNN 检测器,没有对目标域的适应; (2)单源和源组合(Single-Source & Source-Combined)方法,包括SW、GPA、UMT和UBT,采用单源假设进行DAOD;(3) MSDA方法包括MDAN、M3SDA和DMSN。我们还报告了由完全标记的目标图像训练的Oracle的性能,作为评估的上界。
5.3 、Cross Camera Adaptation(跨相机自适应)
5.3.1 、Settings
在数据采集过程中,由于摄像机参数、视点和场景的不同设置,不同摄像机采集的图像会产生域移问题。为了解决这个问题,我们在跨摄像机适应的设置中评估了我们的方法。选择 Cityscape 和 KITTI 作为源域,BDD100K 作为目标域,同时只使用汽车类别的图像进行训练和验证。Cityscapes是语义城市场景理解的基准,KITTI 是一个广泛使用的自动驾驶数据集,分别包含2,975和7,481个带注释的训练图像。BDD100K是一个用于自动驾驶的大规模数据集,其中只采用白天子集,包括36728张未标记的图像用于训练,5258张验证图像用于评估。采用广泛使用的平均精度(AP)作为评价指标。
5.3.2 、 Results
如下表1所示,之前的 DAOD 方法在训练时简单地将 Cityscapes 和 KITTI 结合起来(参见Source Combined中的行),与仅采用 Cityscapes 的方法(参见Single Source中的行)相比,通常会报告较差的性能 。 原因在于从 Cityscapes 转移到 BDD100K 的知识可能受到 Cityscapes 和 KITTI 之间领域转移的干扰,导致适应过程中知识严重退化。"C"和"K"分别代表Cityscapes和KITTI,构成源域。与Source Combined方法相比,大多数现有的基于MSDA的方法只获得了很小的收益,甚至表现得更差。相比之下,我们的方法大大提高了准确率。例如,应用TRKP的AP比DMSN高9.2%。我们的方法是基于UBT基线的,将提出的AMSD和HTRM模块分别应用于UBT时,收益分别为5.3%和9.2%,明显显示了其有效性。通过将AMSD和HTRM相结合,TRKP实现了58.4%的AP,达到了一个新的sota水平,与Oracle(全监督)的差距缩小到1.8%。
5.4 、Cross Time Adaptation(跨时间适应)
5.4.1 、Settings
在实际应用中,检测器通常部署在不同的时间,其中照明和场景的变化可能非常大。为了评估我们的方法在这种因素下的性能,将白天和夜间学到的知识适应极端情况(黎明或黄昏)。具体而言,BDD100K 按时间分为白天、夜晚、黎明/黄昏三个子集。白天的36,728幅图像和夜间的27,971幅图像构成了两个源域。非白天和非夜间采集的图像相对较少,其中5027张未标记的图像用于训练,778张验证图像用于黎明/黄昏作为目标域的评估。报告了10个类别的平均平均精度(mAP)进行比较。
5.4.2 、 Results
结果如下表所示,"D"和"N"分别表示BDD100K的日间子集和夜间子集。由于两个域之间存在较大差异的干扰,之前的DAOD方法在同时使用白天和夜晚子集的图像时无法提高性能。通过多源解缠,我们的TRKP在很大程度上提高了性能,例如TRKP比DMSN高4.8%。HTRM和AMSD模块在性能上也取得了显著的提高。具体来说,AMSD解开了多个源域的纠缠,防止了它们之间的干扰,从而使UBT基线提高了4.9%。HTRM在全局层面执行重新加权,比采用动态加权策略的DMSN产生更好的性能。此外值得注意的是,TRKP在MAP中的检测准确率显著高于Oracle,检测准确率提高到39.8%;Oracle的表现相对较差是由于目标域的训练图像不足,我们的性能显著提高表明了通过目标相关知识适应在这种情况下迁移学习的有效性。
5.5 、Extension to Mixed Domain Adaptation(混合领域自适应的扩展)
5.5.1 、Settings
由于在实际应用中往往存在多个导致域漂移的因素,我们将已有的两个源域(跨相机/时间自适应)进行了扩展,考虑具有混合域差异的更复杂情况。具体地说,选择Cityscapes 作为源域,BDD100K 作为目标域,使用MS COCO和Synscapes作为额外的两个源域。MS COCO 包含与街景不同的常见场景,而 Synscapes 是一个合成数据集,两者都扩大了数据规模并带来更多种类的领域差距和类别转变。 来自 Cityscapes、MS COCO、Synscapes 的 2,975、71,749、25,000 个图像用于训练。BDD100K 白天子集中的 36,728 个图像用作未标记的目标数据,5,258 个图像用于评估。报告超过 7 个类别的 mAP。
5.5.2 、 Results
结果如下表所示,仅源(source only)方法下的FRCNN在源域数量增加的情况下性能持续提升。然而源组合(source **combined)**方法,即UBT,由于混合域之间的差异导致严重的负转移而表现不佳。TRKP 实现了显著的性能增益,相比source only,使用两个源时,mAP增加5.6%,使用三个源时,mAP增加6.2%,这证明了其在应用于混合源域时的有效性。
6 、Conclusion
本文提出了一种新的多源域自适应目标检测方法。为了避免知识退化,作者提出了对抗性多源解缠模型和整体目标相关挖掘方案,以在自适应过程中保存目标相关知识。大量的实验表明,与最先进的方法相比,作者的方法是有效的。此外,作者将该方法应用于具有混合源域的更困难的场景,并提供了一个具有竞争力的基线。