2021TCSVT,VDM-DA:面向无源数据域自适应的虚拟域建模

原文标题:VDM-DA: Virtual Domain Modeling for Source Data-free Domain Adaptation

中文标题:VDM-DA:面向无源数据域自适应的虚拟域建模

1 Abstract

领域适应旨在利用标签丰富的领域(源领域)来帮助标签稀缺领域(目标领域)中的模型学习。大多数领域自适应方法要求源域和目标域样本共存以减少分布不匹配,然而,由于不同的问题(例如,存储、传输和隐私问题),对源域样本的访问在实际应用中可能并不总是可行的。 本文针对无源数据无监督域自适应问题,提出了一种新的方法------虚拟域建模(VDM-DA)。虚拟域充当源域和目标域之间的桥梁。一方面,我们利用预训练好的源模型在特征空间中基于近似高斯混合模型(GMM)生成虚拟域样本,使得虚拟域在不访问原始源数据的情况下与源域保持相似的分布; 另一方面,我们还设计了一种有效的分布对齐方法,通过模型学习逐步提高目标域分布的紧凑性,减少虚拟域与目标域之间的分布分歧。通过这种方式,我们在不访问源域数据的情况下,通过训练深度网络,成功地实现了源域和目标域之间分布对齐的目标。 我们在基于二维图像和基于三维点云的跨域目标识别任务的基准数据集上进行了广泛的实验,其中提出的基于虚拟域建模的域适应(VDM-DA)方法在所有数据集上都达到了最先进的性能。

2 、Introduction

深度神经网络(DNN)在广泛的计算机视觉任务中取得了显著的成绩。 然而,数据驱动的深度神经网络方法的优越性能高度依赖于大量注释良好的数据。为了减少劳动密集型数据标注任务的工作量和成本,一种流行的解决方案是将知识从具有大量标记数据的相关源领域转移到具有最少甚至没有标记训练数据的感兴趣领域(即目标领域)。为了缓解源域和目标域之间数据分布不匹配导致的性能下降,人们提出了许多无监督域自适应(UDA)方法,将模型从标记的源域调整到未标记的目标域。

2.1 、域适应方法的局限

大多数领域自适应方法需要源样本和目标样本来学习领域自适应模型。然而,在实践中,访问源域数据的需求在现实世界的应用程序中可能是非常受限的。例如,通常假设源领域数据规模较大,以涵盖更多可转移的知识,因此难以存储、传输和处理。此外,由于隐私或安全问题,共享数据也成为一个问题。 这就导致了更具挑战性的无源数据UDA (SFUDA)问题,即给定预训练的源模型和未标记的目标域样本,如何在不访问源域中原始标记数据的情况下提高目标域中的分类性能。

近年来,人们提出了几种SFUDA方法。这些方法要么借鉴自训练的思想,要么基于预训练的源模型生成源域图像。在这项工作中,我们提出了一种新的基于虚拟域建模(VDM)的SFUDA方法。我们的目标是解决SFUDA的核心问题,如何在不访问原始源样本的情况下减少源域和目标域之间的数据分布不匹配问题?为此,我们在高级压缩特征空间中引入了一个中间虚拟域,以桥接不可见的源数据分布和目标域分布。因此,我们将减少源域与目标域之间数据分布不匹配的问题转化为最小化源域与虚拟域之间以及虚拟域与目标域之间的域差距。

2.2 、本文提出的方法

为了实现这一目标,我们考虑两个方面。一方面,我们借助预训练的源模型在特征空间中使用近似高斯混合模型(GMM)生成虚拟域样本,使得虚拟域在不访问原始源数据的情况下仍能保持与源域相似的分布;另一方面,我们还提出了一种有效的分布对齐方法,通过模型学习逐步提高目标域分布的紧凑性,减小虚拟域与目标域之间的分布差距。通过这种方式,我们在不访问源域数据的情况下,通过训练深度网络,成功地实现了源域和目标域之间分布对齐的目标。我们的实验结果清楚地证明了所提出方法的有效性。

2.3 、本文的主要贡献

(1)本文提出了一种新的通用的无监督域自适应方法------基于虚拟域建模的域自适应(VDMDA),该方法通过在特征空间中建模一个紧凑的中间虚拟域,作为源域和目标域之间的桥梁,以显式地减少数据分布不匹配。

(2)虚拟域是基于一种简单有效的高斯混合模型(GMM)构建的,该模型通过发现隐藏在源模型中的信息来逼近未知参数,而不引入任何额外的可学习参数。此外,利用本文提出的不确定性导向对齐方法,将目标域中未标记的数据与构建的紧凑虚拟域对齐。

(3)我们的方法是通用的,可以很容易地用于各种跨领域的应用,如基于图像和基于点云的目标识别。2D和3D任务的大量实验表明,新提出的VDM-DA方法优于最先进的UDA和SFUDA方法。

3 、Related Works

3.1 、Unsupervised Domain Adaptation

在无监督域自适应(UDA)中,最流行的范式是通过最小化源域和目标域分布之间的差异来学习域不变表示。两种常用的方法是基于统计矩的方法和由生成式对抗网络(GAN)驱动基于对抗学习的方法。 这两种方法都可以直接减小分布差异,而不需要显式的密度估计。基于统计矩的方法主要是通过精心设计的核函数来减小源分布和目标分布之间的最大平均差(MMD),从而隐式地考虑数据分布的高阶矩。 相比之下,基于对抗性学习的方法隐式地减少了不同领域之间的Jensen-Shannon分歧。此外,一些方法也借用了自训练的思想,进一步挖掘目标域信息。最流行的策略是伪标记,即选择高置信度的未标记目标样本,然后分配伪标签,以进一步辅助目标模型的训练。除了基于图像的物体识别之外,UDA方法还应用于不同的视觉识别任务。例如,PointDAN方法提出了一种基于3D点云的UDA方法,通过局部和全局对齐不同域的3D目标分布。然而,上述方法都需要原始的源域数据来进行有效的域自适应。

3.2 、Source Data-free Unsupervised Domain Adaptation

通过考虑现实应用中的实际问题(即存储、传输和隐私问题),最近的几项工作研究了不需要原始源域数据的UDA问题。他们要么重建原始源数据,要么采用基于熵的约束和伪标记技术的自训练策略。然而,在原始空间中重建源数据非常困难,通常需要复杂的网络架构和先进的优化技术。相比之下,我们的方法在低维特征空间中对虚拟域进行建模,而无需引入额外的可学习参数。此外,使用的自训练策略(即熵最小化和伪标记技术)可能会由于源模型产生的过度自信的预测而遭受错误累积。最近的 arxiv 工作 BAIT 引入了一个基于与 minimax entropy 类似动机的附加分类器。因此,这些著作并没有明确讨论缩小分配差距的根本问题。相比之下,我们通过生成虚拟域特征来模拟源域和目标域之间的分布差距,这为无源数据的无监督域适应提供了理论见解和卓越的经验结果。

4 、Methodology

无监督域适应的核心问题是在学习分类模型时减少源域和目标域之间的分布差距。典型的基于深度学习的领域适应模型通常可以分解为三个部分,分类器模块C,分布对齐模块D和特征提取器模块 F。在无监督域适应(UDA)的流行范例中,一种常见的方法旨在通过不同的统计测量来对齐共享特征空间中源域和目标域之间的分布,同时保留源域中的区分信息。我们将标记的源域表示为{(Xs, Ys)},将未标记的目标域表示为{Xt},其中X和Y分别表示数据和标签。UDA 用于分类的典型目标函数可以写成如下:

其中Lcls是源域标记数据的分类损失(例如交叉熵损失),Ldiv测量分布差距(例如MMD和对抗损失),用于对源域和目标域之间的数据分布不匹配进行建模。然而,对于无源数据域自适应(SFUDA),我们只给出预训练的源模型(Fs和Cs)和未标记的目标域数据(Xt),我们无法访问源域数据(Xs)。因此,我们提出对虚拟域进行建模,使得源域和虚拟域之间以及虚拟域和目标域之间的域差距可以同时最小化。于是我们新提出的 SFUDA 目标函数变为:

上述目标函数的关键问题是如何在没有Xs的情况下,仅仅基于Fs和Cs通过最小化Ldiv(F(Xs),F(Xv))来对虚拟域进行建模。 一旦构建了虚拟域,Ldiv(F(Xv),F(Xt)) 就可以通过任何分布散度损失来最小化。

4.1 、Virtual Domain Modeling

由于缺乏源数据,我们提出建立一个虚拟域来模拟真实的源域数据。典型的分类模型将原始的高维视觉数据转换成一个紧凑的特征空间,便于对数据分布进行比较和建模。因此,不需要在原始数据空间中对分布进行建模。与模型自适应方法在原始数据空间中合成源数据不同,基于观察到大多数成功的高级语义相关任务(例如分类任务)的域自适应方法在更紧凑的特征空间中而不是在原始数据空间中减少分布差距,我们提出在低维特征空间中建模虚拟域。

4.1.1 、GMM-based Virtual Domain Modeling

本文提出用高斯混合模型(Gaussian Mixture model,GMM)对虚拟域进行建模。我们的动机是使用深度学习方法学习的高级特征空间中的样本特征可以被视为遵循高斯分布的混合分布,用于与语义相关的任务,如分类。例如,可以假设每个类中的数据是从混合模型中的一个高斯分布中采样的。作为一种概率模型,GMM假设所有数据点都是由几个参数未知的高斯分布的混合产生的。理论上,GMM可以通过使用有限数量的高斯分布的混合来很好地近似任何连续分布。理论上,高斯混合模型可以表示如下任意分布:

πk为混合系数,其中Σπk=1,对于任意K都有πk≥0。因此,需要估计四个未知参数:

1)高斯数K,2)混合系数πk,3)每个高斯的平均值µk,4)每个高斯的协方差Σk。

在无源数据域适应的背景下,建模的虚拟域期望与源域很好地对齐,使得目标域可以进一步与虚拟域对齐以实现有效的域自适应。 因此,我们提出估计虚拟域 GMM 模型的未知参数,以使虚拟域和源域之间的分布差距最小化。GMM 中的未知参数通常通过一些迭代方法进行优化,例如期望最大化 (EM) 算法。然而,由于我们无法访问源域数据,因此以这种迭代方式估计参数是不可行的。在这里,我们根据我们的观察和深入分析来近似这些参数。首先,高斯分布的数量K可以自然地设置为源域中的类别数量。其次,假设类平衡的源数据集将混合系数 πk 设置为 1/K,这也满足对于任何 k,Σπk=1且πk≥0 的约束。那么关键且最具挑战性的任务就转向了GMM模型的μk和Σk的估计。在无源数据的设置中,无法明确观察底层分布。得益于预训练的源模型,我们发现了隐藏在源模型参数中的信息来近似虚拟域的 µk 和 Σk。

4.1.2 、Approximation of µk and Σk

在典型的基于深度学习的分类架构中,模型通常可以分解为特征提取器模块 F 和分类器模块 C。特征提取器 F 由除最后一个全连接(fc)层之外的所有层组成,而分类器模块 C 定义为最后一个FC层。将原始输入数据(例如2D图像或3D点云)X输入特征提取器后,数据可以表示为具有更紧凑语义信息的特征向量f = F(X)。分类器模块通常是线性分类器,其输出维度为当前感兴趣任务中的类别数量。根据最常见的解释之一,学习的线性分类器权重的每一行对应于其中一个类的模板或原型。受这种解释的启发,我们可以通过预训练源域模型中每个分类器的学习权重轻松生成所有类的原型。 因此,我们提出通过将 µk 定义为来自源分类器的 L2 归一化权重 [w1,w2, ...,wK]T 的行之一来近似 µk。

如果数据可以在源域中观察到,在生成近似的μk之后,我们可以基于极大似然法直接估计Σk。然而,主要障碍仍然是源数据的不可用。因此,注意到我们任务的最终目标仍然是分类,只要从虚拟域采样的特征表现出令人满意的判别能力和一定的变化,构建的虚拟域就有望足以进行域适应。为简单起见,我们假设每个高斯分布都是各向同性的,并且不同的高斯分布在混合模型中具有相同的方差。因此,在我们的模型中只需要确定一个标量方差参数 σ2 。 在这里,我们建议根据不同原型之间的最小成对距离来确定 σ2 的值,以保留判别能力和某些变化。

其中 Dist 是给定的距离度量(例如欧几里德距离或余弦相似度),m,n ∈ {1, ...,K},并且 λ 是用于控制方差规模的超参数。直观上,我们需要正确设置 λ 的值,以确保接近两个最容易混淆的类之间的决策边界的样本仍然可以被理想的分类器很好地分离。

4.1.3 、Final Virtual Domain

由于产生了所有未知的GMM参数,我们可以将虚拟域在特征空间中的分布写成如下:

其中 fv 表示虚拟域特征,πk = 1 / K 。

借助虚拟域的 GMM,我们可以简单地从模型中采样数据来构建我们的虚拟域。这可以简单地通过在平均向量µk上添加一个基于高斯分布N(hl_bb_0 0, σ2)采样的噪声向量来实现,从而生成来自k类的一个样本的特征。由于虚拟域GMM是基于来自源域的预训练模型构建和近似的,因此我们认为虚拟域和源域是很好的对齐的,至少基于类条件分布的一阶矩。

4.2 、Target and Virtual Domain Alignment

通过构建的虚拟域很好地模仿了特征空间中原始源域的分布,我们准备进一步将目标域与虚拟域对齐。这里,可以很容易地使用许多统计方法,例如最大平均差异(MMD)、JensenShannon(JS)散度和Wasserstein距离。在简单有效的对抗性判别域适应(ADDA)方法的推动下,我们选择了一种简单的基于对抗性训练的策略,这相当于减少了特征空间中不同域之间的JS分歧。

具体来说,我们使用预训练的源特征提取器 Fs 来初始化目标特征提取器 Ft。 然后将生成的虚拟域特征 fv 和提取的目标特征 ft = Ft(Xt) 输入到域鉴别器 D 中。域鉴别器 D 尝试通过二元分类损失来区分虚拟域特征和目标域特征 源样本和目标样本的真实域标签分别为1和0。 因此,我们新提出的学习 Ft 和 D 的目标表述如下:

其中Pv和Pt分别是虚拟域在高级特征空间中的分布和目标域在原始数据空间中的分布。

4.2.1 、Enhancing Target Domain Compactness

由于虚拟域的方差是可控的,相对较小的方差可能会导致域的类更加集中,这对于虚拟域和目标域的分类任务都有帮助。然而,真实的目标域数据可能表现出较大的变化,因此虚拟域和目标域之间的直接对齐可能是不够的。在这里,为了进一步增强目标域数据的类内紧凑性,我们提出了一种新机制来强制位于决策边界周围的不确定目标样本更加自信。

我们观察到,预测置信度较低的不确定目标样本通常会导致类内紧凑性较差。 因此,我们通过使用新提出的重新加权机制进一步将目标不确定目标样本与虚拟域样本对齐。 具体来说,目标样本越不确定(或确定),在计算分布散度损失时将分配越大(或越小)的权重。 形式上,表征不确定性的权重是基于归一化熵定义的,如下所示:

其中 δk(Ct(Ft(Xt))) 表示 softmax 输出的第 k 个元素。分布散度损失则变为,

然而,有人可能会争辩说,如果将更大的域损失应用于更不确定的样本,它们可能会被分配到错误的类别,因为这些样本是最令人困惑的样本。我们通过基于更确定的目标样本及其分配的伪标签来改进目标模型来解决这个问题。因此,决策边界将更加适应目标域数据,以减轻将不确定目标样本与决策边界的错误一侧对齐的问题。具体来说,我们根据目标样本的熵值按降序排列,并选择前 r% 样本作为最确定的目标样本。这些样本被分配了由对齐模型预测的伪标签,以进一步细化目标模型。

4.3 、Theoretical Analysis

在本节中,我们从理论角度分析我们的方法。关于域适应理论分析的开创性工作基于源域分类误差∈Ps (h) 和域差异,提供了目标域中预期分类误差 ∈Pt (h) 的泛化界限。 形式上,让我们用 h ∈ H 表示任何假设,泛化界限定义为:

其中 d(Ps, Pt) 是域差异,γ 是常数项。关键在于减少域差异并实现更严格的界限,这已通过不同的方式实现,例如流行的 HΔH-Divergence、最大平均差异(MMD)、JSdivergence或 Wasserstein 距离等。

在无源数据的设置中,我们对虚拟域分布 Pv 进行建模以模仿源分布 Ps。为了减少目标域上的分类误差,分布Ps、Pv和Pt应该彼此基本相似。因此,我们方法中的泛化界限变为:

因此,最终界限定义为:

其中 ˆγ = γ1 + γ2 是常数项。

我们的目标不是减少等式9中的 d(Ps, Pt),而是同时减少 d(Ps, Pv) 和 d(Pv, Pt)。这里,我们对这两项进行一一分析。首先,在我们的虚拟域建模公式5中,源域和虚拟域之间每个类的分布分歧在一阶矩方面最小化。理由是类均值 µk 被定义为源分类器的学习权重,并且这些权重可以解释为源类的均值(即原型)。因此,分布差异 d(Ps, Pv) 可以被视为来自不同域的每类样本的 MMD。其次,通过域判别器,分布差异 d(Pv, Pt) 通过 JS-divergence 来近似,这与现有的几种基于对抗性学习的域适应方法具有相似的精神。综上所述,新提出的 SFUDA VDMDA 方法仍然可以实现严格的泛化界限,从而合理地最小化目标域分类误差。

5 、Experiments

在本节中,为了验证我们提出的 VDM-DA 方法的有效性,我们在三个基于 2D 图像和 3D 点云的跨域目标识别基准数据集上进行了广泛的实验。

5.1 、Experimental Setup

5.1.1 、Datasets

使用两个常用的 2D 图像基准(Office31 和 VisDA17)和一个最近发布的 3D 点云数据集(PointDA-10)进行评估。

(1)Office31包含三个域(Amazon(A)、DSLR(D)和Webcam(W)),每个域由办公环境中的31个目标类别组成。该数据集中共有4110幅图像。我们使用每一对领域来执行领域适配,这导致了6个不同的任务。

(2)VisDA17是一个具有挑战性的大规模基准数据集,其中包括来自12个目标类别的图像。它包含两个域(即合成图像域和真实图像域),目标是执行从合成图像域(即源域)到真实图像域(即目标域)的域适应。源域包含 152,409 个通过渲染 3D 模型生成的合成图像,而目标域包含从 Microsoft COCO 采样的 55,400 个真实图像。

(3)PointDA-10数据集是使用的3D点云域适应基准,其中包含来自三个域的10个类的3D点云:ModelNet40(Mo)、ShapeNet(Sh)和Scannet(Sc)。每个领域都包含自己的训练和测试集。我们通过使用一个域的训练集作为标记的源域、另一个域的训练集作为未标记的目标域来执行域适应,并进一步评估该未标记的目标域的测试集,从而产生 6 个任务。

5.1.2 、Network Architecture

为了公平比较,我们使用与之前的域适应方法相同的主干网络。典型的域适应模型由特征提取器 F(例如 Fs / Ft)、分类器 C(例如 Cs / Ct)和域鉴别器 D 组成。对于 2D 图像识别任务,使用预训练的 ResNet-50 或 ResNet-101 以及一个额外的瓶颈 fc 层(具有 256 个单元)作为特征提取器。对于 3D 点云识别任务,使用带有两个附加 fc 层的预训练 PointNet。对于这两个任务,分类器 C 被定义为最后一个 fc 层,而域鉴别器 D 由三个 fc 层组成(即 ft/fv → 1024 → 1024 → 2)。

5.1.3 、Implementation Details

我们在所有数据集上使用动量为 0.9、权重衰减为 1e−3、批量大小为 32 的 SGD 优化器来优化整个网络参数。初始学习率 η0 根据经验设置为 1e−2,然后每次迭代后的学习率 η = η0 ·(1+10·p)−0.75 减小,其中 p 在训练过程中从0到1。在训练过程中,特征提取器 F 的学习速率为当前步骤的 0.1 倍。我们凭经验为 2D 图像设置 r% = 70%,为点云相关实验设置 r% = 30%。

5.1.4 、Baseline Methods

我们将我们的方法 VDM-DA 与传统 UDA 方法和无源数据 UDA (SFUDA) 方法进行比较。UDA 基线包括 DANN、ADDA、DAN、JAN、CDAN、MCD、BSP、SAFN和 STAR。而 SFUDA 的基线方法是 SHOT、BAIT和 ModelAdapt。对于点云相关任务,我们另外将我们的方法与 PointDAN进行比较,后者是最先进的 3D 点云域自适应方法。基线方法的结果是从其原始作品中复制的。

6 、Conclusion

在这项工作中,我们提出了一种称为虚拟域建模的域适应(VDMDA)的新方法,用于无源数据的无监督域适应(SFUDA)。为了学习域不变表示以减少不可访问的源域和目标域之间的分布差距,我们提出使用高斯混合来建模一个中间虚拟域,该域具有与高级特征空间中未观察到的源数据相似的数据分布模型(GMM),我们的虚拟域构建过程很简单,无需引入任何额外的可学习参数。我们通过使用新提出的不确定性感知对齐策略进一步将目标域与虚拟域对齐,以提高目标域中的类内紧凑性。针对不同跨域对象识别任务对 2D 图像和 3D 点云进行的大量实验证明了我们提出的 VDM-DA 方法的有效性。

相关推荐
冬天的枫树29 分钟前
计算机视觉空域处理完整版——超详细图文解
图像处理·人工智能·计算机视觉·图像滤波
青瓷程序设计40 分钟前
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
人工智能·python·深度学习
AI智界先锋1 小时前
融合创新:CNN+LSTM在深度学习中的高效应用,助力科研发表高影响因子文章!
论文阅读·深度学习·cnn+lstm·cnn与lstm融合
SEVEN-YEARS2 小时前
深入理解BERT模型:BertModel类详解
人工智能·深度学习·自然语言处理·bert
weixin_543662862 小时前
BERT的中文问答系统34
python·深度学习·bert
噜噜噜噜鲁先森3 小时前
零基础利用实战项目学会Pytorch
人工智能·pytorch·python·深度学习·神经网络·算法·回归
@BangBang3 小时前
Dropout 和 BatchNorm 在训练和验证中的差异
人工智能·深度学习·机器学习
醒了就刷牙4 小时前
机器学习和深度学习中的logit
人工智能·深度学习·机器学习
凤枭香4 小时前
数字图像处理(c++ opencv):图像复原与重建-常见的滤波方法--统计排序滤波器
c++·图像处理·opencv·计算机视觉