论文精读：基于渐进式转移的无监督域自适应舰船检测

原文标题：Unsupervised Domain Adaptation Based on Progressive Transfer for Ship Detection: From Optical to SAR Images

中文标题：基于渐进式转移的无监督域自适应舰船检测:从光学图像到SAR图像。

论文地址： Unsupervised Domain Adaptation Based on Progressive Transfer for Ship Detection: From Optical to SAR Images | IEEE Journals & Magazine | IEEE Xplore

文章发表在IEEE Transactions on Geoscience and Remote Sensing上，主要研究的是如何在缺乏标记的合成孔径雷达（SAR）图像的情况下，进行船舶目标检测。

1 、摘要

近年来，基于CNN卷积神经网络的合成孔径雷达(SAR)舰船检测方法在遥感领域受到了广泛关注。然而，这些方法需要大量经过标注的SAR图像来训练网络，并且SAR图像的标注比光学图像的标注更昂贵和耗时。为了解决SAR图像缺乏标注信息的问题，本文提出了一种基于渐进式迁移的无监督域适应框架，通过将光学领域的知识迁移到SAR领域来进行SAR船舶检测。由于光学图像和SAR图像之间的显著差异，作者从三个层次逐步传递知识:像素级、特征级和预测级。在像素层面，考虑到成像机制的差异，作者提出了一种针对船舶目标的特殊数据增强方法，并基于生成对抗网络（GAN, generative adversarial networks）构建具有跳跃连接的生成器来生成过渡域，这可以减少光学图像和 SAR 图像之间的外观差异。在特征层面，检测器经过训练以学习具有对抗性对齐的域不变特征。在预测层面，进一步利用特征对齐检测器获得的预测伪标签直接学习SAR图像的更多判别特征，并提出鲁棒自训练(robust self-training, RST)方法来降低噪声伪标签对检测器训练的影响。特别地，RST被表述为目标检测的最小化损失问题。

基于光学数据集到SAR数据集的域自适应实验结果表明，该方法对未进行标注的SAR图像具有较好的SAR船舶检测性能。

2 、介绍

合成孔径雷达（SAR）是一种有源微波成像传感器，具有全天时、全天候目标监测能力，广泛应用于军事和民用领域。近年来，SAR图像中的船舶检测作为SAR图像解释的一个重要分支，因其在海洋监测、军事情报获取等方面的重要价值而受到广泛关注。

在传统方法中，恒定虚警率(constant false alarm rate, CFAR)是应用最广泛的SAR目标检测方法，它通过滑动窗口将像素的灰度值与一定的自适应阈值进行比较。然而在实际应用中，当场景比较复杂时，会造成性能下降；在复杂场景下，CFAR很难选择适合于非均匀、喧嚣、杂乱背景的统计分布模型。

近年来，基于卷积神经网络（CNN）的方法通过数据驱动的方式在目标检测领域取得了显著的成功。其中，两级检测器 Faster R-CNN 通过使用区域提议网络（RPN, region proposal network）产生目标提议，然后使用分类和回归头两个分支处理目标提议，实现了优越的性能。

由于其优异的性能和扩展到其他任务的灵活性，Faster R-CNN 在许多领域得到了广泛的应用。在SAR船舶检测方面，有人采用特征融合策略并提出了改进的Faster RCNN、有人基于 Faster R-CNN 提出了一种用于多尺度船舶检测的密集注意力金字塔网络、还有人引入了一种新的注意力机制，并将其与Faster R-CNN中的特征金字塔相结合来检测多尺度船舶。

尽管基于CNN的SAR船舶检测方法已经取得了显着的性能，但它们仍然需要大量具有标注信息的数据来训练检测器，这既昂贵又耗时，特别是对于具有复杂场景和杂波的SAR图像。一般来说，SAR 图像对于普通人来说很难解读，并且标注 SAR 图像需要经过专业培训的专家。因此，获取大规模具有标注信息的可训练SAR图像成为训练深度检测器的障碍。相对而言，光学图像更容易获取和标注。

无监督域自适应(UDA，unsupervised domain adaptation)是一种将知识从完全标注的源域(如光学域)转移到未标注的目标域(如SAR域)的方法，而不是直接用标注数据训练模型，为解决缺乏标注数据的问题提供了一种很好的方法。

在计算机视觉领域，用于识别和语义分割的UDA已经被广泛研究，大致分为三类：

1）基于生成对抗网络（GAN）的像素级方法。这些方法大多数旨在通过使用图像到图像转换 GAN（例如 CycleGAN）将源图像转换为目标图像，以减轻不同领域之间的差异。

2）基于特征对齐的特征级方法。这些方法旨在学习域不变特征表示，根据最大平均差异（MMD）或梯度反转层（GRL）来对齐源域和目标域之间的特征分布。

3）基于自训练的伪标签方法。注意到 UDA 和半监督学习（SSL）之间的相似性，基于自训练的方法在 UDA 中尝试用于识别和分割，并被证明是有效的 UDA 方法。

尽管UDA方法在识别和分割方面受到了广泛关注，但用于目标检测的UDA仍处于起步阶段，主要集中在特征对齐方面。通过对抗性学习，从图像和实例特征级别调整源域和目标域之间的特征分布。在本文中，作者的目标是通过从标记的光学域转移知识来解决在未标记的SAR域中检测船舶的挑战。据作者所知，UDA 还没有针对 SAR 船舶检测的研究；由于光学图像和SAR图像之间的显著差异，现有的光学图像检测方法不能直接应用于SAR图像。尚待解决的主要问题可描述如下：

1）由于成像机制不同，如下图所示，SAR图像和光学图像在外观上有很大差异。与光学图像不同，SAR图像主要包含纹理、结构和形状信息，不包含灰度、颜色和亮度信息；特别是对于船舶检测任务，光学图像中船舶的尾流更加明显和强烈，这使得跨域船舶检测变得更加困难。

2）SAR图像与光学图像的特征存在较大差异。例如，SAR特征对视角、参数等变化敏感，而光学特征则相反。在计算机视觉领域，特征对齐方法可以减少特征差异。然而，大多数现有的工作都集中在从光学图像到光学图像的无监督域适应，区别仅在于图像风格，但它们的成像机制是相同的。因此，它们可以在低、中、高层共享特征空间上进行传输，但不适合从光学到SAR的传输。光学和SAR数据的分布可能彼此差异太大，无法在低层中传输。如何从光域转移到SAR域还有待探索。

3）由于SAR域与光学域之间的巨大差异，当特征分布向标记的光学域移动时，基于特征对齐的方法会损失一些SAR域独特而有价值的特征。伪标签方法可以直接使用目标域的图像来训练模型，为解决此类问题提供了一种很好的方法。然而，由于伪标签并不完全正确，错误的标签会损害检测器的训练。因此，如何训练鲁棒的检测器以减少噪声标签对检测器训练的影响是一个挑战。

由于上述挑战，将光学领域的知识直接转移到SAR领域并不容易。本文提出了一种基于渐进式转移的无监督域自适应船舶检测方法，该方法可以从像素级、特征级和预测级逐步实现光学域与SAR域之间的知识转移。

1）在像素层面，作者的目标是通过数据增强和gan将光学图像转换为类似于SAR图像的过渡图像。首先，为了减轻船舶尾流和复杂陆地背景对船舶目标生成的影响，作者提取船舶目标并将其与纯海洋背景合成，以提高船舶目标生成的质量和多样性。在训练过程中，原始图像和合成图像一起参与训练，可以看作是一种针对船舶目标的特定数据增强方法。此外，考虑到SAR图像主要包含纹理、结构和形状信息而没有灰度、颜色和亮度信息的特殊性，作者构建了一个具有跳跃连接的生成器来保留底层纹理、结构和形状信息。

2）在特征层面，考虑到光学域和SAR域在高级语义特征空间上的较高相似性，通过使用对抗学习来对齐特征分布，在高级特征空间上学习域不变特征。

3）在预测层面，进一步使用特征对齐检测器（视为教师模型）获得的预测伪标签来直接学习SAR图像的更多判别知识，并提出鲁棒自训练（RST）方法来减少噪声伪标签对检测器训练的影响。作者的RST从以下几个方面训练鲁棒检测器：a）使用准确标记的过渡域数据联合训练检测器；b) 选择高质量的伪标签；c) 标签光滑。特别地，作者将 SAR 图像的未知标签视为潜在变量（伪标签），并将 RST 表述为目标检测的最小化损失问题，可以通过迭代生成伪标签并重新训练检测器来解决。除此之外，所提出的 RST 还可用于半监督目标检测任务。

3 、P roposed D omain A daptation M ethod 提议的域自适应方法

本节将介绍基于渐进式转移的SAR船舶检测无监督域自适应框架的技术细节。本文提出的SAR舰船检测方法总体架构如下图2所示，该方法从像素级、特征级和预测级三个层次逐步传递知识。在像素级别，Opt2SAR Transfer 将源图像和合成图像传输为过渡图像。在特征层面，VGG16的参数在两个域之间共享，并使用GAN损失来学习域不变的特征表示。蓝线代表伪标签生成的流程。在预测层面，我们将前一阶段获得的检测器视为教师模型，并通过在未标记的训练目标SAR图像上进行测试来生成伪标签。

该方法基于Faster R-CNN，因为Faster R-CNN是一种简单而典型的两级检测器，可以灵活地扩展到其他任务；此外，它也是计算机视觉领域中最流行的无监督域自适应检测器，只有极少数方法选择SSD作为检测模型。这样可以更容易地与计算机视觉领域中现有的无监督域自适应目标检测方法进行比较。同时，我们的无监督域自适应船舶检测的思想也适用于许多其他深度目标检测模型，如SSD、RefineDet、FPN等。

形式上，在跨域船舶检测任务中，我们可以访问一个具有标注信息的源域(光域)：Ds = {(x s i , y s i )} Ns i=1 ，其中 x s i 和 y s i 为光学遥感影像和对应的船舶标注信息。给出未标记的目标域(SAR域)：Dt = {(x t j )} N t j =1 ，其中 x t j表示未标记的SAR遥感图像。目标域分为两部分：一部分是训练数据，另一部分是测试数据。我们的方法的目标是通过将完全标记的光学域的知识转移到未标记的SAR域的训练数据中，学习一个能够在未标记的SAR域的测试数据上表现良好的跨域检测器。下面将介绍每个级别的详细信息。

3.1 、Pixel-level: Optical-to SAR image generation 像素层面:从光学领域到SAR领域的图像生成

由于成像机制的不同，SAR和光学图像在图像外观上存在显著差异。为了减轻这种差异，我们遵循之前基于 GAN 的像素级自适应方法，旨在生成一个判别器无法将其与SAR域区分开的过渡域，而船舶目标的位置与源域保持不变。因此，我们使我们的检测器能够在标记的过渡域上学习，同时仍然推广到 SAR 域。

3.1.1 、Data Augmentation for Ship Targets 船舶目标的数据增强

当使用GAN生成从光学到SAR的图像时，每个图像像素，无论是背景像素还是目标像素，都会被同等对待，这可能会产生一些不理想的船舶数据。例如，某些光学图像中的船舶尾流非常强烈，而某些光学图像中的某些陆地背景非常复杂，导致GAN无法聚焦到船舶目标。为了缓解这一问题，如图3所示，我们将船舶目标数据合成为纯海洋背景，以减少船舶尾迹和复杂陆地背景对船舶数据生成的影响。在合成过程中，我们对舰船目标的位置和角度进行一定的干扰，以增强信号的多样性。在Optical-to-SAR GAN的训练阶段，原始图像和合成图像参与训练生成过渡域。在后续的特征层和预测层的训练过程中，将原始图像和合成图像生成的图像一起训练，可以看作是针对船舶目标的一种特定的数据增强方法。

3.1.2 、Optical-to-SAR GAN 从光学领域到SAR领域的GAN

我们将介绍一种由生成器和鉴别器组成的Optical-to-SAR GAN，以实现过渡域的生成。生成器 G O→S 经过训练后从光学图像生成 SAR 图像来欺骗鉴别器 D SAR 。相反，判别器 D SAR 经过训练后来区分图像是来自真实SAR数据还是生成的SAR数据(过渡域)。该对抗过程使用 GAN 损失函数进行训练：

然而，光学图像和SAR图像之间的巨大差异使得生成器很难生成令人满意的图像。与光学图像不同，SAR图像主要包含纹理、结构和形状信息，这些特征主要包含在CNN的低层特征空间中。为了确保生成器生成令人满意的 SAR 图像，我们进一步构建了具有跳跃连接的生成器。如图4所示，我们的生成器包含三个步幅为 2 的卷积、八个具有求和运算跳跃连接的残差块、两个步幅为 1/2 的反卷积。特别地，我们在第三层和倒数第三层之间添加了连续操作跳跃连接，以保留低级纹理、结构和形状信息。

虽然GAN损失可以使生成器生成从X SAR 提取的数据，但无法保证生成器保留图像的整体排列以及船舶目标的位置、姿态。遵循主流的图像到图像转换方法，我们在 Optical-to-SAR GAN 上使用 cycle consistency constraint 循环一致性约束、另一个生成器 G S→O 和另一个判别器 D opt 。生成器和鉴别器使用相同的 GAN 损失LGAN(G S→O ,D opt ,X opt ,X SAR ) 进行训练。循环一致性约束使得 G S→O (G O→S (x opt )) ≈ x opt 且 G O→S (G S→O (x SAR )) ≈ x SAR。

循环一致性的损失函数描述为：

最终损失如下：其中 α 和 β 是平衡参数。

3.2 、Feature-level: domain-invariant feature representation 特征层面：域的不变特征表示

在这个阶段，我们的重点是减少特征差异，并在特征层面上将知识从已标记的过渡域转移到未标记的SAR域。由于标签只能通过过渡域获取，因此检测器期望提取两个域（过渡域和SAR域）的共同特征，即域不变特征，以指导SAR数据域的学习。为此，我们的目标是训练一个检测器，提取域不变特征，以对齐生成图像和 SAR 图像之间的特征分布。注意到两个域之间的巨大差异，我们只对齐高级特征空间的分布（特征提取器中的最后一个卷积，如图 2 中的 VGG16），而不是低级和中级。我们使用领域对抗性学习来实现这个过程。给定图像 xi、特征提取器 F 提取的相应高级特征 F(xi) ，域分类器 D 的目标是对特征 F(xi) 进行二分类，判别其来自目标域还是生成的过渡域，并且 F(xi) 的目标是欺骗 D。领域对抗性学习的目标可以写为：

训练域分类器 D 来最大化该目标，训练特征提取器 F 来最小化该目标。GRL 用于连接它们。在这个对抗过程之后，F 倾向于学习域不变的特征表示。检测任务的检测损失可分为分类损失和位置回归损失，如下：

在特征层面的总体损失为：其中 λ 是平衡参数。

3.3 、Prediction-level: Robust self-training 预测层面：稳健的自我训练

正如3.2节所提到的，领域不变的特征表示将忽略特定于领域的特征。在这个阶段，我们将前一阶段获得的检测器作为教师模型，并通过在未标记的训练目标SAR图像上进行测试来生成伪标签。然后，可以应用带有伪标签的监督训练（称为自训练）来学习 SAR 图像中更具辨别力的表示。然而，由于伪标签并不完全正确，错误的伪标签会损害检测器的训练；我们进一步提出了鲁棒的自训练方法来减少错误标签对检测器训练的影响。我们的RST从以下几个方面训练鲁棒检测器：

3.3.1 、使用准确标记的过渡域数据联合训练检测器

虽然过渡域的图像与真实的SAR图像仍有差距，但过渡域的标签是完全正确的；使用准确标记的过渡域数据联合训练检测器可以减轻检测器被错误标签引导的影响。

3.3.2 、选择高质量的伪标签

大多数半监督检测的自训练方法仅选择高置信度的提案作为伪标签，而忽略图像中伪标签的整体质量。

如下图5所示，正确伪标签较多的图像，例如图像A，将有利于检测器的训练；我们将此类图像称为简单图像。而错误伪标签较多的图像（例如图像B）会损害检测器的训练；我们将此类图像称为困难图像。对于这些困难的图像，当设置较高的阈值（例如0.85）时，一些船只将被视为背景；当设置较低的阈值（例如0.6）时，某些背景将被视为船舶；因此不应选择此类图像来训练检测器。为了缓解这个问题，我们的方法不仅在提案级别而且在图像级别选择简单的图像。首先通过设置置信度阈值来为每个图像选择提案级别的提案。然后计算图像内所有选定提案的平均置信度分数，并根据平均置信度分数从高到低对所有图像进行排序。最后进一步选择前 p% 的图像来参加训练。

3.3.3 、标签平滑

标签平滑使得检测器不完全相信标签的准确性。因此，RST中引入了label smooth来增强容错能力。特别地，RST被表述为检测的最小化损失问题，并且可以通过迭代地产生伪标签和重新训练检测器来解决。

3.4 、The formulation for Self-training of UDA detection UDA检测自训练的制定

如果源域或者过渡域和目标域的检测标注信息都是可获得的，那么转移知识的最简单方法是在两个域上进行微调；但是在 UDA 船舶检测场景中，无法获得 SAR 域的标签。另一种方法是自我训练，它将目标图像的标签视为可以自动学习的潜在变量。对于具有分类输出和位置输出的船舶检测器，为了简单起见，我们提出了 RPN 头的 Faster RCNN 的无监督域自适应损失。UDA 检测的目标如下：

其中，is表示输入图像，s是源域/过渡域的索引；y ⊤ s , b 和 v ⊤ s,b 表示 is 中第 b 个提议边界框的真实类别和位置标签；w 表示检测器权重；cls b (w, is) 和 loc b (w, is) 是带有概率和位置输出的类别输出。it 、cls b (w, it) 和 loc b (w, it) 则是在目标域的相应参数。与源域/转移域不同，目标域中的 ^y 表示提案的伪类别标签，可以由检测器自动学习，若赋值为1则将此伪标签视为目标真实值，否则将 0 视为背景。该图像的其他区域被视为背景。

3.5 、The formulation for Robust Self-training of UDA detection UDA检测的鲁棒自训练公式

伪标签并不完全正确，并且很难在无监督的目标域上优化伪标签。自训练方法一般遵循"从易到难"的策略来选择最有信心的伪标签（easy pseudo-labels）；检测器首先用这些置信度最高的伪标签进行更新，然后重新生成置信度较低的困难伪标签。我们称这个过程为提案级别选择的自我训练。然而对于检测任务，它不应该只考虑提议水平的选择；如3.3节所述，伪标签的图像级质量也是必不可少的。我们希望选择正确知识较多的图像(简单图像)来训练检测器，然后对错误知识较多的图像(困难图像)重新生成伪标签。经过修改后的自我训练包括提议层面的选择和图像层面的选择，表述如下:

其中， ˆy 和 ˆot 表示提案级别和图像级别的伪标签。ˆy 表示提案的伪类别标签，将其指定为 1 会导致将该伪标签视为目标真实值，否则将 0 视为背景。ˆot 表示该图像是否会参与训练，将其指定为 0 表示在检测器训练中不选择该图像。kˆyt,b 和 λˆot 是防止平凡解的正则化项，k用于控制将提案视为背景的数量，λ 用于控制未选择图像的数量。为简单起见，使用 Lloc(w) 来表示回归项。请注意，在我们的方法中，is代表过渡域的图像。进一步与目标域的数量进行 1:1 随机采样，以在每个小批量中进行平衡采样。

修正后的最小化自训练损失是通过替代块坐标下降算法实现的：

(i) 固定权重 w（前一阶段/步骤）并最小化目标以生成 ˆyt,b 和 ˆot 。

(ii) 固定 ˆyt,b 和 ˆot，然后最小化损失以更新权重 w。

步骤(i)和步骤(ii)交替重复。步骤(i)选择最自信的提案和图像作为SAR域的伪标签，步骤(ii)用步骤(i)中选择的伪标签更新检测器。

步骤(ii)可以通过随机梯度下降(SGD)或Adam算法来求解，但是对于步骤(i)，伪标签是离散变量，求解需要非线性整数规划；所以重写伪标签生成如下：

由于 ˆyt,b 和 ˆot 要求为 {0, 1}，^yt,b 的配置可以通过求解器进行优化：

其中 exp(−k) 是概率置信度的阈值。并且 ^ot 可以通过以下方式优化：

其中 1/M*Sum(clsm(w),m=1...,M) 表示图像内所有选定提案边界框的平均置信度得分。

除此之外，我们还使用标签平滑来减少噪声标签对检测器训练的影响：

其中 α 是伪标签平滑因子，表示类别(船舶或背景)。在步骤(i)中，指定α= 0会导致忽略该平滑项，而在步骤(ii)中，α ∈ (0, 1)。

最终，公式重写为：

注意，RPN损失只参与步骤(ii)，不参与步骤(i)的伪标签生成过程。因此为了简单起见，我们提出了 ROI 头的 Faster R-CNN 的 RST 损失。关于半监督自训练中 RPN 损失和 RPN 损失形式的更多细节可以在 Faster R-CNN 和 STAC 中找到。

3.5.1 、Determination of k in RST RST中 k 的确定

k用于在proposal-level上选择高质量的伪标签。通过设置阈值exp(−k)，可以过滤掉那些不太自信的提议边界框。而exp(−k) ∈ (0, 1)是根据人类经验设定的阈值。

3.5.2 、Determination of λ in RST RST 中 λ 的确定

λ 用于在图像级别选择高质量的伪标签。通过设置阈值exp(−λ)，可以过滤掉那些平均置信度较低的图像。然而，平均置信阈值很难设置；为了解决这个问题，在每一轮中，我们设计了一个确定 λ 的策略，以便我们可以从容易到困难增加选择图像的数量。具体做法是：首先计算 SAR 域中所有图像的平均置信度得分，然后根据平均得分从高到低对它们进行排序。exp(−λ) 的值设置为等于 ( p × T × M) 处排名的平均分数，其中 p ∈ [0, 1] 表示所选图像的比例。因此，在图像级别选择 p×100% 最有信心的带有伪标签的 SAR 图像进行检测器训练。

图像级别的伪标签选择策略

输入： 带有伪标签的目标SAR训练图像L = {xi, b i,j , c i,j } T i=1 ，其中 b i,j 和 c i,j 表示第 i 张图像的proposal box和对应的类别概率；提案级 exp (−k) 的置信度阈值以及图像选择比例 p。p从0.5开始，并且在每附加一轮中添加0.2。

**输出：**λ

步骤为：

1) 初始化：创建一个空集合 Lins 用于存放选定的图像及其提议框和置信度。

2) 选择提议框：对于每个提议框 bi,j，如果其对应的类别概率 ci,j 大于或等于阈值 exp(−k)，则选择该提议框，并将三元组(xi,bi,j,ci,j) 添加到集合 Lins 中。

3) 计算分数：对于 Lins 中的每张图像 xi，计算其所有提议框的类别概率的平均值 scorei，计算公式为 scorei=1/mi*Sum(ci,j, j=1...,mi) ，其中 mi 是图像 xi中提议框的数量。

4) 排序：将所有图像的分数 scorei 按从高到低的顺序排序，存储在数组 O 中。

5) 确定索引：根据给定的比例 𝑝，计算出要选择的图像数量的索引。具体地，索引等于 O 的长度乘以 p。

6) 计算λ：使用负对数函数计算 λ，公式为 λ=−log(O[index])。这里 O[index] 是排序后数组中索引位置的值，这个值代表了选择图像的置信度阈值。

7) 返回λ：返回计算得到的 𝜆λ值，该值将用于后续的自训练过程中，以决定哪些图像应该被包括在训练集中。

4 、E xperimental R esults A nd A nalysis 实验结果与分析

4.1 、Experimental Data Description and Implement Details 实验数据描述和实现细节

本节基于从光学到 SAR 遥感船舶检测数据集的域适应来评估我们的方法。SAR船舶检测数据集为公共AIR-SARship-1.0，光学船舶检测数据集由中国高分二号卫星采集（GF2船舶检测数据集）。下图6显示了GF2ship和AIRSARship-1.0的两张图像。

1）GF2ship：GF2ship数据集包括5张尺寸为29200×27620的光学图像和37张尺寸为4000×4000的光学图像，由中国GF-2卫星采集。 GF2ship数据集的分辨率为80万，包含 2110 艘船舶，我们使用 GF2ship 数据集作为源域，将原始光学图像裁剪为 1280 个大小为 512×512 的子图像。

2）AIR-SARship-1.0：公开发布的AIR-SARship1.0数据集由879艘船舶的31张大场景SAR图像组成，包括分辨率为100万和300万的图像。数据集分为训练集和测试集，其中训练集包含374张大小为512×512的子图像，是从原始21张大小为3000×3000的SAR图像中裁剪出来的，测试集包含374张大小为512×512的子图像。集合包含剩余的10张原始图像，尺寸为3000×3000。在我们的实验中，使用 AIR-SARship-1.0 数据集作为目标域。

在我们的实验中，光学 GF2ship 数据集被用作源域，可以获得船舶的矩形边界框和可旋转边界框；SAR AIR-SARship-1.0数据集被用作目标域，其中只能获得没有标签的图像。按照官方划分，目标域数据分为两部分，一部分是训练集，利用光学GF2ship数据集的所有数据参与无监督域自适应训练；另一部分是测试集，用于测试领域自适应模型。测试过程中，将AIR-SARship1.0数据集的原始10张测试图像通过滑动窗口反复裁剪成512×512的子图像；船舶检测器检测所有子图像并将检测结果恢复到原始SAR图像。特征层和预测层的学习率为0.001，衰减设置为0.1。

4.2 、Evaluation Metrics 评估指标

精度、召回率和F1分数用于定量评估不同检测器的性能

1）精度和召回率：精度和召回率是评估SAR图像中检测器性能的两个广泛使用的标准。其公式为：

其中，N td 表示正确检测到的船舶目标的数量，N d 表示检测到的船舶的数量，N gt表示地面真值。精确率和召回率分别衡量误报率和漏检率。

2）F1-score：F1-score是精确率和召回率之间的调和平均值，能综合评价检测器的性能。公式为：

4.3 、Performance Comparison 性能比较

在本节中，我们将我们的方法与传统的无监督高斯-CFAR以及计算机视觉中其他两种著名的无监督域自适应检测方法DAF和HTCN进行比较，以证明我们的方法实现了卓越的SAR船舶检测性能。下表1和图7给出了比较结果：

在表一中，Faster RCNN-supervised 表示具有完全监督的 SAR 图像的 Faster R-CNN 方法。而带有过渡域的Faster RCNN-supervised是在Faster RCNNsupervised方法的基础上，在训练过程中进一步添加了过渡图像。我们还在表1中与其他有监督目标检测方法进行了比较：SSD、RefineDet 和 FPN。

表1给出了不同方法在AIR-SARship-1.0数据集中的10张测试SAR图像上的检测结果，包括精度、召回率和F1分数，以进行定量分析。从表1可以看出，Gaussian-CFAR的精度和F1-score都很低，由于Gaussian-CFAR是一种传统的无监督检测方法，在复杂场景下其检测性能会降低。就UDA检测方法而言，由于光学域和SAR域之间存在显著差异，直接将计算机视觉中的方法应用于光学到SAR的跨域检测并不理想，因此DAF 和 HTCN 的性能甚至比基于 CFAR 的方法更差；DAF 的性能最差，因为它仅在特征级别传输知识；与DAF相比，HTCN使用CycleGAN来减少像素级别差异，取得更好的结果，但HTCN在低、中、高层特征空间上对齐特征分布，限制了检测性能的提高。本文提出的方法在所有方法中取得了最好的检测性能，验证了该方法的优越性。值得注意的是，我们的方法优于传统的有监督的 Faster R-CNN，并且传统的有监督的 Faster R-CNN 在过渡图像的帮助下可以实现更好的性能。与SSD相比，Faster R-CNN具有更高的F1-Score性能；由于多尺度特征金字塔机制，基于Faster R-CNN的FPN取得了更好的性能；通过引入anchor细化和多尺度特征融合的思想，RefineDet取得了与其他监督方法相比最好的性能。但与 Faster R-CNN 相比，FPN 和 RefineDet 的结构更加复杂。

4.4 、Model Analysis 模型分析

4.4.1 、Ablation Study 消融实验

为了全面研究不同级别对检测性能的有效性，我们通过评估所提出方法的变体进行消融研究。消融研究结果如表二所示，其中OSGAN、Synthetic、Feature 和 Prediction 分别表示是否使用"从光学到 SAR 的GAN"、"图像合成"、"域不变特征表示"和"鲁棒自训练"。可以看到，所有提出的模块都设计合理，并且所有模块都能提高性能。

1）从像素、特征和预测层面转移知识可以显著提高整体情况的性能。我们还将我们的 OSGAN 与传统的 CycleGAN 进行了比较；与 CycleGAN 相比，OSGAN 实现了 +15.17% 的 F1 分数性能，这证明了 OSGAN 的有效性。

2）在像素层面，图像合成可以进一步提高检测性能；Precision=1-FAR，其中FAR代表误报率；可以发现，对船舶目标的图像合成可以显着减少误报，因为特殊的数据增强减少了船舶尾流和复杂的陆地背景对船舶数据生成的影响，同时增强了船舶目标数据的多样性。

3）与特征对齐相比，RST 通过鲁棒地学习 SAR 域更具判别性的特征来取得更好的结果，但 RST 取决于前一级检测器的性能；如果前级检测器性能太差，RST就很难取得好的效果；由于伪标签选择策略，RST可以有效减少误报。我们的方法通过计算图像中提案的平均分数来选择参与训练的图像；包含更多误报（杂乱提议）的图像将具有较低的平均分数，然后这些含有较多误报的图像就会被筛选掉，从而降低检测模型将杂波误判为目标的概率，有利于减少误报。

4.4.2 、Visualization of pixel level 像素层面的可视化

下图8显示了OSGAN和对比CycleGAN的生成结果，从图8中可以看出，OSGAN生成的过渡图像与真实的SAR图像非常相似，并且与 CycleGAN 相比，OSGAN 生成的图像更好地保留了边缘、结构和形状信息。(a)和(d)是原始光学图像，(b)和(e)是CycleGAN的对应生成结果，(c)和(f)是OSGAN的对应生成结果。(g)和(h)是AIRSARShip-1.0中的四幅真实SAR图像。

下图9显示了原始光学图像和合成图像的生成结果。与原始光学图像相比，合成图像只保留了舰船目标，没有尾流和复杂的陆地，可以看作是对舰船目标的一种特殊的数据增强，可以生成更好的船舶目标。可以看出，合成图像能够更好地聚焦船舶目标的特征，避免尾流和复杂的陆地背景对船舶生成的影响。(a)、(e)为原始光学图像，(c)、(g)为对应的无尾迹和陆地的合成图像，(b)、(f)、(d)、(h)为原始光学图像对应的生成结果图像和合成图像。

为了进一步验证我们的光学到 SAR 图像生成对于像素域自适应的有效性，我们通过 t-SNE 给出了光学域、过渡域和 SAR 域的特征分布图。图10（a）和图10（b）显示了通过将相应特征映射到二维空间来从GF2ship数据集到AIR-SARship-1.0的像素适应的结果。如图10所示，由于SAR图像与光学图像之间的显著差异，SAR域与光学域具有广泛的分布差距。图 10 (b) 显示了像素级自适应后的结果。我们生成的过渡域显着减小了域间隙，几乎无法与真实的 SAR 域区分开，这证明了我们方法的优越性。

图 10. 特征分布可视化 t-SNE 结果，其中每个蓝点表示光学 GF2ship 数据集的一个图像特征，每个红色三角形表示 SARship 数据集的一个图像特征，每个橙色斑点表示过渡域的一个图像特征。所有特征都是由VGG16的最后一个卷积提取的。(a)是光域和SAR域的原始结果、(b)是像素级自适应之后的结果、(c)是特征级别适应后的结果。

4.4.3 、Analysis of feature level 特征层次分析

在图10（c）中给出了特征级自适应后的可视化 t-SNE，其中在特征级对齐后由同一提取器提取过渡特征和 SAR 特征。与图10（b）的分布图相比，特征对齐后真实SAR特征的分布进一步对齐并且更接近过渡特征的分布。为了进一步探讨如何将深度检测器从光学转移到SAR，表III评估了不同级别的特征对齐变量，其中Low-level, Middle-level和High-level分别表示低级对齐特征(特征提取器的第三个卷积块)，中级对齐特征(特征提取器的第四个卷积块)和高级对齐特征(特征提取器的第五个卷积块)。从表III可以看出，在高级语义特征空间对齐特征分布的检测器获得了最佳的f1分数性能，在低级特征空间对齐特征分布的检测器最差。

4.4.4 、Analysis of prediction level 预测层次分析

RST可以鲁棒地从伪标签中学习知识，并更新检测器来重新生成未选择图像的标签，更新检测器可以迭代生成具有更高精度/召回率的伪标签，从而提高伪标签的质量。如3.5.2节所述，我们设置一个选择部分p来控制这个过程，其中p表示所选图像占所有训练SAR图像的比例。我们的方法最多有四轮/迭代，每轮/迭代中 p 设置为 0.5、0.7、0.9、1。具体来说，在 AIRSARship-1.0 实验中，51 张 SAR 图像（约占训练 SAR 图像总数的 13%）无法生成伪标签，因为我们的模型无法检测到这些图像中的任何船只。因此，我们的方法在实验中只有三轮/迭代。这个过程在训练阶段会花费更多的训练时间，但不会增加额外的测试成本。

为了探索 RST 的有效性，我们还使用不同的变体和阈值执行 RST。结果如图12 所示，其中"No RST"代表没有伪标签训练的检测器、"proposal"代表仅训练提案级伪标签的检测器、"proposal+smooth"代表基于"proposal"使用标签平滑的检测器、"RST：no-transition"代表未训练过渡图像的RST检测器、和"RST"代表本文提出的RST检测器。在阈值方面，如图12所示，较高的阈值通常可以获得更好的检测性能，因为初始教师模型（特征对齐检测器）的精度相对较低（误报较多）。当阈值为 0.8 时，RST 的 F1 分数达到峰值。不同变体的结果表明，RST提出的所有策略都设计合理，并且所有策略都能提高检测性能。我们的 RST 变体在不使用伪标签的情况下都优于该方法，因为检测器可以直接从 SAR 图像中学习更多辨别知识。与RST的不变量相比，完整版本的RST实现了最佳的F1分数检测性能。实验结果表明，该方法可以通过迭代生成伪标签和鲁棒策略对检测器进行再训练，从而实现对SAR图像的鲁棒学习。

4.4.5 、Discussion

1 ）What knowledge has been transferred

在传统的迁移学习中，首先将源域的模型参数转移到目标域，然后利用标记好的目标域数据进行微调。无监督域自适应设置下的目标域训练数据是无标记的，不可能直接进行监督学习。因此，需要转移两个域的相似度，使标记的光学数据指导未标记SAR数据的学习。大多数无监督域自适应(UDA)方法通过在源域和目标域之间传递共性/相似性知识，为目标域找到良好的特征表示，从而减少分类和回归模型的误差。与大多数UDA方法一样，我们的方法传递的知识是光学域和SAR域之间的相似性，旨在为SAR域的船舶检测任务找到良好的特征表示。

在舰船检测任务中，光学域的舰船与SAR域的舰船既有相似的特征，也有不同的特征。相似的特征有助于提高SAR域的舰船探测性能。如前文所述，UDA将光学域和SAR域之间的相似性进行转换，以找到SAR域的良好特征表示。

2) why our method contributes to detection task

两域的相似特征有助于提高SAR域船舶检测任务的性能，但是光域和SAR域也包含一些不同的特性。例如，由于成像机制的不同，光学图像和SAR图像的外观有很大的不同。此外，光学船舶容易受到尾迹的影响，而SAR船舶容易受到散斑噪声的影响，存在结构缺失等问题。这些差异会影响知识从光学领域向SAR领域的转移。因此，对于UDA方法，我们首先要做的是减少两个域之间的差异，转移两个域之间的相似性。我们的方法在像素级和特征级的目标是减少域之间的差异，并转移两个域之间的相似性，以便标记的光学数据可以指导未标记的SAR域训练数据的学习。虽然特征级可以学习域不变特征来对齐分布并提高检测器的性能，但它会失去一些可能对SAR域检测有用的域特定特征。预测级鲁棒自训练可以通过伪标签直接学习SAR图像的判别特征，有助于检测任务的完成。我们的预测层是进一步使用通过挖掘前两层的相似性学习到的模型来预测高质量的伪标签。

5 、C onclusion

本文提出了一种基于渐进式转移的无监督域自适应船舶检测方法，该方法可以从像素级、特征级和预测级逐步实现光学域和SAR域之间的知识转移。在像素级，舰船目标与纯海洋背景合成图像，减轻了舰船尾迹和复杂陆地背景对舰船目标生成的影响，生成了多样性高质量的舰船目标。此外，通过跳跃连接构建的生成器可以保留底层的纹理、结构和形状信息，生成更满意的SAR图像。在高级特征空间学习域不变特征可以达到更好的效果。在预测层面，本文提出的RST可以通过迭代生成伪标签和鲁棒策略对检测器进行再训练，从SAR图像中鲁棒学习判别知识。特别地，RST被表述为目标检测的损失最小化问题。基于从光学到SAR船舶检测数据集的域自适应的令人信服的结果显著地证明了所提出的UDA检测方法的有效性。