用于物体识别和跟踪的下游任务自监督学习-1-引言

一：引言：

图像和视频理解是计算机视觉应用中的基本问题，旨在使机器能够像人类一样解释和理解视觉数据。这些问题涉及识别图像和视频中的对象、人物、动作、事件和场景。如图1.1-（a）所示的图像识别任务包括对象检测 $1$ 、实例 $7$ 、语义 $8$ 或全景分割 $9$ ，以定位对象、识别其边界并预测图像帧中所有事物的像素类别。姿态和深度估计技术 $10$ 预测图像中对象的关键点/姿态和深度。典型的挑战关于图像理解任务是物体外观、姿态、尺度以及图像中杂乱和遮挡的存在的巨大可变性。另一方面，视频理解问题涉及对单个图像的预测的时间连接。例如，多对象跟踪 $12$ 建立对象之间的时间关系以及跨视图数据关联 $11$ 连接视频序列中的多视图信息。图1.1（b）-（c）显示了视频理解任务的一个示例，其中两个相机之间的时间关联使用单独的图像识别结果，并在视图中保持唯一的目标身份，现代机器学习技术使用大量标记数据来处理这些任务。然而，在现代计算机视觉应用中，图像和视频理解技术在不利用手动标签或使用一些手动标签的情况下解决复杂的现实世界任务是一个具有挑战性的问题。

解决大型数据集必要性的流行方法包括：

i）自监督学习（SSL） $13$ 、用于对象检测的半监督学习（semi-SL） $14$ 和具有挑战性的开销视角下的实例分割任务 $15$ ；

ii）用于在具有挑战性数据集上推广全景分割 $16$ 任务的SSL，

iii）用于时空判别嵌入的不确定性感知多任务学习，以解决多对象跟踪和分割 $17$ ，以及

iv）用于视频监控 $18$ 和3D姿态估计 $11$ 的无监督多视图关联。

使用手动标签是为特定任务设计深度卷积神经网络（CNN）模型的一种流行策略。然而，当数据域随时间和位置频繁变化时，这种策略更具挑战性，计算机视觉应用程序就是如此，如视频监控、自动驾驶汽车或农业自动化。现有的完全监督工作在这些应用中的局限性促使我们开发自监督/无监督学习方法来解决图像/视频理解问题。解决域更改问题的最流行技术之一是SSL，它调整模型以在新域中进行预测，而无需访问手动生成的标签。在图像/视频识别问题中，多任务学习是另一种策略，其中数据或任务相关的不确定性有助于有监督 $10$ 或无监督模型以便与单个任务策略相比更好地收敛。

图像/视频理解算法的最终目标是解决更高级别的问题（也称为下游任务），例如使用多个相机的多个对象跟踪 $19$ 。尽管如此，这些算法可能还需要大量的手动注释。本文旨在以自监督/无监督的方式解决图像理解问题，如多目标检测和分割，以及视频理解问题，例如多视图跟踪和关联问题。

基于公开可用数据集的预训练模型必须具有足够的鲁棒性，以解决新的具有挑战性的数据集中的类似情况。领域自适应方法 $20$ 在解决这一问题时变得很流行。SSL $21$ 和Semi-SL算法 $22$ 被广泛用于将模型知识转移到新的数据域，而不是使用昂贵的手动注释从头开始训练模型。

这些领域自适应方法目前用于解决具有挑战性的下游任务和骨干特征。

1.1问题陈述

本文的主要贡献是新颖的学习技术，以减少对大量手动注释的需求。更具体地说，它解决了以下五个问题

1.1.1问题陈述#1

对于下游任务，特定于数据集的预训练卷积神经网络在不熟悉的相机视角下表现不佳。在提出的目标检测器 $1，6$ 中，通过利用监督学习技术，使用骨干网络的多尺度特征来解决下游任务。 因此，基于细胞神经网络的检测器很难在不熟悉的摄像机视角下预测先前学习的目标类别。精确的定位和精确的形状预测是拥挤监视应用中高层决策问题的四个关键。

对于单目 $23$ 或多视图跟踪 $11$ 应用，不同相机网络 $18$ 中的俯视视角、局部可见性、相机角度变化等挑战降低了时间信息关联的一致性。我们提出了一种数据增强技术，其中同一输入帧的多个推断生成新的增强目标分布，并估计可能的未知位置。，

当使用大型手动注释数据集 $24$ 进行训练时，大多数基于深度学习的检测 $14$ 和分割模型 $7$ 都具有高精度。现代深度学习模型利用数据扩充在训练过程中学习更多的例子，并在看不见的领域进行迁移学习。然而，大多数增强技术都改进了主干特征学习，这只是间接地提高了下游任务的性能。尽管简单的几何变换可以改进下游任务预测，但很少有系统的方法从基于变换的增强中引导深度模型。因此，在目标2和3中，我们解释了如何有效地转移深度CNN模型学习中的知识，以解决不熟悉数据集中的对象检测问题。

1.1.2问题陈述#2

在多视图场景理解中，检测或分割模型需要大量的人工注释来了解不同的视角或领域。由于视角变化的挑战，在公开可用的大规模数据集 $24$ 上训练的预训练模型 $7$ 难以检测部分遮挡或小物体。在大多数计算机视觉应用程序中，典型的方法是使用人工注释的标签来微调模型以适应新的数据域。然而，这种方法依赖于繁琐且昂贵的人工注释过程和特定于部署的训练数据。例如，视频监控系统的巨大可变性和对摄像头特定调整的依赖性需要使用手动标签对监控模型进行部署特定的微调。获得这些昂贵的手动标签是目前广泛采用基于深度神经网络的模型进行此类应用的主要障碍。

为了克服这一挑战，我们打算使用目标1中提出的算法来设计一种新的自监督算法，该算法使用自动生成的伪标签和不可见数据上的网络预测不确定性来更新模型。

1.1.3问题陈述#3

对于语义预测，当预先训练的模型不知道数据域时，迁移学习是具有挑战性的。对于语义或实例分割应用 $7，9$ ，一种常见的方法是使用手动标签来训练深度CNN。 为了从监督模型中实现高质量的预测，有时需要计算昂贵的后处理算法 $25$ 。然而，这种模型不能推广到实质上不同的数据集，特别是在存在变化的照明、相机视角或背景杂波的情况下。我们打算设计一种使用自动生成的增强语义伪标签的SSL方法，这增加了模型对感兴趣对象的敏感性。所提出的主动学习策略（目标3）减少了具有挑战性的数据集的语义不确定性，并降低了语义标记成本。所提出的方法可以在不降低性能的情况下避免昂贵的后处理方法。

1.1.4问题陈述#4

传统的多目标分割和跟踪方法利用监督学习，并采用单独的运动和外观模型来执行关联，但无监督联合学习的多任务模型可以提高跟踪一致性。多目标分割和跟踪算法 $26，12$ 通常采用监督学习技术来生成有区别的嵌入特征，然后应用基于复杂目标运动模型的关联技术。对人工注释的依赖性限制了现有方法对现实世界问题的适用性。同样，个体运动和外观模型的监督学习未能产生令人满意的跟踪一致性 $27$ 。然而，对于许多真实世界的应用程序，联合时空嵌入的任务依赖性不确定性感知学习使得使用无监督聚类来执行数据关联成为可能。时空嵌入增加了多个对象.

1.1.5问题陈述#5

对于多摄像机网络来说，实时多目标跟踪是一项挑战，因为现代深度学习架构在高分辨率复杂视觉数据中执行检测时具有很高的计算要求。对于在多摄像机网络中跟踪多个对象，典型的策略 $28，11$ 是使用单摄像机跟踪器（SCT），然后在2D或3D空间中执行多摄像机关联。尽管外观特征被广泛用于跨相机执行关联，但在高架相机视图中，跨相机匹配变得具有挑战性，并且计算复杂性相应增加。为了解决多摄像机跟踪中的这些限制，我们打算设计一个框架（目标5）来执行实时单摄像机检测、跟踪和多摄像机关联。优化内存资源，并行化内部检测和跟踪过程，使实时处理多摄像头监控任务成为可能。并行计算.

1.2目标

在本文中，我们解决了五个关键挑战：i）多对象检测和分割中的视角变化，ii）用于多对象检测、分割和跟踪的半监督/自监督/无监督学习，iii）用于语义和全景分割的SSL，iv）无监督多视图关联，v）图像/视频理解问题中的实时多摄像机多目标跟踪。这些挑战体现在以下五个研究目标中。

目标1：开发一种测试时间数据增强算法，以提高基于区域建议的检测器的性能。

该目标旨在通过提高最先进的目标检测和分割算法对感兴趣目标的灵敏度来提高其性能。当前的检测器和后处理算法不能在8个显著的透视失真下检测目标。因此，我们的目标是开发一种基于多重推理的聚类/投票算法，以在几何失真的场景中识别目标，而无需以适用于任何检测器的方式进行额外训练，作为一种稳健的后处理算法。这种基于无监督聚类的数据增强算法也减少了错误检测。它激励我们设计一种自监督算法，该算法在自监督训练期间使用目标1的结果作为高质量的伪标签生成步骤。

目标2：设计一种自监督学习技术，以克服在多视图场景理解中对人类注释的依赖。

基于深度细胞神经网络的检测器通常使用标记数据进行训练，以解决特定应用中的检测问题。该模型需要使用新标记的数据进行微调，以便部署在新的应用程序或相机网络中。然而，手动标记任务对于大规模应用来说是昂贵且乏味的。为了解决新领域或看不见的数据分布中的标记成本和迁移学习挑战，我们设计了一种SSL算法，该算法使用自动生成的伪标签来更新模型。SSL的最终目标是通过简单地使用未标记的数据和初始模型权重，在现实世界的应用程序中将学习从一个领域转移到另一个领域。

目标3：设计一种用于语义分割的自监督学习策略。

我们探索了我们的自监督方法在语义分割中的有效性，而不依赖于大量的标记数据和计算昂贵的后处理方法。我们的目标是将知识从初始模型稳健地转移到任何具有挑战性的数据集，而无需执行乏味的语义标记工作和推广任何数据集的学习。

目标4：设计一种基于任务相关不确定性的无监督时空特征学习技术。

无监督学习是机器学习的另一个领域，模型在不利用标记数据的情况下进行学习。在多目标跟踪和分割应用程序中，为每条轨迹生成标记数据既昂贵又耗时。为了解决这些问题，我们建议设计一种时空聚类方法来跟踪和分割视频序列中的单个目标实例。由于嵌入式特征提取和小轨迹关联独立于检测器训练，我们可以很容易地将这种无监督的轨迹生成方法与任何预先训练的多任务预测器一起使用，而无需使用手动轨迹标签。因此，我们的多目标跟踪和分割算法可以应用于任何数据集，只要检测器在新的领域中表现良好。目标2中的SSL方法可以在新的场景中提高检测器的性能。

目标5：实现一个实时多摄像机多目标跟踪系统。

我们将我们提出的基于SSL的模型应用于多摄像机跟踪算法中。我们通过有效利用中央处理单元（CPU）和图形处理单元（GPU）的计算，设计了一种实时多摄像头轨迹关联（MCTA）方法。实时MCTA的目标是将目标1和目标2结合起来，用于真实的多摄像机跟踪系统，在这些系统中，为每个设施创建标记数据可能具有挑战性。关于跨相机的多个对象身份的一致性和大规模相机网络的计算复杂性，我们的目标是将MCTA应用于其他应用领域，如无人机（UAV）对象跟踪、自动驾驶车辆和基于视频分析的监控系统。

1.3论文贡献

到目前为止，本文所描述的研究成果已以以下三篇同行评审论文的形式发表：1。A.Siddique，R.J.Mozhdehi，H.Medeiros，"用于多对象跟踪和分割的无监督时空潜在特征聚类"，英国机器视觉会议，2021年。

2.A.Siddique，H.Medeiros，"在安检点使用多个高架摄像头跟踪乘客和行李物品"，载于IEEE系统、人类和控制论汇刊：系统，2022年12月。

3.A.Siddique、A.Tabb和H.Medeiros，"用于多种果树花种的泛光学分割的自监督学习"，载于IEEE机器人与自动化快报，第7卷，第4期，2022年10月。

A. Siddique, R. J. Mozhdehi, H. Medeiros, "Unsupervised Spatio-temporal Latent Feature Clustering for Multiple-object Tracking and Segmentation", in British Machine Vision Conference, 2021.
A. Siddique, H. Medeiros, "Tracking Passengers and Baggage Items using Multiple Overhead Cameras at Security Checkpoints", in IEEE Transactions

on Systems, Man, and Cybernetics: Systems, Dec. 2022.

A. Siddique, A. Tabb and H. Medeiros, "Self-Supervised Learning for Panoptic Segmentation of Multiple Fruit Flower Species," in IEEE Robotics and Automa-tion Letters, vol. 7, no. 4, pp. 12387-12394, Oct. 2022.

用于多目标跟踪和分割的无监督时空聚类。在 $17$ 中，我们提出了一种无监督的时空潜在特征聚类算法，以提高跟踪一致性，而无需利用手动注释进行多对象跟踪和分割。我们通过在鲁棒Re-ID方法中使用不确定性感知的潜在特征来扩展该方法以解决遮挡问题。我们还利用SSL技术来增强多对象跟踪和分割（MOTS）任务的多对象检测。我们的端到端算法减少了MOTS应用程序新领域中的跟踪故障。我们的研究基于自监督/无监督学习技术，它适用于看不见的视频数据集，对于这些数据集，获得手动注释非常繁琐且昂贵。

自我监督的检测学习。这项工作的另一个应用是基于计算机视觉的视频分析方法，以自动化筛查过程，并减少空中运输安全官员的认知负荷-港口安全检查点。该捐款是一个名为"关联行李和特定乘客"（CLASP）的多机构项目的一部分。乘客及其相应的物品，如手提包、行李箱和背包，在配备了多个头顶摄像头的机场安检点进行跟踪和关联。我们使用了一个预先训练的多目标检测器模型，并提出了一种SSL技术 $18$ ，其中我们使用测试时数据增强、建议回归和基于无监督聚类的伪标签生成来更新初始检测模型。我们的学习技术减少了知识从一个安全检查点转移到另一个检查点的过程中的实例不确定性，而不需要使用大量的人工标签。根据场景在视角失真、尺度和外观变化方面的复杂性，我们的方法可以很容易地应用于完全自监督或半监督的情况。

多品种果花分割的自监督学习。我们开发了另一种SSL技术来解决多任务模型 $9$ 的语义不确定性预测问题，该模型用于多物种水果花分割和计数应用。该方法也有助于估计果园的开花统计数据，以优化水果生产。为了将模型知识从一个果园转移到另一个果园，我们提出了一种用于伪标签生成的基于轮换的测试时间数据扩充策略和用于模型更新的类似扩充方法。

我们还采用了语义细化策略 $25$ 来提高伪标签的质量，然后使用具有旋转不变性的鲁棒自动生成标签更新模型，即即使我们旋转原始输入帧，预测分数和分割轮廓也保持稳定。

我们发现，与该应用程序最近的基线相比，有了显著的改进，并提出了一个简单的策略来计算多个果园中的花朵数量我们的方法仅使用标记数据在单个果园数据集上初始化多任务模型。尽管如此，我们的完全自我监督方法减少了对多物种花卉数据集繁琐而昂贵的人标签的依赖。

多摄像机Tracklet关联。我们设计了一种实时无监督的多视图数据关联技术来解决高架摄像机网络中的多目标跟踪和关联问题。所提出的检测跟踪算法由自监督检测器和单摄像机跟踪器组成，包括鲁棒的重新识别（Re-ID）模块。跨摄像机关联是多摄像机跟踪的核心组成部分。我们使用单个摄像机轨迹的2D投影，并解决了具有重叠视场的摄像机对的二部分关联问题。使用图优化方法获得了整个网络中摄像机对上轨迹的一对一匹配，以确定乘客身份在摄像机之间的切换。由于我们的方法只使用目标的轨迹和基于图像变换的单应性，而不依赖于相机校准和头顶目标外观，因此我们的跨相机关联算法是可扩展的，即，我们可以基于可用的计算资源增加网络大小。这种方法适用于不同的完全/部分重叠的网络，不受相机布局的限制，也不需要昂贵的人工标签

实时多摄像头跟踪。最后，为了将本文的核心组件应用于实际应用，我们提出了一种实时多摄像机跟踪（MCT）算法。这项工作也是CLASP项目的一部分，多个机构负责开发算法来解决问题的不同方面。沿着这个方向，我们开发了半监督检测器、自监督SCT和MCTA的在线版本，这些版本使用几个GPU将输入视频帧处理为多摄像机批次。我们为每个相机分配一个GPU进程，以生成实时多对象检测和跟踪。为了组合每个GPU进程的结果，我们将处理后的数据传输到另一个并行CPU进程中，以实时执行多相机关联。

1.4 论文组织

本文共分七章。在第一章中，我们介绍了计算机视觉在现实世界中的应用领域，以及本文提出的方法所解决的四个主要问题。第2章包含与一些计算机视觉概念相关的背景、处理视觉数据的机器学习技术、卷积神经网络模型的设计方法，以及多目标检测、分割、单相机和多相机跟踪应用中现有学习技术的总结。第3章描述了一种新的基于数据扩充的伪标签生成技术，以及所提出的用于多目标检测和实例分割任务的不确定性感知自监督学习算法。