双源判别器助力城市场景语义分割新突破

|-----------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 篇名 | 问题，背景 | 方法 | 其他 |
| 基于双源判别器的域自适应城市场景语义分割 (2023) | 1.跨域数据集外观分布不同导致域差异，导致对抗训练不稳定，分割精度不够理想。 2.网络对小目标分割精度不理想 | 1. 双源判别器（判别器输入包含 2 个不同域的特征信息）（1）对源域 S 使用风格转换方法 FastPhotoStyle 得到新源域 S'，从图像层面降低域差异。（2）利用生成器分别提取源域 S、新源域 S'和目标域 T 的分割特征图，将新源域的特征图作为中间桥梁，分别与源域特征图，目标域特征图进行通道维度上的特征融合（3）将得到的 2 个融合后的特征图输入双源判别器中，双源判别器和生成器迭代进行对抗训练 1. 引入自训练的伪标签将自训练的伪标签（根据阈值选取置信度最高的）作为目标域的监督信息融入对抗训练值 1. 类平衡因子的引入将伪标签中最大概率类别出现的频率之和作为类平衡损失因子引入损失函数中 | 效果 1. 降低域差异，使模型训练更加稳定，更好地实现特征对齐，从而提升性能和分割精度 2. 避免模型的预测结果偏向源域。 3. 缓解分割网络中类不平衡问题，增加网络对小目标的分割能力。（PS:对应方法） |
| 图引导的特征融合和分组对比学习的域自适应语义分割 (2024) | 1.原有方法没有考虑两个域像素之间的关联性以及类不平衡问题，使语义分割网络的跨域性能较差 2. 解决数据集中存在的类不平衡问题，同时提取到更多域不变特征 | 双跨域图卷积网络（1）构造了跨域的位置相似性矩阵和通道相似性矩阵，通过双跨域图卷积来更新图像特征图上的结点信息，建立域内和域间像素的长距离上下文依赖关系，使无监督域自适应分割网络能提取到更多的域不变信息。（2）为了解决类不平衡问题，提出了分组对比学习方法，构造了分组对比损失函数，以进一步提取域不变特征。 | 局限域之间的位置信息挖掘的不够充分，导致模型在一些类别较复杂的场景仍会出现错误分类的情况 |
| 一种结合域自适应的图像语义分割算法（2021） | 1. 数据的收集和标记成本高昂 2. 真实图像与合成图像在分布域上存在的差异会降低模型性能 | 1. 使用成本较低的计算机生成并标记的合成数据训练深度神经网络 2. 通过在输出空间上的对抗学习实现域自适应，根据WGAN对对抗学习损失函数进行改进（采用的域自适应方法是基于卷积神经网络的端到端算法） 3. 通过构建多级对抗学习网络来利用不同级别特征信息以提升模型性能。 | |
| 基于深度学习和域自适应的图像语义分割（2020） | 主要问题：当前的图像分割方法都难以满足工业界的需要，尤其是为了采集训练用数据集带来的巨大人力物力财力消耗细分问题： 1. 图像语义分割的特征对齐可能会因为需要编码大量视觉信息，包括外观、形状和背景信息的复杂高维特征影响，导致效果不好 2. 特征级别低的的可能不会很好的进行域自适应，因为他们距离高层级的标签输出太远 | 主要问题解决方案： 1. 提出了一种创新的生成对抗网络可以进行无监督的图片风格迁移，这个方法基于公共潜在空间的假设，将不同域上的图像通过编码器映射到公共空间的一个编码上，最后在用解码器重建图像以此达到了无监督的图像转换，为后续的图像分割工作提供基础 2. 使用两个级联的生成对抗网络，利用对抗的思想使得网络在不同域上的输出趋于一致并且让判别器无法判断输出来自目标域还是源域。 3. 提出了一种多样性学习方法多样性学习方法通过在多风格数据集上训练，校正了网络在预测时对物体纹理信息的倾向性，转而更多地依靠形状来判断细分问题对应方案： 1. 像素级预测模型迁移方法，在输出空间上（分割图）进行像素级别的域自适应 2. 多层级域自适应的策略，这个策略通过结合分割网络不同层上的输出特征进行对抗学习达成了多层级适应的目的 | 一、图像分割的国内外研究历史和现状 传统分割方法： 1.阈值法2.区域生长方法3.分水岭算法4.基于边缘检测的图像分割算法 基于深度学习的分割方法： 语义分割、实例分割、全景分割 特征提取领域： VGGNet(深度卷积神经网络)-> ResNet(残差网络)-> 全卷积网络**->无监督的图像分割 * 仍存问题 1. 在某些场景中，分割速度是更重要的评价指标，能够接近实时的分割推理速度运行分割模型是这些场景的迫切需求，速度、精度和计算复杂度之间的平衡仍为挑战 2. 深度学习模型的可解释性，是否存在针对特定数据分布且能达到一定分割精度的最小神经网络结构 |
| 基于鉴别模型和对抗损失的无监督域自适应方法（2020） | 收集注释良好的图像数据集来训练深度学习算法成本过高且耗时，而仅在渲染图像训练的模型通常无法推广到真实图像 原方案 ：无监督域自适应算法：试图在 2个域之间映射一些表示或提取域不变的特征，将 2 个域映射到共同的特征空间 | 本文方法 ：基于生成对抗网络( GAN) 架构的无监督域自适应方法：使用鉴别模型，无需权重共享、对抗损失和辅助分类任务，以无监督的方式学习从一个域到另一个域的变换。首先使用源域中的标签学习鉴别表示，然后使用通过域-对抗性损失学习的非对称映射将目标数据映射到同一空间的单独编码。 辅助分类任务：结合辅助的任务学习共同的特征表示 | 本文方法优势：与特定任务的体系结构分离，跨标签空间的泛化以及训练稳定辅助分类任务优势：最大限度地丰富训练样本，增强学习到特征的泛化性能，而且有效增大类间距离和减小类内距离，有利于提高分类精度。 |
| Bidirectional Learning for Domain Adaptation of Semantic Segmentation （双向学习在语义分割域适应中的应用） | 1.手动为大型数据集标注像素级别的标签既昂贵又耗时。现有的域适应技术要么局限于小数据集，要么与监督学习相比性能不佳 2.原有的通过减少域偏移获得的性能受限于图像到图像翻译的质量。一旦翻译失败，后续步骤就无计可施 | 提出了一种新的双向学习框架，用于图像语义分割的域适应。该系统包含两个独立的模块：图像到图像的转换模型和分割适应模型，学习过程涉及两个方向（即"翻译到分割"和"分割到翻译"）。整个系统形成了闭环学习。两个模型将交替促进彼此，从而使域差距逐渐减小。在正向** （即"翻译到分割"）上，提出了一种自监督学习（SSL）方法 来训练分割适应模型。在反向，提出了一种新的感知损失，它强制每个图像像素与其翻译版本之间的语义一致性，从而在翻译模型和分割适应模型之间建立桥梁图像翻译和分割适应模型共同训练，在训练过程中，分割模型可以为图像翻译提供反馈，帮助改善翻译结果的质量和准确性。同时，经过改进的翻译结果又可以作为更好的输入数据，进一步提升分割模型的性能 | 这种方法不仅可以利用虚拟数据来扩充训练集，还可以通过减少域差异来提高分割模型的性能 具体解释： 双向学习 ：该方法通过源域和目标域之间的双向信息流动来减小域间差异。模型不仅从源域学习，还从目标域中学习，增强了对目标域数据的适应能力。 自监督学习 ：自监督学习是一种利用数据自身的信息来训练模型的方法。这种方法不需要额外的标签，而是从数据中提取有用的特征进行训练。通过引入自监督学习，模型能够进一步增强其泛化能力，提高在未见过的数据上的性能。 |
| Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training （基于类平衡自训练的无监督领域自适应语义分割）2018 | 源数据与目标数据之间存在很大差异 ，可能导致性能显著下降，并且不能通过进一步增加表示能力来轻易解决。语义分割需要对每个像素进行密集的预测，这要求模型不仅要学习全局的域转换，还要保留精细的局部结构信息，通过最小化域对抗损失来减少源域和目标域特征分布之间的全局和类别差异的方法效果不理想 | 1. 提出了一种基于迭代自训练（ST）过程的新型UDA框架，可以在目标数据上交替生成伪标签并使用这些标签重新训练模型。 2. 在ST的基础上，还提出了一种新颖的类别平衡自训练（CBST）框架，生成具有平衡类别分布的伪标签，以避免在伪标签生成过程中大类别逐渐占据主导地位 3. 引入空间先验来优化生成的标签。通过结合源域中的类别频率信息和交通场景的常见结构特点，帮助模型更好地理解和适应目标域中的图像数据，调整模型的输出，使其更符合场景的常见结构。 | 1.该模型能够更好地处理迁移难度较大的类别，因为不同类别的迁移难度可能因数据分布、视觉外观或语义复杂性而异。CBST的引入有效地缓解了这个问题，提高了整体分割性能。 2.利用空间先验信息提高了模型的适应性，增强了其在不同数据集之间的泛化能力。 3.该方法与对抗性域适应方法兼容，可与现有的对抗性域适应技术相结合，以进一步提高模型的性能 |
| Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision（2020） | 原方法主要关注于减少源域和目标域之间的全局差异，忽略了目标域内部可能存在的分布变化。在实际应用中，目标域数据可能由于各种因素（如光照、噪声等）而呈现出不同的视觉外观和语义复杂性。这种域内差异可能导致模型在目标域内的某些子集上性能不佳。 | 提出了一种两步自监督域适应方法 ，旨在同时最小化域间差距和域内差距。1.域间适应。2.使用基于熵的排序函数将目标域划分为简单和困难两部分。3.从简单子域到困难子域采用自监督适应技术。具体：1.使用源域数据训练一个初始的分割模型。2.利用该模型对目标域数据进行预测，并根据预测结果的不确定性或其他度量指标将目标域划分为不同的子集。3.针对每个子集应用自监督学习方法，通过最小化子集内部的分布差异来优化模型。 1.通过优化模型在简单图像上的性能，获得一个较好的初始模型。2.利用迭代自训练的方法，逐步将困难图像纳入训练过程（根据模型在简单图像上的预测结果来生成伪标签，将这些伪标签用于监督模型在困难图像上的训练，不断迭代该过程）。 | 优点：能够同时减少域间差距和域内差距，可以帮助模型更好地适应目标域内的各种变化条件，从而提高模型在目标域上的性能，进而提高整体性能。不足：在现实中，源域和目标域之间的差距太大，使得难以在目标域中筛选出足够数量的简单部分进行域内监督 |
| Source-Free Domain Adaptation for Semantic Segmentation （语义分割的无源域适应） 2021 | 现有的无监督域适应方法需要完全访问源数据集，以便在模型适应过程中减少源域和目标域之间的差距。但源数据集通常是私有的，无法与训练好的源模型一起发布。 | SFDA 框架：在知识迁移 和模型适应两个阶段之间交替工作，通过知识迁移，从固定的源模型中保留源域知识 知识迁移 ：利用一个生成器来估计源域（工作域）并合成与真实源数据分布相似的假样本，这些样本可用于将域知识从训练好的源模型转移到目标模型。引入了一种双注意力蒸馏（DAD）机制，帮助生成器合成具有有意义语义上下文的样本，这有利于高效的像素级别域知识转移 模型适应 ：提出了一种基于熵的域内块级自监督模块（IPSM），以在模型适应阶段利用正确分割的块作为自监督（通过结合像素级和块级损失来充分利用目标域的信息，并进一步提高分割性能） | 解决了传统UDA方法需要源数据集的问题，这在保护数据隐私和实际应用中具有重要意义，此外，SFDA框架中的知识迁移和自监督学习机制，能够充分利用源模型和目标域数据的信息，进一步提高了域适应的效果。 |
| Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey （2021.12）综述 | 1. SiS （语义图像分割） 全卷积网络 ：完全卷积层；用全局环境补充 图形模型 ：在 SiS 中集成更大的上下文，用条件随机场补充卷积网络 递归神经网络 ：对像素间的长距离依赖关系进行建模 基于金字塔网络的模型 ：多分辨率重建架构 基于注意力的模型 ：对每个像素位置的多尺度特征进行权衡 基于编码器 - 解码器的模型 ：通过最小化GT和预测的分割图之间的重建损失来训练 膨胀卷积模型： 改善多尺度处理的分割 Transformer 模型：自注意力网络+前馈神经网络 2. DASi S （域自适应图像语义分割） 域对齐：特征级别的适应方法；图像级别的适应方法；输出级别 ...; 互补技术：伪标签和自我训练；目标预测的熵最小化；课程学习；共同培训；自组装；模型蒸馏；对抗性攻击； 自监督学习 3.Beyond classical DASiS 多源DASIS 多目标DASIS 领域泛化半监督域适应 Active DASiS 无源域适应跨域类标签不匹配 |||
| 基于图像风格对抗和二重类别优化的夜间图像语义分割（2024） | 夜间图像语义分割中存在语义信息传递丢失和不重视小频率类别问题 | 基于图像风格对抗和二重类别优化网络架构模型: 首先，将对抗学习风格语义信息和内容语义信息进行同时传递，以避免语义信息的丢失，提高分割精度。其次，利用二重类别指导策略：第１重对源域图像进行采样，对小类别目标进行调整；第２重引入重新加权策略，对小类别目标在最后结果输出时进行类别识别调整，以提高特殊类别目标的权重 | 应用：ITA模型能够较为准确地分割夜间道路图像，可供夜间自动驾驶任务借鉴原有方法及其不足： 1. 在夜间采用白天的训练模型or用黄昏域作为过渡模型(如循环对抗网络）：由于黄昏数据集本身复杂性，算法复杂性增加，不能有效地处理域内间隙问题。 2. 训练１个图像传输网络来生成合成的夜间图像［３］，以增强语义信息的传输:合成的图像过于简单,与真实夜间环境相差较大 |
| Empirical Generalization Study: Unsupervised Domain Adaptation vs. Domain Generalization Methods for Semantic Segmentation in the Wild （2023） | 现实很多场景不在模型的训练数据中表示，导致性能不佳，从目前的文献中尚不清楚哪种方法具有更好的泛化能力 | 提出了一个评估框架，在这个框架中，可以公平地比较最先进的UDA和DG方法的泛化能力。从这次评估中，我们发现利用未标记数据的 UDA 方法在泛化方面优于 DG 方法，并且可以在看不见的数据上提供与需要标记所有数据的全监督训练方法相似的性能。其中，使用未标记数据的能力在实现这一目标方面起着关键作用 | 结论强烈建议使用 UDA 策略训练语义分割模型，这些模型需要在野外可靠且稳健地使用标记和许多未标记的数据，特别是考虑到未标记数据比标记数据更容易、更便宜地收集 |
| Domain Adaptation for Semantic Segmentation with Maximum Squares Loss | 半监督学习中当将熵最小化应用于 UDA（无监督域适应）进行语义分割时，熵的梯度偏向于易于转移的样本。未标记目标域中存在类别不平衡 | 1. 提出了具有线性增长梯度的最大平方损失，可防止训练过程被目标域中易于转移的样本所主导。 2. 引入了图像加权因子，该因子比传统的类加权因子更适合 UDA 3. 利用多层级输出来提升性能 | |
| A review of domain adaptation without target labels 综述2019 | 分类器如何从源域学习并推广到目标域 | 1. 基于样本的方法（ 基于对单个样本的数据抽样程序中的偏差进行校正，侧重于数据重要性加权或类重要性加权）：基于假设协变量偏移的数据重要性加权、基于假设先验偏移的类重要性加权 2. 基于特征的方法（ 围绕映射、投影和表示特征，使源分类器在目标域上表现良好）：子空间映射、最优传输、域不变空间、深度域适应和对应学习 3. 基于推理的方法（ 将适应纳入参数估计程序，是一个多样化的类别）：算法鲁棒性、最小最大估计器、自学习、经验贝叶斯和 PAC-贝叶斯 | 未来方向及工作 1. 为假设的有效性开发假设检验 ：假设是没有目标标签的领域适应的必要组成部分，并且这些假设强烈影响特定方法何时成功或失败。 2. 研究可解释的程序： 比较成功案例和失败案例之间对转移的明确描述可以产生新的见解。 3. 领域适应不仅与许多科学和工程学科相关，而且对于集成多站点数据集和现有算法的计算费用也很有价值 |
| 针对车辆与行人检测的感兴趣区域自适应分割算法 | 在基于图像的车辆与行人检测中，车载摄像机采集的行车图像混杂大量无关信息，不仅耗费了计算资源还可能干扰检测目标特征的提取，而现有的固定比例/区域的感兴趣区域图像分割适应性低 | 提出一种基于消失点和车辆高度的ＲOI 自适应分割算法。首先，该算法利用道路消失点准确找到道路位置，避免分割区域浪费，保证检测的实时性; 其次，综合车辆实际高度及检测算法有效检测距离对图像上车辆高度进行补充，减少目标不完整分割，增加检测的准确性; 最后，循环利用前一帧行车图像的车道消失点及其推导的实时俯仰角更新下一帧ＲOI，以做到依据路面坡度情况及车身俯仰姿态的ＲOI 实时自适应分割。 | 该算法速度快，鲁棒性好，在不同情况下都能做到ＲOI 的快速精确分割，有利于后续检测的实时性和准确性 |
| Unsupervised Domain Adaptation for Semantic Segmentation with Pseudo Label Self-Refinement 2024 | 利用为新数据生成的伪标签，指导学生模型的训练过程的方法在训练过程中存在嘈杂的伪标签传播问题，会导致性能下降 | 提出训练辅助伪标签细化网络，通过定位和细化它们来帮助自我训练不太容易受到错误伪标签预测的影响。它优化嘈杂的伪标签，提高其质量，并通过预测具有挑战性的像素（可能具有错误预测的标签）的二进制掩码来定位伪标签中的潜在错误。并且在框架中引入了两个额外的组件，对比学习和基于傅立叶的风格适应，以进一步提高训练模型的质量。 | 第一个是新的伪标签细化模块，该模块可以学习预测精细的伪标签以及包含噪声标签信息的错误掩码。还开发了一种使用基于FFT的扰动的新颖训练策略，使我们能实现细化模块的预期行为。该框架在三个 UDA 细分基准中明显优于 SOTA 方法，涵盖正常到恶劣天气和合成到实际适应。 |
| Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers2024 | 大多数领域适应方法无法有效地处理多模态数据（将RGB视觉效果与深度信息相结合）目的：实现无源域适应，在不访问源数据的情况下进行适应 | 使用 RGB-D 视觉转换器进行无源语义分割提出了MISFIT：MultImodal Source-Free Information fusion Transformer，这是一个深度感知框架，它将深度数据注入基于视觉转换器的分割模块中。此外，还提出了一种基于深度的熵最小化策略，以适应不同距离的权重区域。在输入级别，在预训练期间利用了风格迁移;在功能层面，通过在变压器的注意力模块中交换信息来解决多模态设置;在输出层面，将基于深度的自学策略用于领域适应通过利用由深度数据提供的互补信息驱动的多种适应策略，提出的多模态框架可以提高分割模型的鲁棒性和泛化能力 | 解决了具有挑战性的无源域适应设置，即在不重用源数据的情况下执行适应未来的研究将致力于改进基于变换器的分割模型中对深度数据的利用，以及开发专门针对真实深度数据与估计深度数据之间不一致性的域适应策略 |
| 领域自适应研究综述2021 | 目标领域标注数据稀缺，训练数据和测试数据通常具有不同的输入特征空间和数据分布 | 1.算法分类 2.基于距离度量的方法 KL 散度、最大均值差异、Wasserstein 距离、最大密度差异 3.基于对抗学习的方法基于对抗性判别的方法、基于对抗性生成的方法 4.其他代表性方法基于重构的方法、基于样本选择的方法 | 1. 应用图像分类、目标检测、自然语言处理、推荐系统 1. 现存挑战及未来研究方向 流式数据与在线持续迁移学习、语义分歧与开放集迁移学习、数据隐私与数据访问受限的迁移学习、负迁移 |
| Multi-Modal Unsupervised Domain Adaptation for Semantic Image Segmentation 2023 | 现有的UDA方法仅处理RGB图像，或者通过辅助深度估计任务来培养深度意识。我们认为，对语义分割至关重要的几何线索，例如局部形状和相对位置，很难从仅使用颜色（RGB）信息的辅助深度估计任务中恢复 | 提出了一种名为MMADT的新型多模态UDA方法，旨在利用附加信息来提高适应性能，该方法依赖于RGB和深度图像作为输入，并在多模态学习范式下训练模型。特别是，设计了一个深度融合块（DFB）来重新校准深度信息，并利用深度对抗训练（DAT）来弥合源域和目标域之间的深度差异。此外，提出了一种名Geo-Assistant（GA）的自监督多模态深度估计辅助网络，以对齐RGB的特征空间和深度，并塑造MMADT对深度信息的敏感度 | 这是第一个提出的解决多模态学习范式下UDA问题的工作额外的模态可以有效地增强模型的解析能力并抵抗域偏移改进方面：（a）高效的多模态融合策略，（b）更令人印象深刻的网络结构，以及（c）在具有挑战性的天气条件下的通用特征表示 |
| Refign: Align and Refine for Adaptation of Semantic Segmentation to Adverse Conditions2023 | 利用跨域对应关系改进无监督域自适应语义分割，是对基于自我训练的 UDA 方法的通用扩展问题：目前最先进的UDA方法依赖于自我训练，其中网络使用自己的目标域预测进行训练，作为自我监督。其中的正则化策略旨在以迭代方式将可用的真实标签正确地传播到相邻的未标记样本。此过程中的一个关键问题是噪声标签的错误传播，如果不加以缓解，会导致伪标签发生漂移。研究表明，大型神经网络很容易过度拟合以标记噪声，从而降低其泛化性能 | Refign ：这是基于自我训练的 UDA 方法的通用附加组件，它为每个目标域图像利用了一个额外的参考图像。Refign 包括两个步骤：（1）参考预测与目标预测的不确定性感知对齐，（2）根据对齐的参考预测对目标预测进行自适应优化。为了启用步骤（1），提出了UAWarpC，这是匹配方法WarpC 的概率扩展。UAWarpC在流量精度和不确定性估计方面都达到了最先进的性能。步骤（2）由非参数标签校正方案组成。方案：通过合并两个独立视图的预测来推理给定场景的标签，从而改善误差传播问题 | |
| SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation 2023 | 自训练利用伪标签，许多方法试图减轻伪标签中的噪声，但忽略了训练数据之间的内在联系，即跨域和域内像素表示之间的类内紧凑性和类间分散性。因此，这些方法在处理跨域语义变化时遇到困难，无法构建结构良好的嵌入空间，导致判别力较弱和泛化能力较差 | 提出了语义指导的像素对比（SePiCo），这是一种新颖的一阶段适应框架，它强调单个像素的语义概念，以促进跨域的类判别性和类平衡像素表示的学习，最终提升自训练方法的性能。1.研究了一种基于质心的像素对比方法，利用整个源域或单个源图像的类别质心来指导判别性特征的学习。 2.考虑到语义概念中可能缺乏类别多样性，进一步从分布的角度入手，引入足够数量的实例，即分布感知的像素对比。其中，根据带标签源数据的统计信息近似每个语义类别的真实分布。此外，这种优化目标可以通过隐式地涉及无限数量的（不）相似对来推导出闭式上界，从而使其在计算上高效。 | SePiCo不仅有助于稳定训练，还能产生判别性的表示，在合成到真实和白天到夜晚的适应任务中都取得了显著进展 |