计算机视觉——人像的分割与无缝融合

1.概述

新加坡现代汽车集团创新中心的一篇新论文提供了一种在计算机视觉中分离"融合"人像的方法------在这些情况下，对象识别框架发现一个人在某种程度上与另一个人"太接近"（例如例如"拥抱"动作或"站在后面"的姿势），并且无法区分所代表的两个人，将他们与一个人或一个实体混淆。

二合一，但这在语义分割中并不是一件好事。在这里，我们看到论文的新系统在复杂且具有挑战性的图像中对相互交织的人进行个性化方面取得了最先进的结果。

这是近年来引起研究界广泛关注的一个值得注意的问题。解决这个问题，不需要明显但通常无法承受的超大规模、以人为主导的自定义标签的费用，最终可以改善文本到图像系统中的人像图片个性化，例如 Stable Diffusion，它经常将人们"融化"在一起，而提示的姿势需要多人彼此靠近。

像DALL-E 2和Stable Diffusion这样的文本到图像模型（在上面都有提到）在表现非常接近彼此的人时会遇到困难。

尽管 DALL-E 2 和 Stable Diffusion 等生成模型（就闭源 DALL-E 2 而言）目前并未使用语义分割或对象识别，但这些怪诞的人类混合体无法目前可以通过应用此类上游方法来治愈------因为最先进的对象识别库和资源在解开人们的困扰方面并不比 CLIP基于潜在扩散模型的工作流程。

为了解决这个问题，论文《人类不需要标记更多的人：用于遮挡人体实例分割的遮挡复制和粘贴》采用并改进了最近的半合成数据"剪切和粘贴"方法，以在任务中取得新的 SOTA 领先优势，即使是针对最具挑战性的源材料：

新的遮挡复制和粘贴方法目前在该领域处于领先地位，甚至与以前的框架和方法相比，这些框架和方法以复杂和更专用的方式应对挑战，例如专门针对遮挡进行建模。

2. 剪切

修改后的方法名《遮挡复制和粘贴》源自 2021 年 简单的复制粘贴 由 Google Research 领导的论文，该论文提出，在不同源训练图像中叠加提取的对象和人物可以提高图像识别系统离散化图像中发现的每个实例的能力：

从 2021 年 Google Research主导的论文"简单复制粘贴是一种用于实例分割的强大数据增强方法"中，我们看到一张照片中的元素"迁移"到其他照片，目的是训练更好的图像识别模型。

新版本在这种自动和算法的"重新粘贴"中添加了限制和参数，根据几个关键因素，将该过程类比为一个图像"篮子"，其中充满了"转移"到其他图像的潜在候选者。

OC&P 的概念工作流程。

2.控制元素

这些限制因素包括 可能性 发生剪切和粘贴，这确保该过程不会一直发生，这将实现"饱和"效果，从而破坏数据增强；这 图像数量 篮子在任何时候都会有，其中大量的"段"可能会改善实例的多样性，但会增加预处理时间；和范围，它确定将粘贴到"主机"图像中的图像数量。关于后者，论文指出 __"我们需要足够的遮挡才能发生，但又不能太多，因为它们可能会使图像变得过于混乱，这可能不利于学习。"OC&P 的另外两项创新是 针对性粘贴 和 增强实例粘贴.

有针对性的粘贴可确保适当的图像落在目标图像中现有实例附近。在之前的方法中，根据之前的工作，新元素仅被限制在图像的边界内，而不考虑上下文。

尽管这种有针对性的"粘贴"对于人眼来说是显而易见的，但 OC&P 及其前身都发现，增加视觉真实性并不一定重要，甚至可能是一种负担（请参阅下面的"现实片段"）。

另一方面，增强实例粘贴可确保粘贴的实例不会表现出"独特的外观"，这种"独特的外观"最终可能会被系统以某种方式分类，从而可能导致排除或"特殊处理"，从而阻碍泛化和适用性。增强粘贴可调节视觉因素，例如亮度和清晰度、缩放和旋转以及饱和度等因素。

从新论文的补充材料来看：将 OC&P 添加到现有的识别框架相当简单，并且可以在非常紧密的范围内实现人们的卓越个性化。

此外，OC&P 还监管 最小尺寸 对于任何粘贴的实例。例如，可以从大规模人群场景中提取一个人的图像，然后将其粘贴到另一张图像中，但在这种情况下，所涉及的少量像素不太可能有助于识别。因此，系统根据目标图像的均衡边长比率应用最小比例。

此外，OC&P 还建立了比例感知粘贴，除了寻找与粘贴主题相似的主题外，它还考虑了目标图像中边界框的大小。然而，这并不会产生人们认为合理或现实的合成图像（见下图），而是以在训练过程中有用的方式将语义上相关的元素彼此靠近地组装起来。

3.照片真实性

OC&P 所基于的先前工作以及当前的实现都对任何最终"蒙太奇"图像的真实性或"照片真实性"给予了较低的重视。尽管重要的是最后的组装不要完全陷入达达主义（否则，经过训练的系统在现实世界中的部署永远不会希望遇到它们所训练的场景中的元素），这两项举措都发现"视觉可信度"的显着增加不仅增加了预处理时间，而且这种"现实主义增强"实际上可能会适得其反。

来自新论文的补充材料：具有"随机混合"的增强图像示例。尽管这些场景可能让人产生幻觉，但它们仍然具有相似的主题。尽管遮挡对于人眼来说是不可思议的，但潜在遮挡的性质无法提前知道，并且不可能进行训练 - 因此，这种奇怪的形式"截止"足以迫使经过训练的系统去寻找找出并识别部分目标主体，无需开发复杂的 Photoshop 风格的方法来使场景更加真实。

4.数据与测试

在测试阶段，系统接受了以下方面的培训：人的类 MS COCO 数据集，包含 262,465 张图像中的 64,115 个人类样本。然而，为了获得比 MS COCO 更好质量的掩模，图像也收到了 LVIS 掩码注释。

LVIS 于 2019 年发布，来自 Facebook 研究，是一个用于大型词汇实例分割的海量数据集。

为了评估增强系统对抗大量被遮挡的人类图像的能力，研究人员将 OC&P 与 OCHuman （被遮挡的人类）基准。

来自 OCHuman 数据集的示例，该数据集是为了支持 2 年的 Pose2018Seg检测项目而引入的。该计划旨在通过使用人的立场和姿势作为代表其身体的像素的语义分隔符来改进人的语义分割。

由于 OCHuman 基准没有详尽注释，新论文的研究人员仅创建了完全标记的示例的子集，标题为 OCHumanFL。这减少了人用于验证的 2,240 个图像中的 1,113 个实例，以及用于测试的 1,923 个实际图像中的 951 个实例。使用平均精度 (mAP) 作为核心指标，对原始集和新策划的集进行了测试。

为了保持一致性，该架构由以下组成面具R-CNN 具有 ResNet-50 主干和特征金字塔网络，后者在准确性和训练速度之间提供了可接受的折衷。

研究人员已经注意到上游的有害影响 ImageNet 为了避免类似情况下的影响，整个系统在 4 个 NVIDIA V100 GPU 上从头开始训练，训练了 75 个 epoch，遵循 Facebook 2021 版本的初始化参数 Detectron 2.

总结

除了上述结果之外，基线结果还针对 MM检测（及其三个相关模型）的测试表明 OC&P 在从复杂的姿势中识别出人类的能力方面具有明显的领先优势。

除了表现出色之外位置分段和姿势2段，也许这篇论文最突出的成就之一是该系统可以非常普遍地应用于现有框架，包括那些在试验中与之对抗的框架（参见第一个结果框中的有/无比较，靠近文章的开头）文章）。

论文的结论是：

"我们方法的一个主要优点是它可以轻松应用于任何模型或其他以模型为中心的改进。鉴于深度学习领域发展的速度，拥有与训练的各个其他方面具有高度互操作性的方法对每个人都有利。我们将在未来的工作中将其与以模型为中心的改进相结合，以有效地解决被遮挡的人物实例分割问题。

改进文本到图像合成的潜力

主要作者 Evan Ling 在给我们的一封电子邮件*中观察到，OC&P 的主要好处是它可以保留原始面具标签，并在新颖的背景下"免费"从中获取新的价值，即它们曾经存在过的图像。粘贴到.

尽管人类的语义分割似乎与稳定扩散等模型在个体化人（而不是像经常做的那样"将他们混合在一起"）方面的困难密切相关，但语义标签文化可能对噩梦般的人类产生任何影响渲染出来的SD和DALL-E 2经常输出是非常非常远的上游。

数十亿莱昂5B 填充稳定扩散生成能力的子集图像不包含对象级标签，例如边界框和实例蒙版，即使从图像和数据库内容组成渲染的 CLIP 架构可能在某些时候从此类实例化中受益；相反，LAION 图像被标记为"免费"，因为它们的标签源自元数据和环境说明等，当图像从网络抓取到数据集中时，这些标签与图像相关联。

"但除此之外，"林告诉我们。 "在文本到图像生成模型训练期间可以使用类似于我们的 OC&P 的某种增强功能。但我认为增强训练图像的真实性可能会成为一个问题。

"在我们的工作中，我们表明监督实例分割通常不需要'完美'的真实感，但我不太确定文本到图像生成模型训练是否可以得出相同的结论（特别是当它们的输出预计将非常现实）。在这种情况下，在"完善"增强图像的真实感方面可能需要做更多的工作。

剪辑是已经被使用作为语义分割的一种可能的多模态工具，表明改进的人识别和个性化系统（例如 OC&P）最终可以开发成系统内过滤器或分类器，它们会任意拒绝"融合"和扭曲的人类表示------这是一项很难实现的任务目前使用稳定扩散，因为它理解错误位置的能力有限（如果它有这样的能力，它可能一开始就不会犯错误）。

这只是目前使用 OpenAI 的 CLIP 框架（DALL-E 2 和 Stable Diffusion 的核心）进行语义分割的众多项目之一

"另一个问题是，"林建议道。 "在训练过程中是否会简单地向这些生成模型提供被遮挡的人类图像，而没有补充模型架构设计来缓解"人类融合"问题？这可能是一个很难立即回答的问题。看看我们如何在文本到图像生成模型训练期间注入某种实例级指导（通过实例级标签，如实例掩码）肯定会很有趣。