CVPR 2025|基于粗略边界框监督的3D实例分割

论文信息

题目：Sketchy Bounding-box Supervision for 3D Instance Segmentation

基于粗略边界框监督的3D实例分割

作者：Qian Deng, Le Hui, Jin Xie, Jian Yang

源码：https://github.com/dengq7/Sketchy-3DIS

论文创新点

探索粗略边界框标注：论文首次探索将粗略边界框标注用于3D实例分割，实现使用对噪声有容忍度、与实例大小无关的3D边界框进行训练。
提出全新弱监督框架：提出一种新的弱监督3D实例分割框架Sketchy-3DIS，该框架包括自适应的从框到点伪标注器和从粗到精实例分割器，用于联合训练。
实现领先性能：在ScanNetV2和S3DIS数据集上，该方法在基于粗略边界框标注的弱监督3D实例分割任务中取得领先性能。
设计关键组件：设计了自适应从框到点伪标注器，能将粗略的边界框标注转换为精细的点级实例标注；还设计了从粗到精实例分割器，可识别并分割点云中的点为不同实例。

摘要

边界框监督在弱监督3D实例分割中受到了广泛关注。虽然这种方法减轻了对大量点级注释的需求，但在实际应用中获得准确的边界框仍然具有挑战性。为此，作者探索了不准确的边界框，即粗略边界框，通过对真实边界框添加缩放、平移和旋转扰动来模拟它。在本文中，作者提出了Sketchy-3DIS，这是一种新颖的弱监督3D实例分割框架，它联合学习伪标签生成器和分割器，以提高在粗略边界框监督下的性能。具体来说，作者首先提出了一种自适应的框到点伪标签生成器，它自适应地学习将位于两个粗略边界框重叠部分的点分配到正确的实例中，从而生成紧凑且纯净的伪实例标签。然后，作者提出了一种由粗到精的实例分割器，它首先从整个点云中预测粗实例，然后基于粗实例的区域学习细实例。最后，通过使用伪实例标签来监督实例分割器，作者可以通过联合训练逐步生成高质量的实例。大量实验表明，作者的方法在ScanNetV2和S3DIS基准测试中都取得了最先进的性能，甚至超过了几种使用粗略边界框的全监督方法。

关键词

3D实例分割；弱监督学习；粗略边界框；伪标签

引言

随着3D数据集的兴起以及对3D场景理解需求的不断增长，各种3D计算机视觉任务[19, 25, 28 - 31, 33, 34, 36, 42 - 44, 50, 51]受到了学术界和工业界的极大关注。其中，3D实例分割既基础又具有挑战性，因为它涉及识别点云内每个物体的类别并勾勒出其单独的掩码。当前的3D实例分割方法[2, 13, 14, 30, 34, 36, 41]已经展现出令人印象深刻的性能，主要依赖于数据驱动的深度学习方法，这些方法需要大量的训练数据和密集的点级手动注释。值得注意的是，在ScanNet中进行点级全监督实例注释每个场景大约需要22.3分钟[6]，而在ScanNet中标记一个3D框每个场景大约需要1.93分钟[38]。因此，边界框注释脱颖而出，因为它在提供大量实例级信息的同时保持了合理的注释成本，使其成为弱监督3D实例分割中受欢迎的注释选择。

许多弱监督方法已经出现来解决3D实例分割任务。半监督3D实例分割方法[5, 12, 23, 45]使用带有部分标签的训练数据，而其他方法[5, 12, 23, 45]则利用间接标签，如2D图像注释。此外，还采用了对象级注释，例如为每个对象标记单个点[7, 24, 37, 38]或绘制一个边界框[4, 8, 29, 49]。边界框监督是弱监督3D实例分割的另一种重要注释方式。Box2Mask [4]是首次尝试使用边界框监督进行3D实例分割。随后，以下方法[8, 27, 29, 49]分别使用不同的约束来提高性能，例如使用局部相关性、高斯过程、师生模型、SAM [16]。尽管在弱监督3D实例分割中已经取得了令人印象深刻的结果，但这些方法仍然依赖准确且紧凑的边界框注释。

值得注意的是，在实践中，准确且紧凑的框很难获得。通常，注释的边界框涉及缩放、平移和旋转的变化。如图1所示，作者观察到GaPro [29]在缩放后的边界框监督下性能显著下降。这促使作者设计一种新方法来处理这些不准确的边界框注释。

在本文中，作者提出了一种弱监督3D实例分割框架来处理粗略边界框监督。为了模拟粗略边界框，作者对真实边界框施加缩放、平移和旋转以生成不准确的边界框。作者的方法由两个关键组件组成：自适应框到点伪标签生成器和由粗到精的实例分割器。给定一个点云场景和粗略边界框，作者首先使用3D U - Net [9]主干网络提取点特征。之后，作者将学习到的特征和场景的粗略边界框输入到自适应框到点伪标签生成器中，以生成高质量的点级实例标签。对于位于两个粗略边界框重叠区域的点，作者通过学习点与框的相似性，自适应地将点分配到相应的框中。对于其余的点，作者根据空间相关性直接将它们分配到相应的框中。通过这种方式，作者可以将粗略边界框转换为紧凑的边界框。作者将位于生成的紧凑边界框内的点的标签视为伪实例标签。为了准确预测实例，作者将学习到的特征迭代输入到由粗到精的实例分割器中。作者首先通过对整个点云执行查询来检测实例的粗边界框和掩码。基于粗边界框的小区域，作者通过在更精确的小区域内进行查询来重新预测精细的边界框和掩码。最后，通过联合优化自适应框到点伪标签生成器和由粗到精的实例分割器，作者的方法可以使用粗略边界框注释逐步提高弱监督3D实例分割的性能。在ScanNetV2和S3DIS上进行的大量实验表明，作者的方法取得了最先进的性能。

作者的贡献如下：

作者首次探索了在3D实例分割中使用粗略边界框注释，这允许使用具有噪声容忍、与实例大小无关的3D边界框进行训练。
作者提出了一种新的弱监督3D实例分割框架，该框架提出了一种自适应框到点伪标签生成器和一种由粗到精的实例分割器用于联合训练。
作者的方法在ScanNetV2和S3DIS数据集上，在粗略边界框注释下的弱监督3D实例分割任务中取得了领先的性能。

方法

概述

作者基于粗略边界框的弱监督3D实例分割的整体框架如图3所示。它由两个关键组件组成：自适应框到点伪标签生成器和由粗到精的实例分割器。

假设一个3D点云，其中和分别表示3D点的数量和通道数。在基本设置中，每个点由3D坐标、RGB颜色和表面法向量表示。在训练阶段，作者首先将输入点云和粗略边界框（在3.2节中定义）输入到3D UNet主干网络进行特征提取，然后对超点[21]中的点特征求平均以生成超点级特征。接下来，作者将特征和粗略边界框输入到自适应框到点伪标签生成器（3.3节）中，将粗略的框级注释转换为实例的详细点级注释。同时，作者将特征输入到由粗到精的实例分割器（3.4节）中，通过Transformer预测实例。最后，作者在生成的伪标签（视为真实标签）和预测的实例之间进行双边匹配，以建立它们之间的对应关系进行训练（3.5节）。在推理阶段，将新的点云输入到主干网络和由粗到精的实例分割器中以分割实例。

粗略边界框设置

作者的方法专注于研究基于粗略边界框（即不准确边界框）的弱监督3D实例分割。在实践中，对于弱监督3D实例分割，无法获得紧凑的3D边界框注释。因此，作者通过对真实边界框进行缩放、平移和旋转扰动来模拟粗略边界框。如图2所示，作者展示了不同类型粗略边界框的生成过程。

具体来说，给定由两个角点位置表示的真实边界框：

首先，作者分别对真实边界框进行缩放、平移和旋转操作，以生成基本的不准确边界框，其公式为：

其中，、、是不同操作的参数。注意，且。考虑到手动注释的3D边界框与紧凑的3D真实边界框不会有显著差异。因此，作者根据经验为这些参数设置较小的值。在实验中，作者分别设置，，。然后，作者通过组合这些基本操作、和生成各种粗略边界框。在图2中，作者展示了四种类型的粗略边界框，分别命名为S1、S2、S3和S4，红色矩形表示准确框，蓝色矩形表示各种粗略边界框。可以观察到，从S1到S4，"粗略程度"增加，使得实例分割更具挑战性。

自适应框到点伪标签生成器

粗略的3D边界框监督对于3D实例分割来说是一种不准确的弱注释。为了将粗略注释的框转换为细粒度的点级实例注释，作者提出了一种自适应框到点伪标签生成器，它可以将框内的点分配到相应的实例。具体来说，作者首先区分位于边界框内的点，然后通过学习点与3D边界框之间的相关性，自适应地将它们分配到相应的实例。

框条件下的点划分：根据点与3D边界框的关系，存在三种类型的点：位于边界框外部的点（即背景点）、位于单个边界框内的点以及属于多个边界框的点。由于背景点（见图3中的黑色圆圈点）不在任何3D边界框内，它们直接被标记为背景。位于单个或多个边界框内的点可能是目标上的点（见图3中的绿色/黄色/蓝色圆圈点）或背景点。因此，作者需要其他策略来帮助区分目标点和背景点。
自适应点到实例分配：对于位于单个3D边界框内的点（见图3中的边界框B3），作者通过比较点与3D边界框之间的相似性来过滤背景点（即B3中的黑色圆圈点）。具体来说，作者考虑坐标空间和特征空间中的相似性。框坐标和框特征通过对其中点的坐标和特征求平均得到。点与3D边界框之间的相似性可以公式化为：

其中，表示余弦相似性。此外，和分别表示点和框的特征，而和分别表示点和框的坐标。通过这种方式，期望过滤掉相似性低的背景点。

对于位于多个3D边界框重叠部分的点（通常是两个框，见图3中的框B1和B2），通过学习点与边界框之间的相似性将它们分配到相应的实例。然而，由于重叠区域中点标签的不确定性，很难从边界框中为这些点获得高置信度的语义标签。因此，作者考虑去除每个框内的重叠点，并使用剩余的可靠点（见图3中的和）进行相似性学习。由于可靠点仅位于一个框内，它们的标签与框标签一致。给定一个点特征、框特征和，作者使用多层感知机（MLP）网络来学习相似性得分，其公式为：

其中，和捕捉点与框之间的差异。此外，框特征通过对其中的点特征求平均得到。注意，在计算框特征之前，作者通过公式(3)消除框内的背景点。为了监督相似性学习，作者使用交叉熵损失来公式化伪标签损失，其定义为：

其中，是可靠点的标签，表示它所属的框。

之后，作者使用在可靠点（见图3中的和）上训练的模型来预测不可靠点（见图3中的和）的标签。期望位于框重叠部分的点可以被分配到相应的实例，从而获得伪实例标签。

由粗到精的实例分割器

边界框监督为3D实例分割提供了粗略的形状信息。为了获得详细的实例，作者提出了一种由粗到精的实例分割器，它可以识别点云中的点并将其分割成各种实例。具体来说，作者首先使用查询从整个点云中学习以获得粗实例，然后这些查询通过多级注意力块从粗实例指示的区域中学习以细化实例。

粗实例分割：假设一个场景由个对象组成，每个查询代表一个对象并对实例相关的特征进行建模：每个实例的语义类别和掩码。在作者的方法中，这些查询首先与整个点云的主干特征交互以获得粗实例。考虑到粗实例的逐点掩码不能整体且精确地描述一个对象，作者分别预测另外两个具有粗粒度和细粒度的框。然后，这两个框与场景级特征结合，通过多级注意力块细化初始的粗实例。
分层实例细化：为了利用来自点云和分割出的粗实例的多粒度特征的优势，作者引入了一种新颖的解码器结构，利用注意力使实例查询与不同粒度的特征进行分层交互。解码器由六个块组成。每个块包括一个多级注意力块和一个实例分割头，如图3所示。
多级注意力块：多级注意力块的细节如图4所示。这些实例查询首先与逐点主干特征进行全局交互，然后与粗实例局部描述的区域进行交互。粗实例描述的区域分为可靠和不可靠区域，分别由预测框和核心框描绘。为了充分探索粗实例和这两个框所隐含的各种粒度的形状信息，作者首先将获得的粗实例抽象为一个框，称为。然后，作者探索与预测框之间的一致信息，以获得可靠区域的特征，其描述如下：

其中，表示阈值化操作，表示逐点乘法。此外，表示主干特征，表示预测掩码概率。和分别表示预测框和由预测掩码确定的框。到目前为止，实例查询已经从整个点云和可靠区域中学习，它们可以分割出大多数具有简单上下文的对象。为了处理复杂上下文，实例查询从预测核心框描述的不可靠区域中学习。预测核心框是从预测框缩放得到的，旨在表示对象的核心区域，相应的特征如下获得：

其中，表示预测核心框。实例查询以这种从全局到局部的方式具有很强的判别能力，然后将它们输入到自注意力模块和前馈网络中聚合学习到的信息，这进一步提高了性能。

双边匹配与训练损失

作者的方法首先在伪实例和预测实例之间进行双边匹配，然后利用配对的伪实例作为真实标签来监督配对的预测实例。

双边匹配：遵循SPFormer [36]和ISBNet [30]，作者的方法使用匈牙利方法[18]来实现最优分配。作者计算成对匹配成本来评估第个预测实例和第个伪真实标签之间的相似性。基于分类概率和二进制掩码，其定义为：

训练损失：作者的训练损失由两项组成，即伪标签生成损失和实例分割损失，其定义为：

对于实例分割，除了监督预测的语义类别和二进制掩码外，作者还监督预测的边界框和在由粗到精的实例分割器中使用的核心框。核心框尺度的真实值基于预测掩码和伪真实掩码的IoU分数。实例分割损失定义为：

实验

实验设置

数据集：作者在两个数据集上进行实验，即ScanNetV2 [6]和S3DIS [1]。ScanNetV2提供了包含1201个、312个和100个场景的分割，分别用于训练、验证和测试。场景标注有涵盖18个类别的语义标签和实例标签。S3DIS数据集是另一个室内数据集，包含六个不同区域的272个场景，并标注有13个对象类别。遵循现有方法[4, 27, 29]，S3DIS区域5的场景用于验证，其他区域用于训练。
评估指标：作者使用平均精度均值（AP）作为ScanNetV2和S3DIS的评估指标，这是3D实例分割中常用的评估指标。AP是IoU阈值从95%到50%以5%步长的平均得分。IoU阈值为50%和25%的平均精度均值也用作评估指标，分别表示为AP50和AP25。
实现细节：作者的模型在单个RTX 3090 GPU上进行训练，作者分别使用SPFormer [36]和ISBNet [30]作为ScanNetV2和S3DIS的代码库。作者使用AdamW优化器，学习率为0.0002，权重衰减为0.05用于ScanNetV2的训练。对于匹配成本和损失的权重，设置为(0.5, 1.0, 0.5)。所有模型均从头开始训练，在没有特殊说明的情况下，超参数和训练细节与[36]或[30]保持相同。

主要结果

ScanNetV2：在表1中，作者将自己的方法与现有最先进的方法在ScanNetV2数据集上进行比较。由于Sketchy - 3DIS的创新设计，它同时实现了伪标签生成和实例分割，作者的方法在ScanNetV2的验证集和在线测试集上都取得了可观的性能。值得注意的是，在没有多模态先验[49]或合成场景[27]的情况下，作者的方法在AP25方面超过了现有方法，这证明了作者方法的有效性。此外，与全监督方法相当的性能表明作者的方法可以在自动驾驶中高效地发挥重要作用。
S3DIS：在表2中，作者将现有方法与作者提出的Sketchy - 3DIS在S3DIS区域5上进行比较。一致的优势证明了作者提出的Sketchy - 3DIS具有很强的泛化能力。值得注意的是，作者的方法在AP50上比全监督基线[30]高出3.3，这验证了作者提出的Sketchy - 3DIS可以充分利用粗略边界框提供的实例指示。

伪标签质量比较：作者比较了GaPro [29]和作者的方法在S1粗略边界框下生成的伪标签质量。定性比较如图5所示，这表明作者的方法不仅在细节上（由绿色圆圈突出显示）比GaPro生成更准确的伪标签，而且在区分属于同一类别的对象方面（由红色圆圈突出显示）也更准确。此外，与真实标签相比，作者的方法生成的伪标签也具有可比性。

消融研究与分析

作者进行了全面的消融研究，以证明作者方法的有效设计。除非另有说明，所有这些消融实验均在ScanNetV2验证集上进行。

各种粗略边界框下的鲁棒性：在表3中，作者在图2所示的四种不同粗略边界框下，在ScanNetV2验证集和S3DIS区域5上评估作者的方法。可以观察到，随着框的粗略程度增加，作者方法的性能略有下降，这验证了作者提出的Sketchy - 3DIS的鲁棒性。

标签生成器和分割器的有效性：在表4中，实验在S3DIS区域5上进行，以验证作者设计的自适应框到点伪标签生成器和由粗到精的实例分割器的有效性。作者选择最先进的无监督3D实例分割方法UnScene3D [32]作为基线。实验结果验证了作者设计的伪标签生成器可以生成高质量的伪标签，并且与作者设计的实例分割器相结合，作者的方法取得了显著的性能提升。
伪标签生成器中组件的有效性：在表5中，作者评估了作者设计的伪标签生成器中各种组件的有效性。第一行是最先进的无监督方法[32]的结果，最后两行的比较验证了通过学习点到框的相似性和点到实例的分配，可以通过过滤框内的背景点和分配重叠框内的点来提高性能。
多级注意力块中各种注意力的有效性：在表6中，作者对多级注意力块中使用的注意力层的各种组合进行消融研究。使用四个注意力模块的组合获得了最佳性能。这些实验结果验证了作者提出的多级注意力块可以自适应地探索局部上下文并进行聚合，从而逐步提高分割性能。
实例分割损失的有效性：在表7中，作者比较了预测框、核心框和掩码损失的性能。结果表明，结合上述三种损失与作者的由粗到精的实例分割器，可获得最佳性能，取得了令人鼓舞的效果。

3D实例分割的定性结果：图6展示了ScanNetV2验证集上预测实例的一些可视化样本。可以观察到，作者的方法在分割简单和复杂场景中的对象时都表现出一致的有效性。即使存在许多属于同一类别的对象且它们彼此靠近，作者的方法在使用粗略边界框注释时也表现出可观的性能。值得注意的是，作者的方法可以自适应地分割真实标签中被忽略的对象，如红色圆圈突出显示的橱柜，这展示了作者方法强大的识别能力。

结论

在这项工作中，作者提出了一种基于查询的弱监督3D实例分割框架Sketchy - 3DIS，它比现有的边界框监督方法更鲁棒、更有效。Sketchy - 3DIS从粗略边界框自适应地生成伪逐点标签，并以由粗到精的方式预测实例。在ScanNetV2和S3DIS基准测试上的大量实验表明，作者的方法取得了领先的性能，甚至超过了一些全监督方法。然而，作者的探索性实验表明，当注释的粗略边界框极其不准确时，作者方法的性能会严重下降，对这个问题的探索可能是未来的研究方向。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。