LabelAny3D: Label Any Object 3D in the Wild

摘要

从单目输入中检测 3D 空间中的物体对于从机器人技术到场景理解的应用至关重要。尽管在室内和自动驾驶领域取得了先进的性能，但现有的单目 3D 检测模型由于缺乏 3D 真实世界数据集和 3D 标注的挑战，难以处理真实世界图像。我们提出了 LabelAny3D ，一个分析-合成 框架，它从 2D 图像重建整体 3D 场景，以高效生成高质量的 3D 边界框标注。基于此流程，我们提出了 COCO3D ，这是一个用于开放词汇单目 3D 检测 的新基准测试，源自 MS-COCO 数据集，涵盖了现有 3D 数据集中缺失的广泛物体类别。实验表明，LabelAny3D 生成的标注提高了多个基准测试上的单目 3D 检测性能，在质量上优于先前的自动标注方法。这些结果证明了基础模型驱动的标注在现实、开放世界环境中扩展 3D 识别的前景。

图 1：我们提出的 COCO3D 基准测试中的样本。

1 引言

单目 3D 物体检测------从单个 RGB 图像中识别和定位 3D 空间中的物体------是一个新兴的研究方向，在机器人技术、自动驾驶和具身 AI 中具有广泛的应用。与依赖激光雷达等专用传感器的方法相比或多视图立体 [46, 47,11, 12,77, 84, 80, 79, 52,20]，单目方法轻量、易获取且能效高，使其非常适合许多现实世界的部署（例如，AR/VR 可穿戴设备）。最近的进展，如 Cube R-CNN [7]，通过在大型、高质量数据集上训练，实现了强大的 3D 检测性能，而 OVMono3D [75] 将此任务扩展到开放词汇设置，旨在从单目视图中检测任意物体类别的 3D 位置。

图 2：概述。(a) Omni3D [7] 提供了大规模的 3D 标注，但主要覆盖室内和自动驾驶场景。(b) 提出的 LabelAny3D 重建 3D 场景（左）以标注物体 3D 边界框（右）。© 利用 LabelAny3D 的伪标签训练单目 3D 检测器，提高了其在 Omni3D 新类别 [75] 和我们新的 COCO3D 基准测试上的 AP3D\mathrm{AP}_{3\mathrm{D}}AP3D（平均精度；越高越好）。

尽管取得了进展，但最近的研究 [7,75, 22, 27] 突出了一个关键瓶颈：需要大规模、带有高质量 3D 边界框标注的数据集来进行有效的训练和评估。这与视觉和语言基础模型 [1, 45, 60] 中观察到的更广泛趋势一致：性能随着更多样化、更真实的训练数据和高质量监督而显著提高。然而，与 2D 图像识别或语言任务不同，现有的 3D 数据集 [8,23,7,4,15] 在可扩展性、场景多样性和几何复杂性方面仍然受限。如图 2a 所示，Omni3D [7]------目前最大的公共数据集------主要由室内 [15, 4, 63, 2, 58] 和自动驾驶场景 [24,9] 主导，对常见物体（例如动物）的覆盖有限。这些限制阻碍了通用单目 3D 检测器的训练和评估。虽然先前的工作 [7,75,78] 在 MS-COCO [40] 的真实世界图像上展示了定性成功，但缺乏 3D 标注阻碍了系统和定量的基准测试。这激发了本工作的核心问题：我们如何能以最少的人工监督，在自然图像上生成高质量的 3D 标注？

可扩展 3D 数据集构建面临两大挑战。首先，收集 3D 数据成本高昂：真实世界图像很少包含深度信息，而激光雷达或深度传感器需要昂贵的硬件和仔细校准，使其可扩展性远低于 RGB 捕获。其次，标注 3D 数据劳动密集：标注 3D 边界框比 2D 标注需要付出更多努力。一些先前的工作试图解决这些问题。例如，OVM3D-Det [27] 使用现成的度量深度估计模型 [53, 6] 将 2D 图像提升到 3D 以生成伪激光雷达数据，并使用来自大语言模型的物体尺寸先验（例如，行人的平均身高为 1.7 米）推断 3D 边界框。虽然这对于尺寸一致的物体（例如汽车）有效，但该方法难以处理类别内差异大的类别（例如，婴儿 vs 成年大象）。它还严重依赖准确的度量深度预测------当仅依赖 2D 输入时，这仍然是一个本质上不适定的任务，因为物体外观与焦距和到相机的实际距离都纠缠在一起。另一种方法，3D Copy-Paste [22]，通过将合成的 3D 模型插入图像中来增强 3D 标注，但这引入了模拟到现实的挑战。

为了克服这些限制，我们提出了 LabelAny3D ，一个自动 3D 标注流程，能够高效地为任意类别的物体生成 3D 边界框。与先前的工作 [22,27] 不同，LabelAny3D 采用分析-合成范式：它从单目图像重建整体 3D 场景，并使用合成表示推断空间一致的 3D 物体标注（图 2b 和 3）。我们的框架基于三个关键观察：(1) 虽然度量深度估计仍然不适定，但相对深度估计 [66] 明显更可靠和一致；(2) 由大规模 3D 形状数据集 [17] 和生成建模技术 [72] 驱动的物体中心 3D 重建的最新进展，已能实现准确的形状恢复；(3) 2D 视觉基础模型 [33, 45] 在多样化、真实世界的视觉领域中提供了强大的泛化能力。

通过整合多样化的视觉基础模型，LabelAny3D 以最少的人工监督生成了适用于训练单目 3D 模型和构建基准测试的高质量 3D 标注。我们的实验表明，我们流程生成的 3D 标注在多个基准测试上持续改善了单目 3D 检测性能（图 2c），优于现有的自动标注方法 [27]。我们进一步推出了 COCO3D，这是一个使用我们的流程经过人工细化后从 MS-COCO [40] 验证图像中筛选出的新基准测试，涵盖了在真实世界中遇到的各种日常物体类别，如图 1 所示。

总之，我们的主要贡献如下：

我们提出了 LabelAny3D，一个通过分析-合成方式高效生成真实世界图像上高质量 3D 边界框的流程。
我们证明了 LabelAny3D 生成的 3D 标注持续改善了单目 3D 检测性能，超越了现有的自动标注方法。
我们策划了 COCO3D，一个用于开放词汇单目 3D 检测的新基准测试，其物体类别范围多样，超越了现有 3D 数据集的覆盖范围。

2 相关工作

3D 数据集。已开发许多数据集来支持 3D 检测。KITTI [23] 和 nuScenes [8] 专注于自动驾驶，为城市环境中的物体检测和跟踪提供激光雷达和相机数据。SUN RGB-D [63]、Hypersim [58] 和 ARKitScenes [4] 针对室内设置，捕捉具有深度和语义标注的房间尺度布局。Objectron [2] 利用移动设备收集真实世界的 3D 物体扫描，实现细粒度的物体中心学习。Omni3D [7] 统一了多个数据集，创建了一个用于通用 3D 物体检测的大规模基准测试，但现有基准测试在覆盖多样化、开放世界场景方面仍然有限。相比之下，我们提议将 3D 数据集扩展到室内和自动驾驶领域之外。这使得能够在多样化、真实世界场景中实现更广泛的泛化。

单目 3D 检测。该任务的早期研究主要集中在户外[14,82, 83, 68, 13, 81,26, 67] 或室内环境[16,28, 49, 61, 35]的专门应用，特别是针对自动驾驶和房间布局估计。Omni3D 数据集促进了 Cube R-CNN [7] 在统一单目 3D 检测方面的开创性工作。随后，UniMODE [39] 通过提出首个成功的适用于不同环境的 BEV 检测器扩展了这些进展。尽管取得了这些成就，但大多数现有方法受限于封闭词汇表。开放词汇 3D 检测的最新进展 [46, 47,11, 12,77,84,80, 79, 52,20, 69] 主要侧重于利用 3D 点云，而 OVMono3D [75] 首次探索了仅使用单目图像作为输入的开放词汇 3D 检测任务。DetAny3D [78] 通过更好的 2D 先验和广泛的训练数据进一步提升了性能。然而，这些模型在泛化到 MS-COCO [40] 等真实世界图像时仍然面临挑战，突显了训练数据集中领域覆盖限制的持续问题。

标注高效的 3D 检测。由于 3D 标注成本高，先前的研究已经调查了减少单目 3D 检测任务对 3D 监督依赖的方法 [27,71,31,10,25]。例如，Huang 等人 [27] 利用开放词汇 2D 模型和伪激光雷达自动标注 RGB 图像中的 3D 物体，而 3D Copy-Paste [22] 将合成的 3D 物体形状插入 2D 图像以增强 3D 标注。此外，SKD-WM3D [31] 通过从预训练的深度估计模型中提取知识，引入了弱监督的单目 3D 检测框架。虽然这些弱监督方法已被证明是有效的，但它们的应用通常局限于室内或自动驾驶环境。在本工作中，我们的目标是开发新技术来扩大 3D 检测模型的领域覆盖范围。

模型在环数据标注。模型在环数据标注利用基础模型来增强和加速数据标注。先前的工作已在各种任务中探索了这种方法。Stereo4D [32] 利用立体深度估计 [42] 和 2D 跟踪 [19] 模型构建 3D 轨迹数据集。Cap3D [48] 采用视觉语言模型，如 BLIP2 [38]、CLIP [54] 和 GPT-4 [1]，开发了用于 3D 资产描述的扩展流程。DynPose [59] 通过集成先进的跟踪 [19] 和掩码 [55,29] 模型创建动态相机姿态数据集。与这些方法不同，我们的工作侧重于从单视图图像进行 3D 边界框标注的任务。通过结合先进模型，如单目深度估计 [66, 6] 和图像到 3D 重建 [72]，我们的流程实现了准确高效的 3D 标注。

图 3：LabelAny3D。(a) 给定一张图像，我们首先提取高分辨率物体裁剪；(b) 然后通过鲁棒的深度估计、3D 物体重建和 2D-3D 对齐算法构建整体 3D 场景。(c) 最后，可以轻松地从重建的 3D 场景中提取 3D 标签。

3 LabelAny3D：通过 3D 重建实现自动 3D 标注

本节详细介绍提出的 LabelAny3D 标注流程。如图 3 所示，该流程通过以下步骤从输入图像生成伪标注。

图像超分辨率 。由于物体尺度小或压缩伪影等因素，MS-COCO [40] 中的许多物体以低分辨率出现，这对 3D 重建等下游任务构成了挑战。为了解决这个问题，我们利用 InvSR [76]，一种基于扩散的超分辨率模型，将输入图像增强 ×4×4×4 倍。这通过恢复细节和锐化物体边界来提高感知质量。给定输入图像 I∈RH×W×3I \in \mathbb{R}^{H \times W \times 3}I∈RH×W×3，增强后的图像为 ISR∈R4H×4W×3I^{\mathtt{SR}} \in \mathbb{R}^{4H \times 4W \times 3}ISR∈R4H×4W×3。

2D 实例分割 。先前的研究表明，MS-COCO [40] 中的真实分割掩码通常存在标注错误。为了缓解这个问题，我们利用 CoCONut 数据集 [18]，它提供了基于 MS-COCO [40] 标注构建的、经过细化和高质量的分割掩码。给定一张图像及其超分辨率版本 ISRI^{\mathrm{SR}}ISR，我们计算每个物体掩码 MMM 与边界掩码的交集，如果物体的总交集超过阈值，则该物体被视为被截断并被排除。接下来，每个掩码 MMM 使用最近邻插值上采样到 MSR∈R4H×4WM^{\mathrm{SR}} \in \mathbb{R}^{4H \times 4W}MSR∈R4H×4W 以匹配 ISRI^{\mathtt{SR}}ISR 的分辨率。我们还移除任何后处理掩码面积低于阈值的物体，因为此类物体太小，几何信息不可靠。使用 ISRI^{\mathtt{SR}}ISR 和 MSRM^{\mathtt{SR}}MSR，我们提取目标物体的增强裁剪。

非模态补全与 3D 重建 。为了处理被遮挡的物体，我们采用了受 Gen3DSR [3] 先前工作启发的非模态补全策略。我们利用 Gen3DSR 中的学习非模态补全扩散模型来修复物体裁剪的缺失区域，生成目标物体的补全版本 OcompO_{\mathrm{comp}}Ocomp。使用 OcompO_{\mathrm{comp}}Ocomp，我们应用单视图 3D 重建方法（例如，TRELLIS [72]）来恢复规范姿态下具有归一化尺度的完整 3D 网格。

场景几何估计。我们利用来自 MoGe [66] 的场景几何的仿射不变表示，以及来自度量深度估计模型（如 Depth Pro [6]）的另一个表示。为了恢复 3D 几何，MoGe 深度图被对齐到度量深度图的尺度和透视，后者被认为代表真实世界几何 [5, 3]。此步骤确保 MoGe 的深度值被缩放和变换以匹配目标场景的度量尺度和视点。接下来，使用 MoGe 模型提供的相机内参矩阵将对齐后的深度图反投影到 3D 空间，以恢复目标场景的完整 3D 结构。

通过 2D-3D 对齐进行姿态估计 。在获得 2D 物体区域 OcompO_{\mathrm{comp}}Ocomp 和 3D 重建后，我们通过估计其相对于输入图像的姿态来将 3D 物体定位在场景内。这是通过真实图像和物体网格 Meshsr\mathrm{Mesh}{\mathrm{sr}}Meshsr 的一组渲染视图之间的密集对应匹配来实现的。我们采用 MASt3R [37] 来计算超分辨真实图像和渲染视图之间的 2D-2D 对应关系。令 x0∈R2x{0} \in \mathbb{R}^{2}x0∈R2 表示真实图像中的像素坐标，x1∈R2x_{1} \in \mathbb{R}^{2}x1∈R2 表示渲染视图中的坐标。这些匹配的关键点在图像边界和无效深度区域附近被过滤。使用渲染深度图以及渲染的已知内参和外参，我们将 x1x_1x1 反投影以获得网格 Meshsr\mathrm{Mesh}{\mathrm{sr}}Meshsr 上对应的 3D 点 Xc∈R3X{c} \in \mathbb{R}^{3}Xc∈R3。给定得到的 3D-2D 对应关系 (Xc,x0)(X_{c}, x_{0})(Xc,x0) 和从 MoGe [66] 推断出的相机内参 KKK，我们应用带有 RANSAC [21] 的透视-n-点（PnP）求解器 [36] 来估计相对相机姿态 (R,T)(R, T)(R,T)。然后使用此姿态将物体变换到输入图像的坐标系中，产生与原始场景相对布局对齐的重建。

通过深度对齐进行尺度估计 。为了恢复度量尺度，我们使用基于深度的尺度估计将渲染的物体与真实场景对齐。具体来说，给定分割得到的二值掩码 MMM 和使用先前估计姿态获得的渲染掩码 MrenderM_{\mathrm{render}}Mrender，我们计算重叠区域 Ω=M∩Mrender\Omega = M \cap M_{\mathrm{render}}Ω=M∩Mrender。令 DrealD_{\mathrm{real}}Dreal 和 DrenderD_{\mathrm{render}}Drender 分别表示来自同一姿态的真实和渲染深度图，我们估计尺度因子 sss 为深度比的中位数：

s=median(Dreal(Ω)Drender(Ω)) s = \mathrm{median} \left( \frac{D_{\mathrm{real}}(\Omega)}{D_{\mathrm{render}}(\Omega)} \right) s=median(Drender(Ω)Dreal(Ω))

估计的尺度 sss 被应用于旋转和平移参数以形成最终的变换矩阵。此变换将重建的 3D 物体放置到度量尺度的场景点云中，完成 3D 场景重建。

3D 标注生成。在此步骤中，我们从网格表面均匀采样点云，捕获物体在其放置状态下的几何形状。由于 TRELLIS [72] 在规范姿态下生成物体，其垂直方向与重力对齐，遵循先前的工作[27,51]，我们将边界框的垂直轴与此规范向上方向对齐。为了估计方向和尺寸，我们将点云投影到垂直于向上轴的平面上，并应用 PCA 确定主导的偏航角。然后将点云旋转以与规范轴对齐，并围绕其范围拟合一个紧凑的 3D 边界框。这样就得到了物体的 3D 边界框属性，包括中心位置、方向和尺寸。

4 下游应用

第 4.1 节介绍了从 MS-COCO [40] 中筛选出的新的单目 3D 检测基准测试。第 4.2 节展示了我们使用 LabelAny3D 生成的伪标签进行训练的细节。

4.1 COCO3D 基准测试

人工细化。我们应用 LabelAny3D 来策划一个用于评估（开放词汇）单目 3D 检测模型的基准测试。为确保我们 3D 标注的高质量，我们采用了人在环的细化过程。五名具有 3D 视觉经验的标注者根据生成的点图调整管道生成的标签的边界框尺寸、旋转和中心位置。他们也可以选择移除任何他们认为过于嘈杂的生成边界框。此外，标注者执行了一个过滤步骤，以排除包含不良特征的样本，例如物体在镜子、窗户或屏幕等表面的反射，以及代表 3D 物体的 2D 海报或符号。图 4c 展示了在此过程中移除的多样化样本示例。这种细化只需要最少的体力劳动，支持高效的大规模标注。

统计信息。COCO3D 基准测试² 包含 2,039 张经过人工细化的图像，共计 5,373 个实例，涵盖 MS-COCO 数据集 [40] 的所有 80 个类别。图 1 展示了最终策划结果的样本，以及我们 COCO3D 基准测试中代表的类别。我们使用 MS-COCO 数据集的验证集构建此基准测试。图 4a 展示了 COCO3D 基准测试中前 50 个类别的分布。值得注意的是，MS-COCO 中的 person 类别包含了具有各种姿势、大小和年龄组的个体示例，构成了丰富多样的样本集。图 4b 显示了超类别的分布，进一步证明了我们基准测试捕获的多样性。

图 4：COCO3D 基准测试。(a) COCO3D 基准测试中前 50 个类别的分布。(b) COCO3D 基准测试中基于 MS-COCO [40] 的超类别分布。(c) 在人工细化过程中从 COCO3D 中移除的样本示例。

4.2 使用 LabelAny3D 训练单目 3D 检测器

我们的模型基于 OVMono3D [75]，这是一个最先进的开放词汇单目 3D 检测模型。OVMono3D 包括两个阶段：(1) 使用开放词汇检测器（例如，Grounding DINO [44]）检测和定位 2D 中的物体；(2) 以类别无关的方式将 2D 边界框提升到 3D 长方体。具体来说，给定一张图像 III、一个文本提示 TTT 以及来自 2D 检测器的带有类别标签的 2D 边界框，OVMono3D 从预训练的视觉变换器（例如，DINOv2 [50]）中为每个 2D 边界框提取多尺度特征图。然后，这些特征通过前馈网络处理以预测 3D 属性。

训练目标。我们严格遵循先前的工作 [7] 来训练我们的模型。我们仅使用真实 2D 边界框训练 OVMono3D [75] 的提升头。训练目标定义为：

L=2exp⁡(−μ)L3D+μ \mathcal{L} = \sqrt{2} \exp(-\mu) \mathcal{L}_{3\mathrm{D}} + \mu L=2 exp(−μ)L3D+μ

其中 L3D\mathcal{L}{3\mathrm{D}}L3D 是 3D 立方体头的损失，μ\muμ 表示不确定性分数。3D 损失 L3D\mathcal{L}{3\mathrm{D}}L3D 由每个 3D 属性的解耦损失组成 [62]：

L3D=∑aL3D(a)+L3Dall \mathcal{L}{3\mathrm{D}} = \sum{a} \mathcal{L}{3\mathrm{D}}^{(a)} + \mathcal{L}{3\mathrm{D}}^{\mathrm{all}} L3D=a∑L3D(a)+L3Dall

其中 a∈{(x2D,y2D),z,(w,h,l),r}a \in \{ (x_{2\mathrm{D}}, y_{2\mathrm{D}}), z, (w, h, l), r \}a∈{(x2D,y2D),z,(w,h,l),r} 表示 3D 属性组：2D 中心偏移、深度、尺寸和旋转。每个组件损失 L3D(a)\mathcal{L}{3\mathrm{D}}^{(a)}L3D(a) 通过构造预测的 3D 边界框 B3DB{\mathrm{3D}}B3D 时将所有其他预测变量替换为其真实对应值，来隔离特定属性组的误差。整体损失 L3Dall\mathcal{L}_{3\mathrm{D}}^{\mathrm{all}}L3Dall 使用 Chamfer 损失比较预测的 3D 边界框与真实值：

L3Dall=ℓChamfer(B3D, B3Dgt) \mathcal{L}{3\mathrm{D}}^{\mathrm{all}} = \ell{\mathrm{Chamfer}}(B_{3\mathrm{D}}, \; B_{3\mathrm{D}}^{\mathrm{gt}}) L3Dall=ℓChamfer(B3D,B3Dgt)

训练数据。我们从 MS-COCO [40] 的训练分割中筛选了一个包含 15,869 张图像的训练集，使用我们的 LabelAny3D 流程进行标注，未经过任何人工细化。这个伪标记数据集用于从头开始训练 OVMono3D 模型或对其进行微调。对于微调，我们使用 Omni3D [7] 上预训练的 OVMono3D 模型进行初始化，并在组合的 LabelAny3D 和 Omni3D 数据集上进一步训练。对于从头开始训练，模型仅在 LabelAny3D 标注上进行训练，不依赖任何外部真实 3D 监督。
表 1：不同训练设置下 OVMono3D [75] 的性能。我们在我们的 COCO3D 基准测试以及 OVMono3D 评估中的 Omni3D 新类别和基础类别分割上报告分数。每个指标的最佳结果以**粗体**突出显示。次佳结果带下划线。"Rel" 表示相对布局指标。† 表示模型使用预训练的 OVMono3D 初始化。

5 实验

5.1 实验设置

基准测试。LabelAny3D 在我们的 COCO3D 基准测试上进行评估。在此基准测试中，由于评估实例过少或极端长宽比（例如，勺子、棒球棒），我们排除了 80 个类别中的 10 个。我们还在 Omni3D [7] 上评估了训练模型的开放词汇检测能力，Omni3D 主要包含室内数据集，如 SUN RGB-D [63]、ARKitScenes [4] 和 Hypersim [58]；物体中心数据集 Objectron [2]；以及包括 nuScenes [8] 和 KITTI [24] 在内的自动驾驶数据集。

基线。我们在伪标注质量和其对训练开放词汇单目 3D 检测器的有效性方面评估 LabelAny3D。具体来说，我们在标注质量和下游检测性能方面将 LabelAny3D 与 OVM3D-Det [27] 进行比较。此外，使用我们策划的 COCO3D 验证集，我们对 OVMono3D [75] 和在 MS-COCO [40] 训练集上使用我们的伪标注进行微调的 OVMono3D 的性能进行了基准测试。

评估指标 。遵循 [7,75]，我们报告平均 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 和 AR3D\mathrm{AR}{3\mathrm{D}}AR3D，使用预测和真实 3D 边界框之间的交并比（IoU）在 0.05 到 0.50 范围内、步长为 0.05 的 IoU 阈值上计算。

由于我们 COCO3D 验证集中的度量深度来自模型预测，它可能包含由于准确预测和人工验证绝对深度的固有能力而产生的偏差。相比之下，来自 MoGe [66] 的相对深度经过人工细化严格验证，提供了更高的可靠性。为了解决这个问题，我们在 COCO3D 基准测试中引入了一个新指标，相对布局 AP3D\mathrm{AP}_{3\mathrm{D}}AP3D 。该指标评估预测边界框和真实边界框之间相对空间布局的一致性，与相对深度评估 [73,74] 的精神一致。具体来说，我们通过优化全局尺度因子 s∈R+s \in \mathbb{R}^{+}s∈R+ 来对齐预测边界框 B^\hat{B}B^ 和真实边界框 BBB：

s∗=arg⁡max⁡s1N∑i=1NIoU3D(s⋅B^i,Bi) s^{*} = \underset{s}{\arg\max} \frac{1}{N} \sum_{i=1}^{N} \mathrm{IoU}{3\mathrm{D}}(s \cdot \hat{B}{i}, B_{i}) s∗=sargmaxN1i=1∑NIoU3D(s⋅B^i,Bi)

其中 NNN 是边界框总数。由于 IoU3D\mathrm{IoU}{3\mathrm{D}}IoU3D 对 sss 不可微，我们在有界区间内执行网格搜索。然后在对齐的、尺度归一化的预测上计算 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 和 AR3D\mathrm{AR}_{3\mathrm{D}}AR3D，强调相对 3D 框布局而不是度量精度。

5.2 主要结果

LabelAny3D 改善了 COCO3D 上的单目 3D 检测 。表 1 对使用不同数据集训练的 OVMono3D [75] 进行了基准测试。当仅在 Omni3D [7] 上预训练时，模型对 COCO3D 图像的泛化能力有限，可能是由于显著的领域差距。为了提高性能，我们使用 OVM3D-Det [27] 中提出的自动标注流程在 MS-COCO [40] 训练集上生成伪标签。然而，仅使用这些标签从头开始训练 OVMono3D 无法收敛。即使从预训练的 OVMono3D 初始化，仅对 OVM3D-Det 标签进行微调也会导致性能不佳。当在 Omni3D 和 OVM3D-Det 的组合数据集上进行微调时，模型在 COCO3D 上仅实现了 0.95 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 的边际增益，并且在新类别上表现下降，表明过多的标签噪声对学习产生负面影响。相比之下，在我们 LabelAny3D 生成的伪标签上从头开始训练 OVMono3D 在 COCO3D 上表现出更好的性能，证明了我们流程在支持模型训练方面的有效性。值得注意的是，仅在 COCO3D 伪标签上训练的模型在 OVMono3D 的域外新类别上达到了 8.47 AP3D\mathrm{AP}{3\mathrm{D}}AP3D，突显了其改进的泛化能力。当在组合的 Omni3D 和 LabelAny3D 伪标记数据集上微调预训练的 OVMono3D 模型时，观察到进一步的增益，在 COCO3D 上提高了 5.05 AP3D\mathrm{AP}_{3\mathrm{D}}AP3D，并在新类别上提高了性能。这些结果验证了我们的 LabelAny3D 流程在生成高质量、真实世界 3D 标注方面的有效性。

尽管有这些增益，所有微调模型在 OVMono3D 的基础类别上都表现出一些退化。我们将此归因于两个因素：(1) 场景和类别多样性增加，但模型容量未相应增加，导致灾难性遗忘；(2) 伪标注中的标签噪声，可能在训练期间引入有害梯度。

图 5 展示了 COCO3D 上的定性示例。与基线模型相比，我们微调的 OVMono3D 在不同场景中表现出更强的检测鲁棒性，特别是对于现有数据集中代表性不足的新物体类别，例如动物、披萨、领带、船。

LabelAny3D 实现了更好的伪标注 。表 2 将 LabelAny3D 与 OVM3D-Det [27] 在伪标注质量上进行了比较。LabelAny3D 在所有报告的指标上始终优于基线。自动生成和人工细化标注之间的 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 为 64.17，表明需要最少的人工修正，证明了我们流程的效率。图 6 提供了与 OVM3D-Det [27] 的视觉比较，揭示了在物体尺寸和形状变化很大的真实世界设置中，基于度量先验的局限性------即使在同一类别内（例如，幼年大象、儿童和船）。在这种情况下，度量深度估计容易不准确，导致结果错位。相比之下，LabelAny3D 利用相对深度和网格重建来生成外观一致的 3D 边界框，从而获得更高的标注保真度。我们进一步比较了 LabelAny3D 和 OVM3D-Det [27] 在 KITTI [24] 基准测试上生成的伪标注质量。LabelAny3D 实现了更高的总体 AP3D\mathrm{AP}{3\mathrm{D}}AP3D，为 13.6，而 OVM3D-Det 为 12.39。值得注意的是，在卡车类别上，LabelAny3D 显著优于 OVM3D-Det，AP3D\mathrm{AP}_{3\mathrm{D}}AP3D 为 32.74 vs. 13.46，突显了其有效性。

图 5：真实世界图像上的定性开放词汇 3D 检测结果：OVMono3D [75] 对比我们微调的 OVMono3D。我们展示了叠加在图像上的 3D 预测以及带有 $1\\mathrm{m} \\times 1$ m 网格的俯视图。
表 2：在 COCO3D 基准测试上的伪标注质量。每个指标的最佳结果以**粗体**突出显示。"Rel" 表示相对布局指标。为公平比较，我们为 OVM3D-Det 使用与我们相同的深度，记为 [66, 6]

LabelAny3D 组件的消融实验 。我们在 COCO3D 数据集的一个子集上进行了消融实验，并在表 3 中报告了标注质量。原始 3D 场景重建模型 Gen3DSR [3] 的 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 仅为 1.95。相比之下，我们完整的 LabelAny3D 流程实现了更高的 AP3D\mathrm{AP}{3\mathrm{D}}AP3D 43.17。这个结果表明我们的流程为 3D 框标注提供了更好的 3D 重建。移除图像超分辨率模块导致大幅下降至 28.13 AP3D28.13\ \mathrm{AP}{3\mathrm{D}}28.13 AP3D，突显了其在增强小物体和远处物体细节方面的重要性。消除非模态补全也会降低性能，显示了其在减轻遮挡负面影响方面的作用。用 Depth Pro 单独替代 MoGe 的相对深度（缩放到匹配 Depth Pro）会导致性能显著下降，表明 MoGe 提供了更准确和可靠的相对深度。对于 3D 重建，使用 TRELLIS [72] 比使用 DreamGaussian [64] 提高了 6.33 点的 AP3D\mathrm{AP}{3\mathrm{D}}AP3D，表明 TRELLIS 产生更真实和更高保真度的重建。为了将重建的物体与图像点云对齐，我们比较了迭代最近点（ICP）与我们使用的 2D 匹配 + 透视-n-点（PnP）方法。后者产生了优越的结果，主要归功于底层 2D 匹配模型的鲁棒性。

图 6：OVM3D-Det [27] 和 LabelAny3D 之间的定性比较，均未经过任何人工细化。这些示例说明 OVM3D-Det 经常为类别内尺寸变异性高的类别（如人类、动物、车辆和家具）产生不准确的度量尺寸。
表 3：消融研究。默认设置以灰色标记

6 讨论

在这项工作中，我们介绍了 LabelAny3D ，一个用于从单目、真实世界图像标注任意物体 3D 边界框的分析-合成流程。我们的流程整合了专门的视觉基础模型来重建 3D 场景并推导出准确的 3D 标注。利用 LabelAny3D，我们策划了 COCO3D，这是一个涵盖现有数据集之外的多样化物体类别的 3D 检测新基准测试，只需最少的人工干预。我们的发现表明，LabelAny3D 能以最少的人力有效地提升开放词汇 3D 检测性能，并支持大规模开发多样化的 3D 数据集。我们的流程也有可能使其他 3D 场景理解任务受益，例如非模态 3D 重建、6D 姿态估计和场景补全。有关实现细节、更多定性结果和分析，请参阅补充材料。

7 局限性

虽然我们的 LabelAny3D 流程利用成熟的深度估计、相机内参估计、非模态补全、图像到 3D 生成和匹配的基础模型，但这些模型在涉及严重遮挡、无纹理区域或小物体的挑战性场景中仍然可能失败，从而给最终的 3D 边界框标注引入噪声。

我们流程中的 RGB-to-3D 模型 TRELLIS [72] 可能会沿视线方向生成深度模糊的网格，导致与 RGBD 点云错位和边界框不准确。未来的工作可以像 Hunyuan3D-Omni [65] 那样，将 3D 生成条件化在 RGBD 数据上。此外，未来的工作可以研究针对嘈杂伪标注的鲁棒训练策略。

为确保基准测试的可靠性，我们排除了深度估计错误、严重遮挡或被截断的物体。因此，我们的数据集并未详尽标注，但可以评估使用基于邻近度指标的 2D 框提示方法（如 OVMono3D [75] 和 DetAny3D [78]）或端到端 3D 检测方法。

由于我们的流程将深度估计和非模态补全作为模块化 API 集成，未来这些组件的改进可以直接纳入以提升标注质量。这些局限性强调了需要更鲁棒的自动标注框架和开放词汇单目 3D 检测的训练策略。

8 致谢

作者感谢弗吉尼亚大学研究计算与数据分析中心、AMD AI 和 HPC 集群计划、高级网络基础设施协调生态系统：服务与支持（ACCESS）计划以及国家人工智能研究资源（NAIRR）试点项目提供的计算资源，包括普渡大学的 Anvil 超级计算机（美国国家科学基金会奖项 OAC 2005632）以及 Delta 和 DeltaAI 高级计算资源（美国国家科学基金会奖项 OAC 2005572）。这项工作得到了 Adobe 研究礼物、美国国家科学基金会（奖项 2129824、2312487 和 2403060）、美国陆军研究办公室（拨款 W911NF-24-1-0089）以及洛克希德·马丁先进技术实验室的支持。作者感谢 Hao Gu、Guangyi Xu 和 Jiahui Zhang 在标注方面提供的帮助。