经典文献阅读之--iDet3D(交互式3D目标检测器)

0. 简介

在激光雷达场景中准确标注多个3D物体是费时且具有挑战性的工作。虽然之前有一些研究尝试利用半自动方法进行成本效益高的包围盒标注,但这些方法在有效处理大量多类别物体时存在局限。为了有效加速3D标注流程,《iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point Clouds》提出了iDet3D,一个高效的交互式3D物体检测器。iDet3D支持用户友好的2D界面,该界面可以减轻用户在3D空间中进行点击交互的认知负担,使用户能够通过最少的交互完成每个场景中全部物体的标注。考虑到3D点云的稀疏性,我们设计了一种负点击模拟(NCS)机制来提高准确性 ,通过减少误报预测。此外,iDet3D结合了两种点击传播技术,充分利用用户交互:(1) 稠密点击引导(DCG),保持网络中用户提供的信息;(2) 空间点击传播(SCP),基于用户指定的物体检测同一类别的其他实例。通过我们的广泛实验,我们展示了我们的方法可以在几次点击中构建精确的标注,这表明它作为3D物体检测的高效标注工具具有实用性。这个工具目前还没开源,可以期待一波

1. 主要贡献

在图1中,我们展示了我们提出的iDet3D的一个交互式标注示例,通过在行人身上进行正点击,然后进行负点击来抑制误报。我们的主要贡献如下:

  1. 我们提出了iDet3D,这是一个新颖的交互式3D物体检测器,能够在用户点击几次后检测激光雷达点云中的不同类别的多个物体。
  2. NCS策略使得iDet3D能够利用用户给定的负点击来减少误报。
  3. 我们精心设计了有效的点击传播方法(DCG和SCP),以充分利用网络和3D场景中用户提供的交互。 我们在几个3D激光雷达数据集上进行的广泛实验显示了iDet3D作为标注工具的有效性。

> 图1:iDet3D的迭代标注过程示例。(a) 给定的输入点云。(b) 在行人上提供正点击(红圈),提出的iDet3D可以在单次点击中检测场景中各类多个物体。(c ) 在第二次迭代中,可以通过增加单个负点击(蓝圈)一次性过滤掉误报。(d) 真实标注。在几次迭代内,可以获得高质量的标注结果。

2. 方法

2.1 概述

在本文中,我们基于IA-SSD主干(张等人,2022年)描述了我们提出的iDet3D,这是一个最近提出的3D物体检测器。值得注意的是,我们的原则可以轻松地适用于其他单阶段基于点的检测器。iDet3D支持两种类型的用户交互:特定类别的正点击和与类别无关的负点击,分别用来指示前景物体的位置和背景区域。图2展示了iDet3D的整体架构。

> 图2:iDet3D的训练工作流程。给定用户在目标物体上的点击,这些点击被转换为点击编码。 > (a) 密集点击引导(DCG)不仅在输入端而且在中间层将编码融合到主干网络架构中 。 > (b) 负点击模拟(NCS)通过选择具有高前景分数的具有挑战性的背景点来随机模拟可能的负点。 > (c) 接下来的空间点击传播(SCP)模块有效地传播用户点击,以便根据特征嵌入之间的相似性检测同一类别的其他物体。

2.2 点击编码

在给定的3D场景中提供交互的一种直接方法是直接点击感兴趣的物体(Kontogianni等人,2022年)。然而,指定广阔3D空间中一个小点的3D坐标对用户来说是一个巨大的认知负担。

因此,我们开发了一个用户友好的2D视图界面,用户可以在其中提供简单的2D点击以标注目标物体。为了更好地理解,我们可视化了3D和我们的2D界面之间的区别。在3D界面中,光标的轻微移动可能会导致另一个轴上的坐标发生不希望的移动。然而,我们的2D标注环境可以通过消除指定z轴位置的需求来减少此类错误。

点击经典文献阅读之--iDet3D(交互式3D目标检测器) ------古月居可查看全文

相关推荐
小三金8 小时前
免费的国外模型资源网站整理
3d
AI_Auto1 天前
【智能制造】- 工业制造中的3D视觉四大核应用场景
3d·制造
ZC跨境爬虫1 天前
跟着 MDN 学 HTML day_16:(音频与视频处理——从画布滤镜到3D沉浸音频的进阶指南)
前端·javascript·ui·3d·html·音视频
爱看书的小沐3 天前
【小沐杂货铺】基于Three.js绘制三维艺术画廊3DArtGallery (Three.js,WebGL)
javascript·3d·webgl·three.js·babylon.js·三维画廊
格林威3 天前
3D相机视觉检测:环境光太强,结构光点云全是噪点怎么办?
开发语言·人工智能·数码相机·计算机视觉·3d·视觉检测·工业相机
threelab3 天前
Three.js 3D 饼图效果 | 三维可视化 / AI 提示词
javascript·人工智能·3d
bzmK1DTbd4 天前
OpenGL与Java:JOGL库的3D图形渲染实战
java·3d·图形渲染
动恰客流管家5 天前
动恰3DV3丨2026年实体商业数字化转型:客流数据是第一生产力——全场景智慧客流解决方案
大数据·人工智能·3d·性能优化
charlie1145141915 天前
通用GUI编程技术——图形渲染实战(四十)——深度缓冲与3D变换:从平面到立体
开发语言·c++·平面·3d·图形渲染·win32
cy_cy0026 天前
互动滑轨屏如何优化参观动线?
科技·3d·人机交互·交互·软件构建