大家读完觉得有帮助记得及时关注和点赞!!!
[基于 CNN 的学习。](#基于 CNN 的学习。)
[3全能自适应 3D 稀疏 CNN](#3全能自适应 3D 稀疏 CNN)
[Adaptive 聚合器。](#Adaptive 聚合器。)
抽象
2020 年代 3D 识别的蓬勃发展始于点云变压器的推出。它们很快就压倒了稀疏的 CNN,成为最先进的模型,尤其是在 3D 语义分割方面。然而,稀疏 CNN 仍然是有价值的网络,因为它们具有效率宝藏和易用性。在这项工作中,我们重新审视了设计差异,并测试了稀疏 CNN 所能达到的极限。我们发现性能差异的关键功劳是自适应性 。具体来说,我们提出了两个关键组成部分,即 适应性感受野(空间上)和适应性关系,以弥合这一差距。这一探索导致了 Omni-Adaptive 3D CNN (OA-CNN) 的创建,这是一个网络系列,它集成了一个轻量级模块,以最小的计算成本大大增强了稀疏 CNN 的自适应性。在没有任何自注意力模块的情况下,OA-CNN 在室内和室外场景的精度方面都明显优于点变压器,延迟和内存成本要低得多。值得注意的是,它在 ScanNet v2、nuScenes 和 SemanticKITTI 验证基准测试中分别实现了 76.1%、78.9% 和 70.6% 的 mIoU,同时保持最多 5 个×比变压器更快的速度。这一发现凸显了纯稀疏 CNN 在性能上优于变压器相关网络的潜力。我们的代码基于 Pointcept 构建[9],可在此处获取11https://github.com/Pointcept/Pointcept.
1介绍
图 1:由我们提出的自适应聚合器控制的 3D 场景感受野的可视化。由于结构复杂,物体的边缘和连接需要较小的感受野,而平面和单一结构需要更宽的感受野。
3D 场景理解在各种实际应用中至关重要,包括机器人、自动驾驶和增强现实[16,13,75,56,71,19,30,20,72].与通常显示密集且均匀排列的像素的图像相反[10,52,36,23,53,50]中,3D 点云通常表现为不规则和分散的分布。它导致 3D 场景理解中的各种特征提取器。
有两个主流的 3D 网络。第一种是基于点的网络[42,43],它主张直接操作非结构化的点。由于逐点运算的灵活性,基于点的方法,特别是那些具有变压器架构的方法[74,40,37,12,32,55,54,51]已逐渐占据主导地位。 第二个是稀疏 CNN[13,7],其中不规则的点云在数据预处理期间转换为体素。这使我们能够利用本地结构 的优势并促进高效率。由于这种实用价值,稀疏 CNN 在现有文献中得到了广泛的利用[66,38,46,76].然而,它的精度通常不如变压器的同类产品[74,37,21,61],尤其是在 3D 场景语义分割中。
鉴于稀疏 CNN 的高潜力,我们在本文中仔细研究了性能差距的内在原因。我们发现,稀疏 CNN 和背后的点转换器之间的关键区别在于自适应性------后者可以灵活地适应单个环境,而对于具有静态感知的前者来说可能不可行。在不降低效率的情况下,我们通过两个关键组成部分弥合了这一差距:(1) 空间自适应感受野,以及 (2) 自适应关系。
图 2:各种基于变压器的比较[21,74,61]和基于 CNN[13,7]在 RTX 3090 中。对于 OctFormer,我们复制了官方仓库,并包括构建 octree 的成本。如果方法有多个版本,则它们由不同的点表示。
通过注意力机制自适应调整感受野 是基于 transformer 的框架中的关键设计之一[55,74]以实现最佳性能。直观地说,具有各种几何结构和外观的 3D 场景的不同部分应该适应不同的接受大小,如图 1 所示。1. 像墙壁和地板这样的平坦和稀疏区域需要大的感受野来产生具有更广泛线索的一致预测,而像平面交界处和小物体这样的复杂部分需要较小的感受野来筛选不必要的上下文,这可能会压倒局部细节。为了使基于 CNN 的框架能够自适应地感知上下文信息,我们将 3D 场景划分为不重叠的金字塔网格。然后,我们在多个尺度上利用所提出的自适应关系卷积 (ARConv),并设计一个选择性聚合器,以根据局部特征自适应聚合多尺度输出 。而不是追求一致的大感受野(如 LargeKernel3D[6]),我们发现这种自适应方式是足够且更有效的。
通过自我注意图实现的适应性关系 是 CNN 的另一个关键优势。为了促进在本地上下文之间建立关系,我们在 ARConv 中引入了一个多一多范式,如图 2 所示。6. 具体来说,我们根据非空体素与网格质心的相关性动态生成非空体素的核权重。通过采用这种方法,我们可以保持轻量级设计[59]具有与体素数量成正比的线性复杂度,这有效地扩大了感受野并实现了最佳效率。
广泛的实验验证了我们方法的有效性,我们的设计使稀疏 CNN 能够胜过采用 transformer 架构的最先进的基于点的方法,而效率几乎没有妥协,如图 1 所示。2. 我们在相同的实验设置下进行比较,无需任何额外的预训练或辅助方法。值得注意的是,它在 ScanNet v2 上实现了 76.1%、78.9% 和 70.6% 的 mIoU 分数[11]、 nuScenes[4]和 SemanticKITTI[2]验证基准。它强调了稀疏 CNN 在性能和效率方面优于变压器相关模型的潜力,无论室内还是室外场景如何。
总之,我们的贡献如下:
-
• 我们分析发现,自适应性是弥合稀疏 CNN 和点转换器之间差距的关键。
-
• 我们提出 OA-CNN 作为解决方案,由动态感受野和自适应关系映射组成。
-
• 我们的方法优于最先进的方法,在包括 ScanNet v2、ScanNet200、nuScenes 和 SemanticKITTI 语义分割在内的流行基准测试中具有很高的效率。
图 3:3D 基于点的 3D 之间的比较[42,74]和卷积网络[13,7].PointNets 直接处理原始点,提供更灵活、更广泛的感受野。卷积网络在额外的体素化预处理后以更高的效率和更低的消耗处理结构数据。
2相关工作
基于点的学习。
基于点的方法主张直接处理非结构化的原始点,无需任何额外的调节预处理[14,18,31,64,68].点网[42]是这一趋势的开创性工作,它利用逐点 MLP 和排列不变性运算来获得输入点的全局特征。更多细节和比较如图 1 所示。3. 几项后续工作[43,15,18]通过分层多尺度感知和本地-全局特征聚合继续增强他们的能力。特别是随着注意力机制的发展[55,69,70],使用 transformer 架构进行逐点感知[21,61,74,63]提供长期依赖关系并桥接全局上下文关系。这些框架已经显示出卓越的性能,并逐渐占据主导地位。然而,注意力计算和逐点运算的计算和内存消耗更高,复杂的架构也使它们的部署更具挑战性。
基于 CNN 的学习。
与将像素排列成光栅化网格的密集图像相比,点云直接记录了点的空间坐标,这些空间坐标通常是不规则的,缺乏统一的指标。基于投影[47,26,5,24,25,29]方法直观地将原始 3D 点从各种视图投影到平面图像中,并且子序列操作在逻辑上与 2D 管道相同。然而,投影严重破坏了点云的几何信息,尤其是对于具有更多立体结构的室内场景。另一种技术是量化 3D 场景并将不规则的点云转换为规则的体素表示[38,46,3,39].3D 卷积通常用于处理这些体素集合,同时消耗大量计算和内存。稀疏卷积和子流形卷积[13]以缓解这些问题并提高效率。稀疏卷积引入了哈希表用于体素的索引检索,方便高效。此外,3D 子流形卷积进一步限制了仅处理非空元素,牺牲了一些变化的灵活性,以提高效率和减少消耗。但是,由于内核大小的复杂性为O(K3),稀疏卷积的感受野仍然受到参数量的限制,严重限制了全局感知能力。在这项工作中,我们探索了一种轻量级设计[59]使用自适应接收范围扩展 3D 卷积[27].
动态卷积。
常规卷积在训练期间优化可学习的内核权重,并在推理过程中修复内核权重。动态卷积[17,67]建议根据具体情况自适应生成卷积核。以前的作品[60,49,65]已广泛探索将动态卷积引入稀疏数据处理中。但是,这些工作也基于逐点方法,并且通常根据相对位置信息生成内核权重,这需要昂贵的计算和内存消耗。在这项工作中,我们继承了条件卷积,提出了一种具有规则结构的轻量级网格卷积。此外,我们引入了用于多尺度金字塔聚合的自适应聚合器,以有效地桥接扩展范围上下文。
3全能自适应 3D 稀疏 CNN
在本节中,我们详细介绍了我们设计的轻量级模块及其在构建一系列全自适应 3D 稀疏 CNN (OA-CNN) 中的应用。它在 3D 识别方面超越了点转换器,延迟/内存开销有限。 OA-CNN 由三个设计内容组成,即 第 3.1 节的空间自适应感受野、第 3.2 节的自适应关系卷积 (ARConv) 和第 3.3 节的整体架构。
3.1空间适应性感受野
赋予动机。
在一个 3D 场景中的不同位置和对象中需要各种感受野大小。例如,如图 1 所示。1,属于墙壁和地板的区域相对平坦和基本,需要更大的感受野才能产生一致的预测。然而,平面结或复杂物体的几何结构更复杂,需要更小的感受野来保持局部特性。Transformer 框架[55,74,21]通过 Attention 机制调整感知范围,检索与周围上下文的相关性,但会显著增加内存和计算消耗。但是,稀疏 CNN 缺乏处理此问题的能力。在 OA-CNN 中,我们通过借助内禀体素特征直接确定感知大小来克服这个问题,如图 1 所示。4.
图 4:自适应聚合器的插图,它根据体素的本能特征学习在多金字塔尺度下聚合各种网格上下文。
体素网格。
扩大感受野对于追求自适应感知是必要的,因为典型的 3D 卷积核大小通常设置为3×3×3受参数 quantity 限制。为了实现这一点,我们在方法中使用了体素网格。正式 定义𝒱=(𝒫,ℱ)作为包含一组体素的稀疏体素化 3D 场景表示𝒗我=(𝒑我,𝒇我)哪里𝒑我∈ℝ3表示位置整数 indice,𝒇我∈ℝd是对应的特征,其中d渠道。 全局体素集𝒱然后被分区为N非重叠体素网格[𝒱1,𝒱2,...,𝒱N],𝒱我={𝒗j|𝒑j∈Ω(我)}哪里𝒱我表明我- th 体素网格和Ω(我)获得我- 第 -th 体素网格的索引范围。体素网格大小可以比典型的 3D 卷积核大得多,从而有效地扩大感受野。
金字塔网格分区。
尽管足够大的网格大小可以提供全局视图,但它可能无法捕获复杂对象的复杂细节。为了准备替代网格大小以自适应地适应不同的区域,我们将整个 3D 场景栅格化为金字塔体素网格。具体来说,让我们定义𝒢={gk}K作为K划分 3D 空间的网格大小,其中K设置为3在我们的实验中。输出𝒐我∈ℝk×d的我- 下的第 -个体素网格k-th scale 的获得方式为:
哪里Ω(我,gk)表示我- 大小gk和卷(⋅)表示对体素网格中的体素特征进行聚合,得到体素网格特征的卷积。观察与标准稀疏 3D 卷积相关的令人难以忍受的重参数卷(⋅)使用大型内核,我们在 Sec. 3.2 中引入了 ARConv 作为此问题的解决方案。ARConv 可以在不牺牲效率的情况下改善结果,并在体素网格之间建立关系。
Adaptive 聚合器。
为了实现可定制的感受野,我们提出了一种自适应聚集器,它根据单个体素的内在特征和空间结构自主调整感受野,如图 2 所示。4. 给定K大小𝒢={gk}K,我们提出的自适应聚合器对多尺度输出进行加权和融合。我们使用可学习的函数δ一个dp预测首选项权重𝒘我之K网格大小为:
哪里𝒘∈ℝN我×K,N我表示我-th 体素网格,以及δ一个dp:ℝd↦ℝK是可学习的线性层,而SoftMax 软件(⋅)表示 softmax 操作超过K网格大小。随后,我们使用预测的权重将包含全局信息的卷积输出与原始特征聚合在一起,以增强它们。
哪里δout:ℝ2d↦ℝd和δproj:ℝd↦ℝd是两个具有归一化和激活的线性层,⊕表示向量串联,φ′(我,k)反向返回包含我-第 个 体素gkgrid size 分区。
到目前为止,我们已经提出了一种基于个体上下文构建空间自适应感受野的方法,但它还不能像基于点的 transformer 对应物那样建立适应性关系。
图 5:自适应关系卷积 (ARConv) 的图示。它仅针对非空体素及其与质心体素的关系动态生成网格卷积的内核权重。
3.2自适应关系卷积
观察。
Transformer 框架[61,40]取得了显著的成功,并成为 3D 语义分割领域的主导架构之一。它们的性能优势在很大程度上与各种局部点特征之间的关系学习能力有关。它是通过自我注意机制实现的,从根本上增加了表示能力。然而,普通稀疏 CNN 错过了这种设计。
另一方面,CNN 已经通过广泛的研究进行了验证[6,33,58],大感受野对实现全球感知的重要性。 不幸的是,3D 卷积难以通过直接扩展卷积核来提高感知范围,因为它的复杂性是𝒪(K3)哪里K是 kernel 大小,表明在实践中消耗大 kernel 可能是不可接受的,尤其是对于边缘设备。为此,我们探索了轻量级的大核设计,并提出了自适应关系卷积 (ARConv),它将上述自适应关系推理整合到稀疏 CNN 中。 更多细节如图 1 所示。5.
深度卷积。
为了以轻量级的方式组装框架,我们可以首先考虑深度卷积来解析体素网格特征。在实际应用中, 还发现深度卷积泛化效果更好[59]并且收敛得更快,如我们的实验所示。 与在多个输入通道上执行的常规卷积相比,深度卷积为每个输入通道独立应用单个卷积滤波器,并保持每个通道独立。的输出我- 第 1 个体素网格功能𝒐我∈ℝd和c-th dimension 可以精确描述为,
哪里N我是我- 第 个 Voxel 网格𝒱我,𝑾我∈ℝd×N我表示可学习的内核权重,φ(我,j)返回j中的第 -th 个非空体素索引我-th 体素网格。
图 6:点变压器中的多对多范式与 OA-CNN 中的多对多范式的比较。
自适应关系内核。
为了实现适应性关系推理,注意力机制[55,74]采用多对多范例,其中包含"参考集"[61,43]用于通过多个查询和键捕获长期依赖项。但是,这种方法会导致对 GPU 的推理时间和内存需求很高。相比之下,我们提出了一种更高效的 multi-one-multi 管道,生成网格的单个质心体素,作为捕获远程关系的代理。此策略有助于高效计算并降低内存消耗,同时仍支持提取网格中非空体素之间的复杂关系。 这个想法如图 1 所示。
具体来说,对于子体素网格𝒱我、其相应的质心体素特征𝒇我ctr∈ℝd哪里d表示通道数,其格式为:
哪里平均矿池(⋅)对输入应用 3D 平均池化,Ω(⋅)指示子集的索引范围,以及δproj:ℝd↦ℝd是具有归一化和激活的线性投影层。
然后是动态核权重𝑾我∈ℝd×N我的深度卷积我-th 体素网格是通过考虑体素与质心体素的特征相关性来生成的:
哪里δwe我ght:ℝd↦ℝd是线性投影图层,而φ(我,j)返回j中的第 -th 个非空体素索引我-th 体素网格。
我们规范化动态生成的权重𝑾我,:,j在整个体素网格中分别沿每个通道使用 SoftMax 操作。归一化增强了训练期间神经网络输出的稳定性,并根据特定体素和质心体素之间的内部相关性分配特征权重。在数学上,对于c-th 通道,
哪里麦克斯(⋅)返回最大值。我们凭经验发现,动态生成的权重在早期训练阶段是不稳定的,产生大值,这可能会导致指数函数爆炸并导致 "inf" 输出。因此,我们在方程 (7) 中采用了一个额外的运算,分别从分子和分母中减去最大值,以防止爆炸而不影响输出------它在数值上等于没有这个运算的情况。
从本质上讲,我们引入了一种名为自适应关系卷积 (ARConv) 的有效方法,该方法通过考虑非空体素与几何质心代表的相关性,仅为非空体素动态生成核权重,从而在不牺牲效率的情况下实现有效性。
图 7:整个体系结构的插图和更多实现细节。
3.3建筑
在本节中,我们提供了 OA-CNN 的架构详细信息。无花果。7 描述了整体结构。
具体来说,稀疏和子流形体素模块[13,37]两者都可以有效地处理空间稀疏数据。它们之间的主要区别在于,子流形卷积只处理 3D 场景中的非空体素,并严格保留原始几何结构。不同的是,稀疏卷积可以在空位置提取特征,并且更加灵活。我们使用一个 ARConv 模块构建基本块,然后是两个具有必要归一化和激活层的子流形卷积。以后[43,41],我们对编码器采用分层结构,并使用稀疏卷积,其中 kernel size 和 stride 都设置为(2,2,2),将空间大小缩减为1/8每次。至于 upsampling 过程,up-block 仅由一个 skip 连接和一个线性层组成,该层在没有其他元件的情况下对齐 feature channel numbers。
4实验
4.1实现细节。
数据。
我们在标准基准 ScanNet v2 上使用我们提出的 OA-CNN 进行了实验[11]及其最近的扩展 ScanNet200[45]和 S3DIS 数据集[1]用于室内场景。ScanNet v2 包含 1,201 个训练场景和 312 个从 RGB-D 帧重建的验证扫描。该模型利用重建的网格对点云进行采样作为输入,其中每个点云都被赋予了一组 20 个类别的语义标签。ScanNet200 基准测试将类类别扩展到 200 个,比以前的类别多了一个数量级。S3DIS 数据集由 3 个不同建筑的 6 个区域的 271 个房间组成,分为 13 个类别。根据标准协议,区域 5 在训练期间被保留并用于 S3DIS 测试。至于室外语义分割,我们选择了两个流行的基准测试,nuScenes[4]和 SemanticKITTI[2].nuScenes 数据集包含大约 1000 个场景,每个场景由从移动车辆捕获的多个传感器扫描组成。相比之下,SemanticKITTI 数据集由来自原始 KITTI 数据集的序列组成,该数据集总共包含 22 个序列。每个序列包括大约 1,000 个激光雷达扫描,对应于大约 20,000 个单独的帧。
表 1:我们比较了 ScanNet v2 上的语义分割结果。所有选定的方法都在相同的实验设置下,无需使用额外的预训练或辅助方法。
训练详情。
我们训练模型4批量大小和纪元数设置为16和100分别。考虑到计算效率和内存限制,训练过程利用了来自点云的最多 100,000 个随机采样点的子集。相比之下,在验证过程中使用完整的点云,以确保对模型的性能进行公正和严格的评估。此外,我们将基于点的框架的部分性能优势归因于具有高级数据增强的现代训练策略[61,44].我们参考这些策略来训练我们的模型。具体来说,我们使用 AdamW 优化器[34]用于 Transformer 架构中广泛使用的参数优化。初始学习率lr是0.001,并且权重衰减设置为0.02使用余弦退火策略。以后[61]对于数据预处理,我们估计点的法线向量,并添加坐标作为额外的特征输入。至于数据增强,我们应用了随机丢弃、随机变形和颜色抖动[74,61].
| Outdoor Sem. Seg. | Benchmarks ||
| Method | nuScenes [4] | SemanticKITTI [2] |
| SparseUNet [13] | 73.3 | 63.8 |
| SPVNAS [48] | 77.4 | 64.7 |
| Cylender3D [77] | 76.1 | 64.3 |
| SphereFormer [22] | 78.4 | 67.8 |
OA-CNNs(ours) | 78.9 | 70.6 |
---|
表 2:户外语义分割基准测试的结果。
| Method | Val |||| Test |
| Method | Head | Comm. | Tail | All | All |
| MinkowskiNet [7] | 48.3 | 19.1 | 7.9 | 25.1 | 25.3 |
| LGround [45] | 51.5 | 22.7 | 12.5 | 28.9 | 27.2 |
| SparseUNet [62] | - | - | - | 28.8 | - |
| OctFormer [57] | - | - | - | - | 32.6 |
| PTv2 [62] | - | - | - | 29.3 | - |
OA-CNNs(Ours) | 51.3 | 28.0 | 17.7 | 32.3 | 33.3 |
---|
表 3:在 ScanNet200 上进行语义分割的结果。
表 4:S3DIS 区域 5 的语义分割结果。
表 5:通过不同阶段编号的消融研究进行自适应聚集器和朴素连接的有效性。
表 6:消融研究通常用于扩大感受野的不同方法。
表 7:深度卷积和常规分组卷积的性能比较。
表 8:各种权重生成方法的比较。
4.2比较
性能。
我们在多个基准(包括 ScanNet v2、ScanNet200、S3DIS、nuScenes 和 SemanticKITTI)上将我们提出的 OA-CNN 与其他骨干模型进行了全面比较[11,45,1,4,2].我们实验中比较的所有方法都是在相同的实验设置下进行评估的,没有任何额外的预训练或辅助方法。结果显示在 Tabs.1、2、3、8。我们提出的模型在室内和室外场景中都表现出优于以前最先进的基于点的框架和变压器架构的性能。事实上,这些结果突出了 OA-CNN 卓越的泛化能力,证明了即使没有任何自我注意模块,它们也有可能在各种基准中胜过基于点的模型和 transformer 模型。
图 8:与其他经典模块扩展感受野相比,我们提出的方法更稳定,在训练过程中收敛更快,性能更好。
4.3消融研究
效率。
我们还将我们的模型与各种基于 CNN 和基于 transformer 的方法进行了比较[61,74,21,13,7]关于准确性、推理速度和 GPU 内存消耗,如图 .2. 我们可以观察到,虽然基于 transformer 的方法已经展示了令人印象深刻的性能,但它们也有一个缺点------它们需要大量的时间和内存来频繁查询最近邻、注意力计算和其他基于点的操作。 不同的是,由于 CNN 架构利用结构数据排列和哈希加速来实现显着的效率和低内存消耗,我们的方法在性能上处于领先地位,但仍然在有效性和效率之间保持了卓越的平衡。
| Type | Blocks | Time | Mem. | mIoU |
Type | Blocks | (ms) | (G) | (%) |
---|---|---|---|---|
OA-CNN (S) | [ 2, 2, 2, 2] | 117 | 2.1 | 73.6 |
OA-CNN (B) | [ 3, 3, 9, 3] | 190 | 3.3 | 75.3 |
OA-CNN (L) | [ 3, 3, 9, 8] | 213 | 3.6 | 76.1 |
表 9:我们提议的模型的不同版本之间的比较。每个阶段的通道设置为[64,64,128,256]并保持原样。
感受野扩展。
我们通过与通常用于感受野扩展的三种替代模块的比较来验证我们提出的自适应关系卷积 (ARConv) 的有效性:1) 多头自注意力[55];2) 分组向量注意力[61];3) 金字塔池[73].
对于基于注意力的模块,我们操作体素,如最近邻查找和跟随点转换器进行分组[74].测试结果如表 8 所示,其中我们的 ARConv 优于其他竞争对手。此外,图 .图8给出了训练过程中验证损失/mIoU 的比较,ARConv 表现出比其他方法更强的减轻过拟合的能力,这在训练后期验证损失没有明显恶化就证明了这一点。
图 9:在 ScanNet v2 上可视化语义分割结果。
聚合方法。
我们验证了金字塔网格划分和所提出的自适应聚合器的有效性和优越性,实验结果如表 8 所示。第一行显示具有单尺度分区的模型的结果,其中不需要额外的聚合。 第二个实验采用直接串联进行聚合,导致性能略有提高。 然后,通过介绍我们提出的自适应聚合器,该聚合器根据每个体素的内在属性调整其感受野,我们观察到与使用串联相比,性能有了显着提高。 此外,我们研究了金字塔阶段数量的影响,发现三个阶段获得了最好的结果,并且所有实验都遵循这种配置,没有特别说明。
深度卷积。
与应用一个滤波器的常规卷积相反𝑾∈ℝc×l×c哪里c表示通道,l表示输入的长度,在所有 Input 通道中,深度卷积为每个 Input 通道独立应用单个滤波器。最初,我们试图用提出的动态核权重实现常规卷积,但发现它不稳定且不收敛,尤其是在早期训练阶段。因此,我们将其替换为分组卷积[8]和深度卷积。结果如表 8 所示。我们采用动态生成权重的深度卷积𝑾∈ℝl×c为输入通道带来线性复杂性,展示了效率和性能的双重优势。
动态内核权重。
以前的基于点的方法,例如[49,65])还探索了动态生成的内核权重。然而,他们的方法旨在整合来自点的几何信息,而不是局部语义关系,在模拟卷积运算的同时仍然遵循 PointNet 范式。不同的是,我们的工作是基于稀疏卷积网络的。我们通过与表 8 中的其他替代方案进行比较来评估我们的设计在动态核权重生成方面的有效性,其中ctr表示我们的自适应关系内核,pos表示使用相对位置生成内核权重。我们的 adaptive relation kernel 表现出优于其他方法的性能。
多个版本。
我们提出了 OA-CNN 的多个版本,这些版本是通过调整每个阶段的块数,同时保持其他配置一致来实现的。在所有模型中,每个模块的通道数都设置为[64,64,128,256].表 9 显示了对性能和效率的影响,其中所有模型都在单个 RTX 3090 上进行评估,以确保公平比较。
4.4可视化分析
预测。
点云语义分割的定性结果如图 2 所示。9. 我们的模型在 ScanNet v2 数据集上表现出卓越的预测准确性,结果证明与地面实况高度一致。
感受野。
无花果。1 可视化了 3D 室内场景中具有不同几何结构和外观的不同物体和部分的不同感受野大小。我们按如下方式计算感受野的大小:
哪里gk表示k-th 网格大小和𝒘∈ℝn×K表示方程 (2) 中可学习的自适应聚合器预测的偏好权重。然后我们映射不同的大小𝒓我设置为相应的颜色。无花果。1 证实了我们的直觉,即 3D 场景的平坦区域具有简单的结构,例如墙壁和地板,需要更大的感受野。相反,较小的对象和更复杂的区域(例如边和交汇点)需要较小的对象。此外,我们观察到地板通常需要比墙壁和天花板更小的感受野,因为有必要利用更多的局部环境来区分自己与放置在地板上的物体。在补充材料中对感受野进行了更多的视觉比较。
5结论
这项研究强调了稀疏卷积网络在效率和性能方面超越 transformer 架构的潜力。为了实现这一目标,我们引入了全自适应 3D CNN (O-CNN),它由两个关键组件组成:空间动态感受野和自适应关系卷积。至于局限性,目前的金字塔网格大小是根据经验设定的,这凸显了未来研究需要开发更科学和逻辑依据的搜索算法。