对占用网络(Occupancy Networks)的简单介绍

众所周知,Tesla的FSD引入了Occupancy Networks技术,用来重建车子周遭的3D环境。正好笔者也看过相关的论文,趁这个机会跟大家介绍一下。

推荐阅读:下一代人工智能技术:从大语言模型(LLM)到世界模型(WM)

Tesla所设计的Occupancy Network与本文所介绍的技术并不相同,但目的都是重建voxel层级的占据预测。

常见的3D物体表面隐式表示法(如SDF),通常是用场域(Field)或函数(Function)的方式去表示。而Occupancy Networks(以下简称ONet),则是以深度学习分类器的连续决策边界来作为隐式表示。而像这样深度学习网络的隐式表示法,也常被称为Deep Implicit Fields(DIFs)。

"Occupancy networks implicitly represent the 3D surface as the continuous decision boundary of a deep neural network classifier."

下图为显式表示法(体素/点云/网格)与ONet对于公园椅的描述概貌。

ONet的概念在于,给予空间中任一点p一个介于0~1之间的占用率,因此可以将物体的占用函数表示为:

这个函数可以被视为一个分类器,而在ONet中我们尤其关注用来隐式表示物体表面的决策边界。而ONet则是以(p, x)作为input,其中x为对于物件的观察(如图像、体素等),x ∈ X。而output则是一个0~1的实数表示机率,整个ONet表示如下:

关于模型的训练,我们首先在3D物体的边界体(Bounding Volume)内进行随机采样。对第i个样本采样k个点:

其损失函数如下,其中xi是批次B(batch)中的第i个观测值,oij ≡ o(pij) 表示点pij是否实际被物体占用。L为交叉熵损失。在实践上,采用均匀方式在物体的边界框(带填充)内进行采样,可以获得最佳的训练效果。

至于在提取物体表面网格(Mesh)的推断(Inference)上,ONet提出了多分辨率等值面提取 (Multiresolution IsoSurface Extraction, MISE)的方法。该方法通过渐进式地构建八叉树(利用ONet评估空间是否被占据),再结合行进立方体(Marching Cube)算法,最终提取出高分辨率的物体表面网格。

而从内存存取的角度来看,与体素表示法相比,ONet仅需6百万个参数 即可训练完ShapeNet数据集中的4746个样本 ;而体素表示法所需的内存空间,则会随着分辨率的提升,以三次方的比例增长。

接下来,我们看看基于单一影像的3D物体重建结果,并与当时其他先进(state-of-the-art)的方法进行比较:

最后,对于论文的训练细节以及其他实验结果数据感兴趣的读者,可以进一步查阅以下论文:《Occupancy Networks: Learning 3D Reconstruction in Function Space》

推荐阅读:世界动作模型(WAM)的泛化能力是否优于视觉语言动作模型(VLA)?

相关推荐
杀生丸学AI11 小时前
【4DGS】4C4D:4个摄像头4DGS成像
人工智能·深度学习·三维重建·3dgs·4dgs·动态重建·高斯溅射
杀生丸学AI7 天前
【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)
人工智能·大模型·aigc·safari·三维重建·3dgs·世界模型
sin°θ_陈12 天前
前馈式3D Gaussian Splatting 研究地图(路线三):大重建模型如何进入 3DGS——GRM、GS-LRM 与 Long-LRM 的方法转向
3d·aigc·gpu算力·三维重建·空间计算·3dgs·空间智能
sin°θ_陈12 天前
前馈式3D Gaussian Splatting 研究地图(路线二):几何优先的前馈式 3DGS——前馈式 3DGS 如何重新拥抱多视图几何
深度学习·3d·webgl·三维重建·空间计算·3dgs·空间智能
杀生丸学AI15 天前
【世界模型】video2world:从不一致视角重建世界
人工智能·三维重建·扩散模型·具身智能·视频生成·世界模型·空间智能
Struart_R16 天前
PAGE-4D、4RC、Track4World论文解读
计算机视觉·多模态·三维重建
Struart_R20 天前
Easi3R、VGGT4D、4D-VGGT论文解读
人工智能·计算机视觉·三维重建·4d·vggt
Struart_R1 个月前
Spann3R、MUSt3R、CUT3R、TTT3R论文解读
人工智能·计算机视觉·3d·三维重建·前馈模型
_千思_1 个月前
【小白说】【论文拆解】Deep Implicit Moving Least-Squares Functions for 3D Reconstruction
三维重建