【三维重建】去除瞬态物体Distractor汇总

3D高斯溅射（3DGS）由于其高质量的渲染、效率和低内存成本，最近在新型视图合成领域得到了广泛的应用。它的应用跨越了虚拟现实、增强现实和机器人技术等。但该方法假设输入图像是静态没有噪声的，往往难以满足。例如，用手机随意拍摄的图像通常包含混乱的动态物体，或瞬态物体。因此，由于总是存在许多瞬态遮挡，因此很难对场景进行建模。从技术上讲，3DGS能够有效地建模静态场景，因为图像中的静态对象满足不同视点之间的几何一致性约束。然而，瞬态对象并不遵循这个假设。如果在训练中包含瞬态对象的图像被简单地使用于3DGS，这种变化可能会导致难以实现单个高斯表示的相干混合，从而可能导致伪影或不准确性。

文章目录

一、HybridGS：用2D和3DGS解耦瞬态和静态场景
二、T-3DGS:去除三维场景重建中的瞬态对象`
- [2.1 Transient Mask Prediction(TMP)](#2.1 Transient Mask Prediction(TMP))
- [2.2 Transient Mask Refinement](#2.2 Transient Mask Refinement)
- 实验效果
三、SpotlessSplats：去除瞬态干扰物的三维高斯喷溅
- [3.1 3DGS的鲁棒优化](#3.1 3DGS的鲁棒优化)
- [3.2 识别干扰物（distractors）](#3.2 识别干扰物（distractors）)
- [3.3 3DGS的鲁棒性优化](#3.3 3DGS的鲁棒性优化)
- - [3.3.1 计划采样来进行预热（Warm up with scheduled sampling）](#3.3.1 计划采样来进行预热（Warm up with scheduled sampling）)
  - [3.3.2 基于图像的训练中的 Trimmed estimators（裁剪估计器）](#3.3.2 基于图像的训练中的 Trimmed estimators（裁剪估计器）)
  - [3.3.3 对"重置不透明度"的替代](#3.3.3 对“重置不透明度”的替代)
  - [3.3.4 Appearance modeling (外观建模)](#3.3.4 Appearance modeling (外观建模))
- [3.4. 实验结果](#3.4. 实验结果)
总结

一、HybridGS：用2D和3DGS解耦瞬态和静态场景

标题：HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting
来源：中科大、浙大、上交
地址：https://gujiaqivadin.github.io/hybridgs/

摘要：HybridGS对每幅图像的瞬态对象使用二维高斯分布，并对整个静态场景保持传统的三维高斯分布。瞬态对象偶尔出现，因此从单一视图将它们建模为平面对象，用二维高斯表示 。我们的新表示从基本观点一致性的角度分解场景，使其更加合理。此外，我们提出了一种新的多视图调节的3DGS监督方法，利用来自共可见区域的信息 ，进一步加强了瞬态和静态之间的区别。然后，我们提出了一个直接而有效的多阶段训练策略，以确保在各种设置下进行稳健的训练和高质量的视图合成。

相关方法 。GaussianImage $48$ 利用像素平面上的二维高斯图像来实现较好的重建质量，同时提供增强的压缩和加速渲染能力。Image-GS $49$ 通过自适应分配和逐步优化一组二维高斯分布来拟合目标图像来创建内容自适应图像表示。

2D Surfels 是通过二维曲面建模、三维空间的ray-splat intersection, 和 volumetric integration实现 perspective-correct splatting，GaussianImage 中的2D Gaussian是一种二维空间内灵活、紧凑、内容自适应的图像表示。

3D GS表示：

2D GS表示：

给定一组输入图像{ I k ∣ k = 1 , 2 , . . . , N I_k|k = 1,2,...,N Ik∣k=1,2,...,N}以及位姿pose，目标是合理地解耦瞬态 I t I_t It和静态 I s I_s Is如下：

热身阶段 ，我们首先训练一个基本的3DGS来捕获静态元素。接下来是二维和三维高斯分布的迭代训练 ，其中我们的瞬态和静态结合使用带有掩模的α混合策略，以产生最终的渲染图。该掩模为迭代训练阶段的三维高斯分布提供了指导。联合训练进一步优化分解结果。

3D高斯重建静态场景 。COLMAP 的初始化点云只能表示场景中多视图一致性的区域，因此三维高斯分布倾向于重建静态场景，如建筑、地面。瞬态场景中，由于RGB损失的约束，连续训练可能会导致瞬态对象过度拟合到高斯核中 。与以前每次迭代只栅格化和监督一幅图像的方法不同，我们 (1)将每次迭代的图像数量增加到K，使梯度反向传播可以同时考虑来自多个视图的互信息 。这种批处理输入允许每个优化步骤利用多视图来区分和推断瞬态和静态元素。 (2)采用稀疏训练计划，只关注在交叉视图截锥体的共可见区域内的三维高斯矩阵的优化 ，提高训练重点并降低计算成本。

2D高斯重建瞬态物体 。不同于其他利用语义特征的方法不同， (1) 2DGS已被证明是一种有效的图像表示方法。(2)2DGS的形成和栅格化过程与3DGS非常相似，允许两者在一个统一的框架内表达。(3)将不满足多视图几何一致性的三维对象退化为二维表示，可以在一个fundamental level上将瞬态从静态场景解耦。

二维高斯栅格化成一个带有瞬态掩模 M ^ t \hat{M}_t M^t的图像 I ^ t \hat{I}t I^t，用于建模不确定性（因为在用3DGS建模场景后，2DGS负责学习图像的残差部分 ），每个像素 y 2 d y{2d} y2d计算为：

多阶段训练方案 ：1.warm-up 预训练，使用3DGS捕捉静态场景（稠密化，λ为0.2）：

2.迭代训练。训练一个分支时，另一个分支梯度反向传播被关闭：

3.联合微调。微调瞬态mask，并减少渲染图像和真实图像之间的误差(β为0.2)：

数据集 。NeRF on-the-go（室内和室外，干扰物比例从5%到30%）和RobustNeRF（不同类型干扰物场景）。实验细节 。HybridGS是在开源的gsplat 和Taming-3DGS上开发的。视图数量K是4，从1k步的热身开始；迭代训练包括2DGS的10k步和3DGS的1k步。联合训练为30k步。整个训练过程大约需要0.18个GPU小时。PyTorch的GPU单个NVIDIA RTX 4090上进行。

表4对NeRF on-the-go数据集的二维高斯数的消融研究 ，最终实验选择10k最优数。瞬态mask：得益于我们的方法对瞬态对象的显式建模，我们可以在不引入任何分割网络或其他预训练特征的情况下获得瞬态掩模。图6：即使在强遮挡下也有效地学习了瞬变元素的RGB和mask，同时保持了静态元素的鲁棒性。

二、T-3DGS:去除三维场景重建中的瞬态对象`

标题：T-3DGS：去除三维场景重建中的瞬态对象
来源：Skoltech, Russia Robotics Center, Russia 3KAUST, Saudi Arabia 4AIRI, Russia
地址：https://transient-3dgs.github.io/

摘要。本文从输入视频中去除瞬态对象，利用Gaussian Splatting进行三维重建。主要由以下步骤组成：第一步，提出一种无监督的训练策略，基于其不同的训练行为，区分瞬态对象和静态场景部分 在三维高斯溅射重建中的分类网络。第二步，结合第一步结果和现成的分割方法，提高瞬态边界质量和稳定性 。还提出一种跟踪视频中的对象的策略。

2.1 Transient Mask Prediction(TMP)

无监督TMP，在没有显式监督的情况下识别瞬态干扰物 ，如图2所示。训练过程包括两个步骤： (1)在保持TMP冻结状态的同时优化3DGS参数，(2)在优化TMP的同时保持3DGS参数冻结状态。每次迭代更新两个模型的权重。参考Wildgaussians和Spotlesssplat，利用预训练好的大模型从图像中提取丰富的语义特征，将瞬态检测问题重新表述为语义特征分类任务，而不是直接的像素级预测，能够基于高级语义理解来做出决策。

特征提取 。分别从输入图像$I￥和相应的渲染图 I ^ \hat{I} I^中提取DINO v2特征，分别生成特征图 f f f， f ^ \hat{f} f^：(1)其自监督训练使健壮的语义理解没有类的偏见，(2)展示了强大的性能在区分对象边界和语义区域甚至以前看不见的对象，(3)与DIFT $40$ 特性相比，DINO v2提供更快的计算时间，使它更实用的迭代训练过程。

Transient Probability Masks 。TMP模块实行逻辑回归计算特征概率mask： P f = σ ( W f ) P^f = σ(Wf) Pf=σ(Wf)， σ ( ⋅ ) σ(·) σ(⋅)为sigmoid函数，W表示TMP权重。由于特征是patch(14×14），使用双线性插值上采样到原始图像分辨率，分别得到像素级瞬态掩模 P P P和 P ^ \hat{P} P^。

TMP 损失函数：

RGB损失识别渲染与真实图像不同区域（动态对象通常会在渲染图像和真实图像之间产生更大差异。通过用（1−P）对这些差异进行加权，鼓励分类器将更高的瞬态概率分配给显示显著重建错误的区域）；正则化项促进了稀疏预测，有助于产生紧凑的、聚焦的mask并减少假阳性；Egolifter,Wild-gs 使用了 L R G B L_{RGB} LRGB和 λ p r i o r L r e g λ_{prior}L_{reg} λpriorLreg的和，没有一致性损失，公式(2)的损失在重建几何上复杂的静态结构时表现出明显的局限性 。在这种情况下，即使是静态对象也会由于重建的挑战而产生超过 λ p r i o r λ_{prior} λprior的RGB错误。因此提出公式(3),解决了复杂曲面的静态对象在语义一致的同时可能显示出高重建误差的情况 (原理是静态对象的语义特征在输入渲染图像之间保持一致。通过惩罚 P P P和 P ^ \hat{P} P^之间的重叠，检测器关注真正的语义差异）。

训练细节 。首先，在一致性损失中将 P ^ \hat{P} P^从计算图中分离出来，防止模型学习区分真实和渲染图像；其次，延迟TMP训练的开始时间，直到3DGS优化完成前500次迭代，确保初始场景重建达到足够的质量。最后，在每次不透明度重置后，暂时暂停TMP优化250次迭代，同时保持3DGS训练；双线性插值之前，将mask放大一个像素（补偿基础模型的粗糙特征分辨率）。

对于半透明的物体，当它是动态的时，它只掩盖视频的部分。本文引入了一个mask传播过程，通过细化和传播，将瞬态掩模细化为时间一致的、具有高分辨率边界的精确mask

空间细化 。使用 SAM将瞬态映射 P i P_i Pi细化为更精确的mask M i ' Mi' Mi'。对于 P i P_i Pi中的每个连接组件 C i k C_i^k Cik，采样10个样本提示点，生成 L i L_i Li个对象感知mask： M i ′ M'_i Mi′。由于mask边界的潜在不准确，一些采样点可能偶尔落在背景上，而不是物体本身（例如，在一个人的腿之间的采样点）。为了解决，根据预测的本地覆盖分数进行过滤：

时间细化 。为了解决mask不一致性，使用SAM2在整个视频中传播改进后的掩模{ M i ′ M'i Mi′} i = 1 N ^N{i=1} i=1N，以获得更一致的mask。传播过程包括三个阶段：1。正向传播：从第一帧迭代到最后一帧，以向前传播分割掩码。 2.向后传播：迭代最后一帧到第一帧，以从未来的帧向后传播信息。 3.最后的传播：最后的传播：最后的第一次传递，考虑过去和未来的框架作为背景，这有助于解决任何时间上的不一致。为了有效管理计算资源，引入了一个内存大小参数 N m N_m Nm，限制传播过程中所考虑的帧，并根据以下标准合并mask：

动态目标过滤 。引入一个稳定比(SR)度量 过滤掉假的瞬态，它结合了空间重叠精度和时间一致性。对于每个检测到的对象， S R = 1 N ∑ i = 1 N ( R i ⋅ C S g l o b a l , i ) SR= \frac {1}{N}\sum_{i=1}^N(R_i·CS_{global,i}) SR=N1∑i=1N(Ri⋅CSglobal,i)， N N N为有效帧数， R i R_i Ri为第 i i i帧中mask区域的真实与渲染图像之间绝对差值的平均值。 C S g l o b a l , i = ∣ P i ∩ M i ∣ / ∣ M m a x ∣ CS_{global,i}=|P_i∩M_i|/|M_{max}| CSglobal,i=∣Pi∩Mi∣/∣Mmax∣是全局覆盖得分， M m a x M_{max} Mmax是所有帧中最大的对象mask。全局分数有助于评估对象相对于其最大观测大小的一致性 。某帧只有在其局部覆盖得分(公式4)超过验证阈值 λ c o v v a l λ^{val}{ cov} λcovval时才被认为是有效的；SR低于阈值 λ S R λ{SR} λSR的对象被视为误检过滤掉。局部覆盖保证目标保持空间精度，全局覆盖保证目标的时间一致性

去除伪影的重建 。3DGS倾向于在相机附近产生漂浮的伪影（floater），伪影会饱和梯度，降低整体重建质量。本文提出深度感知的正则化 ：每个像素深度 D = ∑ i = 1 M T i α i d i D=\sum_{i=1}^MT_iα_id_i D=∑i=1MTiαidi， d i d_i di是第 i i i个高斯分布的深度值， T i T_i Ti是累积透光率， α i α_i αi是不透明度值。使用anisotropic total variation (TV)正则化渲染深度图： L d e p t h = m e a n ( ∣ ∇ x D ∣ ) + m e a n ( ∣ ∇ y D ∣ ) L_{depth} = mean(|∇xD|) + mean(|∇yD|) Ldepth=mean(∣∇xD∣)+mean(∣∇yD∣)

使用mask训练GS ：

实验效果

数据集 。采用三个数据集：NeRF on-the-go (4个室外和2个室内场景，5%到30%不同程度遮挡);RobustNeRF(包含5个室内场景，存在无心的变化，包括不连贯的视频序列的瞬态对象和动态物体）。自建了T-3DGS数据集（包含5个室内场景，包含瞬态、半透明的和缓慢移动的对象。

共进行30K迭代，Adam优化器，对TMP的学习速率为1e-3。深度正则化损失L深度在前500次迭代后被激活，允许3DGS建立初始几何重建。对于mask传播，首先对TMP进行7000次迭代。在这时，我们暂停训练来传播瞬态mask。随后使用传播的mask启动一个新的训练程序，保持所有其他参数与原始训练设置相同。

三、SpotlessSplats：去除瞬态干扰物的三维高斯喷溅

代码：https://spotlesssplats.github.io
论文：https://arxiv.org/pdf/2406.20055
来源：DeepMind，多伦多大学，斯坦福大学，西蒙弗雷泽大学

摘要。三维高斯喷溅（3DGS）是一种最新的三维重建技术，提供了高效的训练和渲染速度，使其适用于实时应用。然而，目前的方法需要高度控制的环境------没有移动的人或风吹的元素，以及一致的照明------以满足3DGS的视图间一致性假设。这使得重建现实世界的捕获成为问题。我们提出了无斑点斑图，一种利用预训练和通用特征结合鲁棒优化来有效地忽略瞬态干扰物的方法。我们的方法实现了最先进的重建质量。

3.1 3DGS的鲁棒优化

与之前的作品 $18,26,47$ 不同，我们没有对瞬态对象类、外观和/或形状进行假设。

我们通过借鉴RobustNeRF来解决这个问题 ，通过识别输入图像中应该被mask的部分来消除干扰物。该问题简化为预测（无监督）每个训练图像的内部/外部点的maks { M n M_n Mn} n = 1 N ^N_{n=1} n=1N，并通过mask L1损失来优化模型：

其中 I ^ n ( t ) \hat{I}^{(t)}_n I^n(t) 是在训练迭代(t)时的渲染结果。RobustNeRF 通过观察训练过程中的光度不一致来检测瞬态效应 ；即，具有大的损失值的图像区域。通过用 R n ( t ) = I n − I ^ n ( t ) R^{(t)}_n =I_n - \hat{I}^{(t)}_n Rn(t)=In−I^n(t) 表示残差的图像（轻微滥用符号，因为1范数是沿颜色通道像素执行的），mask计算为：

其中 1 1 1是一个指示函数(为真则返回1，否则为0)，ρ是一个广义中位数，τ是一个超参数，控制cut-off percentile；B是一个（标准化）3×3box 滤波器，通过卷积（~）执行 a morphological dilation。直观地说，上面(2)总结的RobustNeRF $40$ 通过假设内部值/异常值是空间相关的，扩展了trimmed robust estimator $9$ 。我们发现，直接将 $40$ 的想法应用到3DGS中，即使不受如图2中所示的误导性颜色残余情况的限制，也不能有效地去除异常值。相反，为了适应3DGS的表现和训练过程中的差异，需要进行一些调整（4.2节）；

3.2 识别干扰物（distractors）

给定输入图像{ I n I_n In} n = 1 N ^N_{n=1} n=1N，使用 Stable Diffusion提取特征图{ F n F_n Fn} n = 1 N ^N_{n=1} n=1N。这个预处理步骤在训练开始之前执行一次，使用其计算 inlier/outlier masks M ( t ) M^{(t)} M(t)；我们删除图像索引n以简化符号，因为训练过程涉及每批一个图像。现在详细介绍检测outliers 的两种不同的方法:

3.2.1 空间聚类（Spatial clustering）

预处理阶段，额外对图像区域进行无监督聚类 。与超像素技术 $14,21$ 类似，我们将图像过度分割成C个空间连接组件的固定基数集合；参见"聚类特征"图2。具体说，在特征图 F F F上执行层次聚类 $2011年$ ，其中每个像素都连接到它周围的8个像素。将像素p分配给聚类c表示为 C $c , p$ C $c,p$ C $c,p$ ∈{ 0 , 1 0,1 0,1}，并将聚类初始化为每个像素其自身聚类。融合簇间特征方差最少的集群（collapsing those that cause the least amount of inter-cluster feature variance differential before/post collapse）。当C=100集群仍然存在时，集群将终止（ Clustering terminates when C=100 clusters remain）。

然后，从公式(2)的mask内部像素的百分比，计算出簇c是一个内部像素的概率：

然后将簇标签传播回像素：

使用 M a g g ( t ) M^{(t)}_{agg} Magg(t)，而不是 M ( t ) M^{(t)} M(t)，作为 inlier/outlier的mask来训练(1)中的3DGS模型。这个模型配置指定为"SLS-agg"

3.2.2 时空聚类（Spatio-temporal clustering）

第二种方法是训练一个分类器，根据像素的相关特征来决定像素是否应该被(1)优化。为此，我们使用一个带有参数θ的MLP，从像素特征中预测每个像素的inlier概率：

分类器参数 θ ( t ) θ^{(t)} θ(t)与3DGS优化同时更新。H用1×1卷积实现，MLP和3DGS交替优化。MLP分类器损失为：

λ=0.5，U和L是由当前残差的mask计算出的自监督标签：

换句话说，我们只在像素上直接监督分类器 ，这样我们就可以根据重构残差来确定 inlier

status，否则我们就严重依赖于特征空间中的语义相似性；见图4。为了进一步正则化H，将相似的特征映射到相似的概率，我们通过 L r e g L_{reg} Lreg最小化它的 Lipschitz constant $文献23$ 。

然后使用 M m l p ( t ) M^{(t)}_{mlp} Mmlp(t)，而不是 M ( t ) M^{(t)} M(t)，作为 inlier/outlier的mask来训练(1)中的3个DGS。我们将此模型配置指定为"SLS-mlp"

3.3 3DGS的鲁棒性优化

直接将任何鲁棒的mask 技术应用于3DGS，会导致mask 过拟合到一个过早的3DGS模型(见4.2.1节)，比如基于图像的训练（4.2.2节)，或3DGS的密集化策略(见4.2.3节)使得inlier estimator产生偏差。下面我们提出了解决方案。

3.3.1 计划采样来进行预热（Warm up with scheduled sampling）

逐步应用mask很重要，因为初始残差是随机的 。如果我们使用学习到的聚类来mask，这是双重正确的，因为MLP在优化的早期不会收敛，并随机预测mask。此外，直接使用 outlier mask 往往导致 quickly overcommit to outliers，防止有价值的错误的反向传播，并从这些区域学习。我们通过将每个像素的mask策略，制定为基于mask的伯努利分布的采样来缓解这种情况：

其中，α是一个阶梯指数调度器（ staircase exponential scheduler），从1到0，提供了一个热身。这使得我们仍然可以在我们不确定的区域中稀疏地采样梯度，从而可以更好地分类离群值。

3.3.2 基于图像的训练中的 Trimmed estimators（裁剪估计器）

$40$ 实现了一个修剪后的估计器，其基本的假设是每个minibatch（平均）包含相同比例的异常值。这个假设在3DGS训练运行中被打破了，其中每个minibatch都是一个完整的图像，而不是从训练图像集中随机抽取的一个像素集 。这给实现(2)的广义中值带来了挑战，因为异常值的分布在图像之间是有偏颇的。

我们通过跟踪多个训练批次上的残差量级来解决：将残差的magnitudes离散为B个直方图buckets，宽度等于渲染误差的下界（ 1 0 − 3 10^{−3} 10−3）。我们通过对bucket population的有折扣的更新，来升级每次迭代中每个bucket的似然，类似于快速中值滤波方法 $32$ 。这保持了残差分布的移动估计，内存消耗不变，从中我们可以提取出广义中值 ρ ρ ρ作为直方图总体中的 τ τ τ 分位数

3.3.3 对"重置不透明度"的替代

原始GS每M次迭代，会重置所有高斯分布的不透明度 。opacity reset 处理两个问题：首先，在具有挑战性的数据集中，在相机附近的优化容易积累高斯分布，常被称为floater。这很难处理，因为它迫使相机光线尽早饱和于透光率，因此梯度没有机会流通到场景的遮挡部分。opacity reset降低了所有高斯分布的不透明度，这样梯度就可以沿着整个射线再次流动 。第二，opacity reset控制高斯数量。将不透明度重置为一个低值，允许（永远无法恢复到更高不透明度的GS）通过自适应密度控制机制进行修剪。

然而，opacity reset 干扰了残差分布跟踪，导致残影在opacity reset 后的迭代中变大。简单的禁用并不能work，因为是优化必须的。根据文献 $11$ ， 我们采用基于利用率的修剪（UBP：utilization-based pruning） 。我们跟踪渲染的颜色相对于每个高斯 g g g的投影位置 x g x_g xg的梯度 。与3D位置相比，计算关于投影位置的导数，允许一个更少的内存密集型的GPU实现，同时提供了一个与 $Bayes' Rays: Uncertainty quantification in neural radiance fields. CVPR, 2024$ 中类似的度量。其中，利用率 utilization定义为：

我们在图像全局 (W×H)来平均该指标，在前一组 ∣ N T ( t ) ∣ = 100 |N_T(t)|=100 ∣NT(t)∣=100张图像中，每100步计算一次。当 u g < κ u_g<κ ug<κ, with κ = 1 0 − 8 κ = 10^{−8} κ=10−8时，裁剪高斯 。基于利用率的剪枝替换opacity reset，实现了两个原始目标，同时减轻了对残差分布跟踪的干扰。基于利用率的剪枝通过使用更少的高斯原型显著地压缩了场景表示，同时即使在无离群值的场景中也能实现高重建质量 ；参见第5.2节。它还能有效地处理floater（见图10）。floater的利用率很低，因为他们参与渲染很少的视图。此外，使用（11）中所示的masked derivatives，可以去除在 warm-up阶段的 any splat that has leaked through the robust mask。

3.3.4 Appearance modeling (外观建模)

原始GS假设场景的图像（包括干扰物）在光度上是完全一致的，无法应用于自动曝光和白平衡。SpotlessSplats结合文献 $36$ 的方案，适用于文献 $17$ 的球谐表示的视图依赖的颜色。详细的，共同优化了每个输入摄像机视图的latent z n ∈ R 64 z_n∈R^{64} zn∈R64，并通过MLP将其映射到作用于谐波系数 c c c 的线性变换:

其中 ⚪ 是 Hadamard 乘积（矩阵的逐元素相乘），b模型改变了图像的亮度，a提供了表达能力来补偿白平衡。在优化过程中，可训练的参数还包括 θ Q θ_Q θQ和{ z n z_n zn}。这种简化的模型可以有效地防止 z n z_n zn在按图像调整时过度解释干扰物，就像在一个更简单的GLO $NeRF in the Wild$ 中发生的那样；参见Rematas等人的 $Urban Radiance Fields$ 进行分析。

3.4. 实验结果

数据集 。我们在随机捕获的 RobustNeRF $40$ 和 NeRF on-the-go $37$ 数据集上评估。RobustNeRF数据集包括四个充满干扰和无干扰训练分割的场景。 'Crab' 和 'Yoda'场景具有不同的干扰物，不是在一个休闲视频中捕获的。NeRF on-the-go数据集有6个场景，有三个水平的瞬态干扰物遮挡（低、中、高）和一个单独的干净测试集用于定量比较。

基线。三维高斯喷射方法尚未广泛解决无干扰物重建的问题。现有方法主要关注全局外观变化，如亮度变化 $10,19,49$ ，而不是关注为此任务策划的随机捕获数据集。此外，这些方法还没有公开可用的源代码。因此，我们与普通的3DGS方法和稳健的NeRF方法进行了比较。我们比较了最先进的NeRF方法，NeRFon-go $37$ ，NeRF-hugs $6$ 和RobustNeRF $40$ ，MipNeRF-360

指标。PSNR、SSIM和LPIPS的重建指标（LPIPS指标使用标准化的VGG特征）。NeRF-HuGS $6$ 报告来自AlexNet特性的LPIPS指标；为了公平比较，我们计算并报告其发布的VGG LPIPS指标。

实施细节 。模型都经过了30k次迭代的训练。我们关闭不透明度重置，在第8000步，只重置非扩散球谐系数到0.001。这确保了在MLP训练的早期阶段泄露的任何干扰物都不会被建模为视图依赖效应。我们每500步到15000步，每100步运行UBP。对于MLP训练，我们使用具有0.001学习率的Adam优化器。我们从SD v2.1的第2个上采样层计算图像特征 ，去噪时间步长为261，和一个空提示符中计算图像特征。Tang等人 $48$ 发现这种配置对分割和关键点匹配任务最有效。我们将degree 20的位置编码拼接作为MLP的输入。

无干扰物的三维重建

RobustNeRF $40$ 和 NeRF on-the-go 评估我们的方法。在图5定量地显示了SLS-mlp在RobustNeRF数据集上优于所有稳健的基于nerf的基线。对原始3DGS的改进，性能更接近理想的干净模型，特别是在"Yoda"和"Android"上。定性结果表明，原始3DGS试图将干扰物建模为noisy的floater（('Yoda', 'Statue')）或视角依赖效应（"Android"）或两者的混合物（"Crab"）。NeRF-HuGS $6$ 使用基于分割的掩模显示s signs of over masking（去除四个场景中的静态部分），或under-mask in challenging sparsely sampled views letting in transient objects（"Crab"）。

图3和图6 中，对NeRF on-the-go数据集进行了类似的分析。对于低遮挡场景，来自COLMAP $42$ 点云的原始3DGS的鲁棒初始化，特别是RANSAC对异常值的拒绝，足以产生良好的重建质量 。然而，随着干扰物密度的增加，3DGS重建质量下降，定性结果显示干扰物瞬态泄漏。此外，定性结果显示，NeRF在工作时没有去除训练早期阶段的一些干扰物（('Patio', 'Corner', 'mountain' and 'Spot'），这显示出与渲染错误过拟合的进一步迹象。这也可以看到在细节的over-masking（'Patio High'）或更大的结构（"喷泉"）被完全去除。

基于利用率的剪枝的效果

在我们所有的实验中，使我们提出的基于利用的修剪（UBP）(Sec。4.2.3)，将高斯数从4×减少到6×。这种压缩意味着启用UBP的训练时间至少减少了2×，在推理期间减少了3×。图10显示，启用UBP可能会略微降低定量测量值，但在实际应用中，最终的渲染效果更干净，漂浮物更少（例如，图像的左下角）。类似的观察结果表明，PSNR和LPIPS等指标可能不能像渲染的视频那样清晰地完全反映飞蚊群的存在。考虑到高斯数的大幅减少，我们提出UBP作为一种适用于杂乱和干净的数据集的压缩技术。图7显示，在干净的MipNeRF360 $2$ 数据集上，使用UBP而不是不透明度重置，在保持渲染质量的同时，将高斯数从2×减少到4.5×

Ablation study

在图8中，我们比较了SLS的性能与其他健壮的掩蔽技术的进展。该进展始于简单地应用一个鲁棒过滤器(2)，然后应用SLS-agg，最后在SLS-mlp中使用MLP。我们证明了SLS-agg和SLS-mlp都能够有效地从重建的场景中去除干扰物，同时保持对场景的最大覆盖范围。此外，在图9和图10中，我们减少了我们在架构设计和第4.2节中提出的调整中的选择。图9显示，使用一个MLP而不是一个小的CNN（都大约有30K参数，和两个非线性激活）可以更好地适应微妙的瞬变，如阴影。选择正则化器权重的λ似乎没有什么影响。在凝聚聚类中，更多的聚类通常会得到更好的结果，在100个聚类后收益减少。图10进一步说明了UBP在去除泄漏的干扰物方面的有效性。我们的其他适应能力，GLO，热身阶段和伯努利抽样都显示出了改进。

总结

提示：这里对文章进行总结：

d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ