这是一篇实验大于方法的论文,方法本身很简单,实验非常重要,作者对多个视觉大模型的3D感知能力做了充分的评估。个人觉得这个评估做的非常有必要,因为自从DUSt3R 发表以来,以视觉transformer为底座,以3D信息为head的方法正在机器人与SLAM,三维重建等方向大放异彩!众所周知,3D领域由于GT数据的大量缺乏,是一个巧妇难为无米之炊的现状,DUSt3R之后,我们由此而思考,视觉大模型虽然训练于2D数据,然而似乎也具有着3D感知?而西湖大学和马普所的这项研究刚好就是在做我们想知道的事情,视觉大模型VFMs,对于3D信息感知究竟几何?
除此之外,作者根据这些大模型的效果评估,合并了效果好的多个大模型,来进一步加强3D感知能力,进而优化稀疏重建pipeline,也给出了后续2D大模型应用于三维重建的一些启发。
1.abstract
视觉基础模型 (VFM) 是在广泛的数据集上进行训练的,但通常仅限于 2D 图像,自然会出现一个问题:它们对 3D 世界的理解程度如何? 由于架构和训练协议(即目标、代理任务)存在差异,迫切需要一个统一的框架来公平、全面地探究他们的 3D 感知。 现有的 3D 探索工作主要关注单视图 2.5D 估计(例如深度和法线)或双视图稀疏 2D 对应(例如匹配和跟踪)。 但是这些任务忽略了纹理感知,并且需要 3D 数据作为GT,从而限制了其评估集的规模和多样性。 为了解决这些问题,我们引入了 Feat2GS,它可以从unposed images中提取的 VFM 特征中读出 3D 高斯属性。 这使我们能够通过NVS探测几何和纹理的 3D 感知,而无需 3D 数据。 此外,3DGS 参数(几何(x、α、Σ)和纹理 (c))的解耦也 可以对纹理和几何感知进行单独分析 。 ****在 Feat2GS 下,我们进行了广泛的实验来探索几种 VFM 的 3D 感知,并研究导致 3D 感知 VFM 的成分。 基于这些发现,我们开发了几种变体,在不同的数据集上实现了最先进的技术,****并且可以作为新颖视图合成的简单而有效的基线。
2.Introduction
视觉基础模型 (VFM) [6] 已成为各种 2D 推理任务的基础 [44, 69] 以及 3D 微调的关键组件 [3, 10, 13, 34, 39, 70, 94, 106] ]。 它们强大的少样本或零样本泛化能力主要源于表达特征[9,72,75]。 但3D表现力的关键是什么?3D 感知是否必须来自 3D 数据? 一些 VFM(例如 DINOv2 和 MAE)仅使用 2D 图像进行训练。 训练方法有多重要? VFM 在许多方面都有所不同,例如学习策略(例如,自监督 [9, 33]、监督学习 [44,49, 94])和代理任务(例如,深度图回归 [94]、跨视图完成 [97]) ,一代[75])。 这些差异使得公平和全面的基准测试变得困难。
为了回答这些问题,最近的工作 [21, 74] 使用两个代理任务评估 VFM 的几何感知:1) 从单个图像进行 2.5D 深度/法线/标记估计 [21, 74],以及 2) 2D 匹配/跟踪 两个视图 [2, 21]。 虽然它确实分析了当前 VFM 的 3D 感知,但它没有探究 VFM 特征的纹理感知和多视图密集一致性,而这对于 3D 相关任务(例如重建和生成)至关重要。
对于"纹理感知 ",纹理不变训练可以提高几何估计,但可能损害纹理保留(参见图2中的RADIO)。 然而,恢复来自 VFM 特征图的原始纹理是大规模 2D 训练with photometric loss的关键[23,34,81,105]。 "多视角稠密探索",比如新颖视图合成 (NVS) [8, 82],允许每个输入像素以有助于评估,而不是不仅仅是稀疏匹配点。 与 2D 稀疏匹配不同, NVS只需要图像,无需昂贵的视觉对应关系标签。 随着众多的公共多视图数据集可用[4, 46, 52, 60, 111] ,这些数据集涵盖 不同的场景和视点,使用这些数据集来密集地评估纹理和几何感知的新 3D 探测方法可能非常有价值。
因此,我们引入了 Feat2GS(Feature2Gaussian),它在 NVS 任务中仅使用 2D 多视图数据来评估 VFM 的纹理和几何感知。 如图 1 所示,在训练过程中,Feat2GS 使用预先训练的 VFM 从输入视图中提取图像特征。 然后,浅层 MLP 读出层根据这些特征回归 3D 高斯函数 [40] 的参数。 多视图光度损失最大限度地减少了渲染和输入之间的视觉差异。 在测试过程中,通过不同的数据集测量未见过的视图的视觉相似性指标(即 PSNR、SSIM、LPIPS)。 表 5 证明这些 2D 指标与 3D 指标非常一致。 为了处理稀疏和未进行相机标定的图像,我们使用 DUSt3R [94] 初始化相机参数,并通过光度损失对其进行细化。
3DGS 的参数分为几何形状 (x、α、Σ) 和纹理 (c),可对 VFM 的纹理和几何感知进行单独分析。 每个小组可以在"特征读取"和"自由优化"模式之间切换,以使用 VFM 特征作为输入或自由优化。 这导致了三种探测方案(简称 GTA),如表 1 所示。可以看出在该数据集上,mast3r几乎是几何与纹理兼备的一个大模型。
我们的主要贡献如下:
1)Feat2GS 作为 VFM 探针。 Feat2GS 提供了一个统一的框架(图 1)来探测预训练 VFM 的 3D 感知(纹理和几何),而无需使用 3D 标签。
2)VFM的广泛分析。 我们评估了跨不同多视图数据集(表 4)的各种主流 VFM(图 2),从简单场景到因果捕获。 这些实验揭示了 VFM 的常见缺点并揭示了如何改进它们(第 4.3 节)。
- NVS 的强大基线。 受这些发现的启发,我们设计了 Feat2GS 的三个变体,它们在所有指标上都优于当前的 SOTA InstantSplat [22](表 6)。
3. Related Work
测量 VFM 的 3D 感知: 毫无疑问,视觉基础模型 VFMs,已经显著推进了各种 3D 视觉任务,例如几何线索估计 [3, 27, 35, 39, 42, 70, 106]、6D 姿态估计 [65]、视觉跟踪 [88]、空间推理 [13, 24] 等。然而,这些进步和日常的最先进记录背后,这些 VFMs 真正具备 3D 意识吗,即使是在没有任何 3D 数据的情况下训练的?如果是,这种意识达到了什么程度?是什么使这种意识成为可能?
现有工作主要关注粗粒度语义推理,例如确定"哪个标记更接近",而不是细粒度甚至像素级空间推理 ,对于细粒度的 3D 探针,它们要么使用 2.5D 代理任务 ,要么使用双视图稀疏点匹配 [21] 和跟踪 [2] 评估 VFM 的 3D 意识 。 这些细粒度 3D 探针的主要限制是它们对标记的 3D 数据的依赖,这极大地限制了对大规模视觉数据的公平和全面的评估。Feat2GS 通过首先从 VFM 特征回归 3DGS,然后通过新颖视角合成来基准测试 3D 感知,。这带来了两个优势:所有原始像素都可以为最终评估做出贡献,任何多视图捕获都可以被利用。Feat2GS 实现了"密集"和"多样化"的 3D 探测。
稀疏视角的 NVS现状 : 近年来,NVS取得了重大进展[11,40,61,62,85]。 对于稀疏视角重建,提出了各种正则化器 [63, 102] 或视觉先验,例如深度 [20, 119]、预训练的视觉特征 [36, 101]、扩散先验 [ 96, 98] 和前馈建模 [10, 12, 17, 34, 38, 54, 76, 89, 110, 120]。 然而,这些方法假设已经有来自运动结构[77]的已知相机pose,众所周知,稀疏视角的pose非常难以获取 。 尽管一些工作尝试在 NVS 优化 [95] 的同时优化相机姿态,但使用了粗到细编码 [51]、局部到全局配准 [16]、几何约束 [37]、对抗性目标 [58]、密集对应等技术 [86]和外部先验[5,28,59],它们只能处理密集视图或类似视频的序列------而不能处理稀疏视图图像。 DUSt3R [94]、MASt3R [49] 等突破性方法以及后续工作 [91, 114] 通过在大规模数据集上训练模型来解决这些限制。 他们将成对重建问题视为点图回归,从而缓解了重建一个场景,需要传统投影相机模型的严格限制。 预测的点图可以直接初始化 3DGS [40],然后可以在双视图前馈中进行回归 [23,81,105] 或通过多视图光度损失进行优化 [22]。InstantSplat [22] 密切反映了我们使用 DUSt3R 估计相机从稀疏捕获中优化 3DGS 的目标。 我们的 Feat2GS 与众不同之处在于我们使用视觉特征读出 3DGS,以自由形式对其进行优化,表 1, 这可以通过浅读出 MLP 来完成,有助于防止过度拟合。
3D 特征场 :除了对外观进行建模之外,3D 神经场 [99](例如 NeRF [61]、3DGS [40])还可以通过将从多个视图中提取的 2D 特征聚合到 3D 规范框架中来对特征进行建模。 特征提取器可以以端到端的方式从数据 [80, 116] 中学习,也可以是现成的视觉基础模型(VFM),例如 DINO [9]、CLIP [69]、Stable Diffusion [ 75]、SAM [44, 73] 和 LSeg [50]。
4.Method
4.1. Feat2GS
一句话总结就是,把图片输入到2D大模型里面,然后解码出高斯参数,对于优化过程,是利用参数化的GS对DUSt3R 估计的pose进行渲染,与GT做loss。具体:
我们在图 1 中展示了我们的pipeline:从各种视觉基础模型 (VFMs) 中提取冻结的特征图后,使用主成分分析 (PCA) [32] 统一特征通道维度,通过双线性上采样标准化空间维度,以及为不同的 VFM 特征保持一致的网络架构。具体来说,Feat2GS 以每个像素 i ∈ {1, 2, ..., n} 的紧凑特征 fi 为输入,并通过读出层 gΘ 输出每个像素对应的的高斯primitive,每一个Gi的属性包括位置、透明度、方差矩阵、3阶球谐函数:
为了防止 3D 高斯被读出层表示,我们通过限制读出层的参数数量来强制 3D 高斯分布从特征中解码 。具体来说,读出层是由一个每层包含 256 个单元的 2 层 MLP构建的,并使用 ReLU 激活函数。然后,我们通过可微光栅化将 3D 高斯分布投影到图像上。需要注意的是,为了使我们的方法能够评估随意捕捉的、稀疏的和未校准的图像,我们在实验中使用了一个不受约束的立体重建器 ,即 DUSt3R [94],来初始化相机位姿 T,然后使用渲染图 R 和图像 I 之间的简单光度损失,与读出层 Θ 联合更新相机姿态 T。
为了解耦几何和纹理感知,我们提出了三种探测模式:
(1)从 2D 图像特征中读出几何参数(Geometry), 自由优化纹理参数,也就是几何不变优化纹理:
(2)读取纹理参数**(Texture)** ,直接优化几何参数,也就是纹理不变,优化几何:
(3)直接读出所有参数(All),不做优化:
4.2. Warm Start
我们发现,由于随意图像的稀疏性质,直接从 2D 图像特征解码 3D 结构很容易陷入局部极小值。 为了确保对不同基础模型的特征进行稳健评估,我们使用点云回归来预热我们的GS以及后续的优化过程 。 其中,是来自DUSt3R 的初始点云。
4.3. Evaluation
我们选择从随意(稀疏和未校准)图像 [22] 中评估 NVS ,主要有两个原因:(1)多样性 : 处理随意图像的能力降低了对采集技术和视图设置的要求,有助于使评估数据多样化。 (2) 差异 : 与密集视图 NVS 相比,此任务提出了更大的挑战,从而可以更好地区分各种 VFM 功能的性能。 为了评估能够覆盖 3 到 N 个视图的任意随意捕获,我们通过 DUSt3R 统一估计所有数据集的训练和测试视图的pose。 随后,我们通过光度损失执行test-time pose optimization [22, 51],也就是先对估计的pose进行refine,在评估视图合成质量之前进一步校准测试pose。
5. Experiments
5.1实验设置
我们的实验重点关注 10 种显示出强大通用 3D 感知潜力的视觉基础模型 (VFMs),比较这些模型在不同类型的数据(2D 与 3D)和不同监督策略(例如,监督学习与自监督学习、点对齐与深度对齐)上的训练效果。表 2 提供了一个概述。为了尽可能公平地进行比较,我们使用了公开可用的模型ckpt,并选择了具有可比架构和训练规模的模型。我们还纳入了 IUVRGB 作为基线,IUVRGB 包含图像索引(I)、像素坐标(UV)和颜色(RGB)。
为了可靠地评估不同的特征,我们的实验使用了七个多视图数据集,稀疏视图的采样范围从2到7,测试的视点远离训练视点。这些数据集,如表3,丰富的多样性,与3D地面真实数据集相比,为我们提供了更全面的视角。
评估指标 :我们在七个数据集上使用标准指标评估新视角合成的效果:PSNR(峰值信噪比)、SSIM(结构相似性指数)和 LPIPS(感知路径长度)。在计算这些指标时,我们遵循 Splatt3R [81] 的方法,对渲染图像和测试图像都应用了掩膜。这些掩膜将有效像素定义为至少在一个视图的视锥体内的像素,并且这些像素的反投影深度与 DUSt3R 预测的深度对齐。所有指标都是在整个图像上计算的。
在 DTU 数据集上,我们测量重建的 3D 高斯分布 (3DGS) 与点云真实数据之间的距离(表 5),报告平均精度、完整性和距离,这与之前的研究 [1, 91] 一致。精度是指从重建点到真实数据的最小欧氏距离;完整性是指从真实数据点到重建点的最小欧氏距离;距离则是基于真实数据点匹配的欧氏距离。
5.2 动机验证
新视角合成与 3D 指标相关 :使用 2D 指标而不是 3D 指标可以让我们绕过对 3D 真实数据的需求。关键问题是:新视角合成是否可以有效地作为 3D 指标的代理?
我们在 DTU 数据集 [1] 上进行了实验,该数据集以密集点云作为 3D 真实数据,评估了 2D NVS 和 3D 点云回归任务。我们计算了这些结果之间的相关性,如表 5 所示。结果表明 2D 和 3D 指标之间存在强烈的相关性,支持 NVS 作为 3D 评估的指标。我们在图 4 中进一步定性地展示了这种相关性。结果表明,NVS 与 3D 指标之间存在很强的关系,确认高质量的 NVS 与准确的 3D 表示高度一致。
5.3. 发现
总体性能:表 4 对 VFM 特征进行了三种探测模式的基准测试:几何、纹理和综合(All)。我们在图 2 中绘制了这些特征在不同数据集上的平均得分。
在几何模式中,表现最好的前三个模型是:RADIO > MASt3R > DUSt3R。然而,在纹理模式中,这些模型的表现差异较大,评分最高的是:MAE > SAM > MASt3R。在综合模式中,MASt3R 和 DUSt3R 获得了最高的评分,其次是 DINO 。在表 4 中,Stable Diffusion (SD) 在大多数指标中表现最差,图 3-A 展示了其显著的颜色漂移和几何结构断裂,更多的几何定性结果请参见附录。这与 Probe3D [21] 中关于 SD 的结论一致。大的视角变化会导致特征空间中的不一致(见图 9b)。
纹理不友好的训练策略 :如表 4 和图 3 所示,VFM 特征在纹理模式中的表现较差,甚至不如图 7 中展示的简单的 IUVRGB 编码。这表明当前的 VFM 特征缺乏纹理意识 ,正如 [81, 105] 中所指出的。一个可能的解释是,VFMs 通常被训练用于语义理解或 3D 估计,这些任务需要纹理不变的特征以避免捷径 [29, 30]。例如,DUSt3R 被训练成纹理不变,以提高在各种野外捕捉中的 3D 稳健性 。自监督学习(SSL)中的大量数据增强,如 DINO [9]、BYOL [31] 和 SimCLR [14] 中的颜色抖动、高斯模糊和太阳化,鼓励模型在外观或照明变化的情况下产生一致的输出 。由于 CLIP 是在弱对齐的图像-文本对上训练的,它通常包含模糊且粗糙的语义,这些语义不足以建模低级视觉模式,如颜色、材料和纹理 [92]。RADIO 通过蒸馏 DINO 和 CLIP,实现了出色的几何意识,但同时也继承了它们较差的纹理意识(见图 2 和图 7)。
纹理从遮掩图像重建中受益 :为了进一步分析 GTA 模式之间的相互关系,我们使用所有数据集的平均指标计算了它们的相关矩阵,如图 6 所示。结果表明,综合模式在 PSNR 和 SSIM 指标上与几何模式的关联更强,这些指标主要反映结构一致性,而在 LPIPS 指标上与纹理模式的关联更密切,LPIPS 是用于评估图像清晰度的指标。这进一步支持了综合模式中的模糊现象是由于 VFM 特征缺乏纹理意识的观点。
纹理显然是实现照片级真实效果的关键。如何在 VFM 中保留纹理?如图 2 所示,经过mask图像重建预训练的 VFM(如 MAE、MASt3R、DUSt3R)在 TLPIPS 指标上排名最高,图 7 也支持这一点。MAE 能够恢复清晰纹理的能力可能归功于仅使用裁剪增强(cropping-only augmentation),而不是颜色抖动,因为颜色抖动会降低结果质量,因此未被包括 [33]。此外,基于去噪的图像重建会导致颜色偏移,如图 8 所示。
通过这些分析,我们可以看到,mask图像重建预训练有助于提高 VFM 在纹理任务中的表现,从而改善综合模式下的图像质量 。这表明在训练 VFM 时,适当减少对纹理不友好的数据增强方法(如颜色抖动和去噪),可以更好地保留纹理信息,提升模型的多任务处理能力。
几何从 3D 数据中受益:在图 2 中,RADIO、MASt3R、DUSt3R 和 DINO 在几何意识指标上排在前四名。在图 9a 中,这四个特征有助于重建挖掘机的更完整结构,而其他特征则导致漂浮的伪影和畸变。
更好的几何意识意味着更强的跨视角一致性 ,这一点也在图 9b 中得到了支持。实现几何感知一个关键因素是 3D 数据 。MASt3R 和 DUSt3R 都是通过点图(pointmap)训练的。那么 2.5D 数据,如深度图或法线图,表现如何?如图 9a 所示,2.5D 数据的表现要差得多,特别是 DUSt3R 与 MiDaS 的对比 。请注意,MiDaS 和 DUSt3R 共享相同的 ViT-L/16 编码器架构(见表 2),并且具有可比的训练规模(3M vs. 2M)。深度图估计可能会导致在不同距离下观察同一对象时特征不一致。相比之下,点图回归 [94] 鼓励网络生成跨视角一致的特征,因为视图变化时场景坐标保持不变 [8, 79]。
模型集成的帮助 :RADIO 通过蒸馏 DINOv2、CLIP 和 SAM 进入单个模型,如图 2、3 和 9a 所示,实现了最佳的几何感知。一个自然的问题出现了:简单地拼接这些特征是否可以得到类似的结果?答案是肯定的!具体来说,我们拼接了 DINOv2、CLIP 和 SAM 的特征,然后应用主成分分析(PCA)将特征通道减少到 256,以保持网络大小不变,进行公平的比较。图 10a 显示,在几何模式下,特征拼接(DINOv2+CLIP+SAM)的表现优于模型蒸馏(RADIO)。
这一结果激发了我们进一步探索:如果我们将最佳的几何模式特征和最佳的纹理模式特征结合起来会怎么样?图 6 已经指出,最佳的综合模式(All mode)应该在纹理和几何方面都没有弱点。如图 10b 所示,使用来自 RADIO(在几何模式中最佳)和 MAE 与 IUVRGB(在纹理模式中最佳)拼接的特征的综合模式,其表现优于使用 MASt3R 特征的原始最佳综合模式。这一探索展示了我们探针方法的潜力。
6. Application
Feature Pickup :受第 5.3 节的启发,我们创建了三个 Feat2GS 变体,以使用非专业(稀疏且未标定)图像在新视角合成(NVS)任务中与 InstantSplat [22] 进行比较 。具体来说,我们选择了几何模式中表现最好的RADIO作为第一个基线。如表 6 所示,使用RADIO特征的 Feat2GS 在 PSNR 和 SSIM 指标上优于 InstantSplat 。图 11 中的定性结果显示,InstantSplat 经常生成断裂的结构和不连续的伪影。这主要是因为针对稀疏视角优化数百万个 3DGS 会导致高频细节的过拟合,从而产生次优参数。相反,使用RADIO特征的 Feat2GS 几何模式能够生成高质量的新视角合成图像,这得益于****RADIO 的强几何感知。在该变体中****Feat2GS 的RADIO 的强几何感知使得我们可以通过一个非常轻量级的(2 层)MLP 从深层特征中读取 3DGS,这对于避免过拟合至关重要。
特征融合 :由于简单的特征拼接有效(见图10),因此考虑一种直截了当的方法是合理的:将不同的VFM特征进行拼接。然而,探索所有可能的特征组合是不切实际的。因此,我们根据几何模式的性能对特征进行排序 ,如图12所示。曲线表明,随着更多的VFM特征被拼接,性能有所提升,特别是当更高排名的VFM特征被合并时,性能的提升更加明显。基于这一观察,我们将所有VFM特征简单拼接作为第二个基线。与仅使用RADIO特征相比(如图11所示),"Feat2GS w/ concat all"模型获得了更好的结果。
特征微调 :我们探讨在预热阶段进行特征微调是否有益。微调不同VFM特征后的结果显示差异很小,这表明使用任何良好初始化的特征进行微调都是有效的(详细内容见附录)。由于我们使用DUSt3R来预热读出层,为了简化,我们在表6中比较了未微调的DUSt3R与微调后的DUSt3R*。特征微调可以提高新型视图合成(NVS)的质量。图11显示,微调后的模型在性能上明显优于目前最先进的InstantSplat。
7.结论
Feat2GS 有几个限制。 首先,Feat2GS 需要初始化相机位姿和由无约束立体重建器估计的点云 [49,91,114]。 虽然现有方法(在我们的例子中为 DUSt3R [94])对于初始化来说是稳健的,但有时会发生失败。 尽管 Feat2GS 可以处理嘈杂的初始化点云,但它很难处理那些包含显着异常值的点云,如图 13 所示。一个令人兴奋的方向是通过利用 VFM 特征来初始化姿势 [65] 和点云 [8] 来消除这种依赖性。 其次,Feat2GS 专为受控设置而设计,在恒定照明下短时间内捕捉场景。 这限制了它处理长期、野外数据集的能力,这些数据集的图像可能相隔数小时或数年捕获,例如地标的互联网照片集 [83, 89]。 最后,Feat2GS 目前仅限于静态场景。 这是多视图图像集合中评估的合理假设,但限制了动态视频中的评估。 4D 高斯分布 [55, 93] 可用于克服此限制。
Feat2GS 有效地利用 VFM 在随意、稀疏的捕获上执行新颖的视图合成 (NVS) 任务。 这些发现表明,从规范空间中的各种视图预测 3D 高斯并使用光度损失训练模型是开发 3D VFM 的一种有前途的策略 ,[23, 105] 也指出了这一点。 此外,VFM 特征集成也是一个值得探索的有趣主题 [72, 78],我们证明这可以通过简单的串联在 Feat2GS 中有效实现。 我们希望这些见解以及用于未来模型探索的多功能工具 Feat2GS 将推进 VFM 研究并推动 3D 视觉的进步。