我自己的原文哦~ https://blog.51cto.com/whaosoft143/14345147
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#RobustVGGT
RobustVGGT来了!不惧噪声,显著提升3D重建鲁棒性
- 论文标题: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
- 论文作者: Jisang Han, Sunghwan Hong, Jaewoo Jung, Wooseok Jang, Honggyu An, Qianqian Wang, Seungryong Kim, Chen Feng
- 作者机构: 韩国科学技术院;纽约大学;苏黎世联邦理工学院;加州大学伯克利分校
- 论文地址: https://arxiv.org/abs/2512.04012
- 项目主页: https://cvlab-kaist.github.io/RobustVGGT/
- 代码仓库: https://github.com/cvlab-kaist/robustvggt
研究背景与挑战
在复杂的现实世界中,从海量图像中重建三维场景一直是个挑战,特别是当这些图像质量参差不齐,混杂着无关的"噪声"视图时。今天我们要聊的这篇论文------Emergent Outlier View Rejection in Visual Geometry Grounded Transformers,就为这个问题提供了一个优雅而高效的解决方案。它揭示了现有模型中一个惊人的"天赋",让我们无需额外训练,就能大幅提升三维重建的鲁棒性。
我们知道,从多张照片重建三维物体或场景(Multi-view 3D reconstruction),是计算机视觉领域一个非常核心的问题。从自动驾驶到增强现实(AR/VR),都离不开它。传统的SfM(Structure-from-Motion)管线,比如大名鼎鼎的COLMAP,在处理那些"脏乱差"的野外图像集时,表现得相当老练。它们有一套成熟的"排雷"机制:几何验证、RANSAC算法剔除离群点等等,能有效过滤掉那些不一致的视图。
然而,近年来兴起的前向3D重建模型,比如VGGT(Visual Geometry Grounded Transformer),虽然在速度和性能上取得了显著进步,却普遍缺少这种显式的离群视图剔除机制。这就导致了一个问题:当输入图像中混入了无关的背景、模糊的照片或完全不搭边的"捣乱分子"时(就像我们从网上随手一搜图片,总会遇到不相关的结果一样),这些模型就容易"翻车",重建出的三维结构会变得很糟糕,出现很多噪声和伪影。
如上图所示,当输入图像集中包含分散图像时,如果不进行过滤,VGGT管线会产生噪声几何和最终重建中的可见伪影(a)。
一些人可能会想到,是不是可以用预测的每像素置信度图来过滤掉不可靠的深度点呢?可惜,论文指出,这些置信度是"事后诸葛亮",只作用于点级别,并不能从根本上过滤掉整个离群视图。结果就是,模型依然会尝试重建所有图像,导致错误的视图扭曲了姿态估计,破坏了恢复的三维几何结构。
上图展示了VGGT重建的结果。尽管VGGT预测了每像素置信度图来降低不可靠深度的权重,但这种信号只在点级别上起作用,并不能过滤视图。因此,分散图像仍然会被重建,导致虚假内容破坏恢复的几何形状。
核心发现与方法:VGGT的"涌现式"智慧
这篇论文最引人入胜的地方在于,它发现了一个惊人的"涌现式"属性:VGGT模型,即便在没有任何显式离群剔除机制或噪声感知训练的情况下,竟然能够内在地区分出那些"捣乱"的离群图像!
通过对VGGT内部机制的深入分析,研究人员发现,在模型的特定层(特别是最后的几层),其内部的注意力(attention)和特征表示(feature representations)会自然而然地表现出对离群视图的抑制行为。也就是说,模型在处理过程中,会默默地"重视"那些几何一致的视图,同时"忽略"那些不一致的干扰项。
上图显示了层级分析的结果。研究人员衡量了VGGT所有层中干净视图和分散视图在注意力及特征相似性方面的差距。结果表明,这种分离随着深度的增加而增大,并在最后一层达到峰值,这表明模型具有涌现的噪声抑制能力。
上图是特征/注意力可视化。我们看到,VGGT最后一层的跨视图注意力图和中间特征相似性图,对于混合了干净和分散图像的集合,都能清晰地抑制分散视图(红色框标记),揭示了模型涌现的视图选择性。
基于这一发现,作者提出了一种简单、免训练(training-free)的视图过滤机制------RobustVGGT。它不需要对VGGT模型进行任何架构修改或重新训练。具体来说,RobustVGGT利用两种内部表示来衡量视图之间的相关性:
- 注意力分数(Attention score): 通过计算查询图像(query image)与上下文图像(context image)之间在模型最终注意力层上的平均注意力权重来判断。
- 特征相似度分数(Feature similarity score) : 通过计算最终层输出的中间密集特征图之间的余弦相似度(cosine similarity)来衡量。
其中,。
上图展示了RobustVGGT的框架概览。它通过两种探针(跨视图注意力和中间密集特征的余弦相似度)从VGGT的内部表示中计算每视图的相关性。然后,使用一个单一的全局阈值来过滤分散图像,并将过滤后的图像集重新送入VGGT进行重建,整个过程无需重新训练或修改架构。
当这些分数低于一个预设的单一全局阈值时,对应的视图就会被认为是离群点并被剔除。过滤后的图像集再重新送回VGGT进行三维重建,从而得到更干净、更稳定的结果。论文提出了两个变体:RobustVGGT- (基于注意力分数)和RobustVGGT-(基于特征相似度分数)。
实验验证与效果
为了全面验证RobustVGGT的效果,研究人员在多个数据集上进行了广泛的实验,包括:
- Phototourism: 包含互联网收集的、具有复杂外观变化和瞬态物体的图像。
- On-the-Go: 随意拍摄的室内/室外序列,包含运动模糊、遮挡和不均匀的视角覆盖。
- RobustNeRF: 专门用于测试离群剔除能力的、带有干扰图像的增强场景。
- ETH3D: 高质量的多视图基准,用于评估几何精度。
实验结果令人印象深刻:
- 姿态估计与深度估计显著提升 : 在相机姿态估计(Camera Pose Estimation)和多视图深度估计(Multi-view Depth Estimation)这两个核心任务上,RobustVGGT在不同噪声水平下都显著优于原始VGGT和各种预过滤基线。 例如,在Phototourism数据集上,RobustVGGT-的平均ATE(Absolute Trajectory Error)从VGGT的0.3504降低到0.2650 ,RPE也从0.5172降低到0.3953 。在ETH3D数据集上,RobustVGGT-的平均AbsRel从0.0419降低到0.0301 ,从0.9730提升到0.9829。
上表显示了不同噪声水平下的相机姿态估计结果。
上表是多视图深度估计结果。
- 对噪声的鲁棒性: 随着噪声视图比例的增加,原始VGGT的性能会明显下降,而RobustVGGT则能保持稳定的高性能。
上图展示了相机ATE(绝对轨迹误差)与噪声水平的关系。没有明确视图过滤的VGGT模型,其性能会随着噪声视图数量的增加而下降。而我们的方法能够实现鲁棒的三维重建。
- 高质量的点云重建: 从可视化结果来看,原始VGGT在存在干扰视图时会产生严重退化的点云,而RobustVGGT则能生成更清晰、更可靠的三维结构。
上图对比了VGGT和RobustVGGT-生成的点图。
上图展示了VGGT和RobustVGGT在互联网图像上生成的点图,可以看到RobustVGGT的优越性。
上图展示了相机轨迹预测的定性结果。
上图是多视图深度估计的定性结果。
写在最后
这篇论文告诉我们,像VGGT这样的前向3D重建模型,并非对噪声束手无策,其内部机制在无形中就已经具备了识别并抑制离群视图的能力。通过简单地利用这些"涌现式"的内部信号,我们就能在不增加训练成本、不修改模型架构的前提下,显著提升模型在复杂野外场景下的三维重建鲁棒性和实用性。
"它本来就很强",VGGT自己就知道谁是噪声!
...