51c视觉~3D~合集9

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14345147

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#RobustVGGT

RobustVGGT来了!不惧噪声,显著提升3D重建鲁棒性

研究背景与挑战

在复杂的现实世界中,从海量图像中重建三维场景一直是个挑战,特别是当这些图像质量参差不齐,混杂着无关的"噪声"视图时。今天我们要聊的这篇论文------Emergent Outlier View Rejection in Visual Geometry Grounded Transformers,就为这个问题提供了一个优雅而高效的解决方案。它揭示了现有模型中一个惊人的"天赋",让我们无需额外训练,就能大幅提升三维重建的鲁棒性。

我们知道,从多张照片重建三维物体或场景(Multi-view 3D reconstruction),是计算机视觉领域一个非常核心的问题。从自动驾驶到增强现实(AR/VR),都离不开它。传统的SfM(Structure-from-Motion)管线,比如大名鼎鼎的COLMAP,在处理那些"脏乱差"的野外图像集时,表现得相当老练。它们有一套成熟的"排雷"机制:几何验证、RANSAC算法剔除离群点等等,能有效过滤掉那些不一致的视图。

然而,近年来兴起的前向3D重建模型,比如VGGT(Visual Geometry Grounded Transformer),虽然在速度和性能上取得了显著进步,却普遍缺少这种显式的离群视图剔除机制。这就导致了一个问题:当输入图像中混入了无关的背景、模糊的照片或完全不搭边的"捣乱分子"时(就像我们从网上随手一搜图片,总会遇到不相关的结果一样),这些模型就容易"翻车",重建出的三维结构会变得很糟糕,出现很多噪声和伪影。

如上图所示,当输入图像集中包含分散图像时,如果不进行过滤,VGGT管线会产生噪声几何和最终重建中的可见伪影(a)。

一些人可能会想到,是不是可以用预测的每像素置信度图来过滤掉不可靠的深度点呢?可惜,论文指出,这些置信度是"事后诸葛亮",只作用于点级别,并不能从根本上过滤掉整个离群视图。结果就是,模型依然会尝试重建所有图像,导致错误的视图扭曲了姿态估计,破坏了恢复的三维几何结构。

上图展示了VGGT重建的结果。尽管VGGT预测了每像素置信度图来降低不可靠深度的权重,但这种信号只在点级别上起作用,并不能过滤视图。因此,分散图像仍然会被重建,导致虚假内容破坏恢复的几何形状。

核心发现与方法:VGGT的"涌现式"智慧

这篇论文最引人入胜的地方在于,它发现了一个惊人的"涌现式"属性:VGGT模型,即便在没有任何显式离群剔除机制或噪声感知训练的情况下,竟然能够内在地区分出那些"捣乱"的离群图像!

通过对VGGT内部机制的深入分析,研究人员发现,在模型的特定层(特别是最后的几层),其内部的注意力(attention)和特征表示(feature representations)会自然而然地表现出对离群视图的抑制行为。也就是说,模型在处理过程中,会默默地"重视"那些几何一致的视图,同时"忽略"那些不一致的干扰项。

上图显示了层级分析的结果。研究人员衡量了VGGT所有层中干净视图和分散视图在注意力及特征相似性方面的差距。结果表明,这种分离随着深度的增加而增大,并在最后一层达到峰值,这表明模型具有涌现的噪声抑制能力。

上图是特征/注意力可视化。我们看到,VGGT最后一层的跨视图注意力图和中间特征相似性图,对于混合了干净和分散图像的集合,都能清晰地抑制分散视图(红色框标记),揭示了模型涌现的视图选择性。

基于这一发现,作者提出了一种简单、免训练(training-free)的视图过滤机制------RobustVGGT。它不需要对VGGT模型进行任何架构修改或重新训练。具体来说,RobustVGGT利用两种内部表示来衡量视图之间的相关性:

  • 注意力分数(Attention score): 通过计算查询图像(query image)与上下文图像(context image)之间在模型最终注意力层上的平均注意力权重来判断。
  • 特征相似度分数(Feature similarity score) : 通过计算最终层输出的中间密集特征图之间的余弦相似度(cosine similarity)来衡量。
    其中,。

上图展示了RobustVGGT的框架概览。它通过两种探针(跨视图注意力和中间密集特征的余弦相似度)从VGGT的内部表示中计算每视图的相关性。然后,使用一个单一的全局阈值来过滤分散图像,并将过滤后的图像集重新送入VGGT进行重建,整个过程无需重新训练或修改架构。

当这些分数低于一个预设的单一全局阈值时,对应的视图就会被认为是离群点并被剔除。过滤后的图像集再重新送回VGGT进行三维重建,从而得到更干净、更稳定的结果。论文提出了两个变体:RobustVGGT- (基于注意力分数)和RobustVGGT-(基于特征相似度分数)。

实验验证与效果

为了全面验证RobustVGGT的效果,研究人员在多个数据集上进行了广泛的实验,包括:

  • Phototourism: 包含互联网收集的、具有复杂外观变化和瞬态物体的图像。
  • On-the-Go: 随意拍摄的室内/室外序列,包含运动模糊、遮挡和不均匀的视角覆盖。
  • RobustNeRF: 专门用于测试离群剔除能力的、带有干扰图像的增强场景。
  • ETH3D: 高质量的多视图基准,用于评估几何精度。

实验结果令人印象深刻:

  • 姿态估计与深度估计显著提升 : 在相机姿态估计(Camera Pose Estimation)和多视图深度估计(Multi-view Depth Estimation)这两个核心任务上,RobustVGGT在不同噪声水平下都显著优于原始VGGT和各种预过滤基线。 例如,在Phototourism数据集上,RobustVGGT-的平均ATE(Absolute Trajectory Error)从VGGT的0.3504降低到0.2650 ,RPE也从0.5172降低到0.3953 。在ETH3D数据集上,RobustVGGT-的平均AbsRel从0.0419降低到0.0301 ,从0.9730提升到0.9829

上表显示了不同噪声水平下的相机姿态估计结果。

上表是多视图深度估计结果。

  • 对噪声的鲁棒性: 随着噪声视图比例的增加,原始VGGT的性能会明显下降,而RobustVGGT则能保持稳定的高性能。

上图展示了相机ATE(绝对轨迹误差)与噪声水平的关系。没有明确视图过滤的VGGT模型,其性能会随着噪声视图数量的增加而下降。而我们的方法能够实现鲁棒的三维重建。

  • 高质量的点云重建: 从可视化结果来看,原始VGGT在存在干扰视图时会产生严重退化的点云,而RobustVGGT则能生成更清晰、更可靠的三维结构。

上图对比了VGGT和RobustVGGT-生成的点图。

上图展示了VGGT和RobustVGGT在互联网图像上生成的点图,可以看到RobustVGGT的优越性。

上图展示了相机轨迹预测的定性结果。

上图是多视图深度估计的定性结果。

写在最后

这篇论文告诉我们,像VGGT这样的前向3D重建模型,并非对噪声束手无策,其内部机制在无形中就已经具备了识别并抑制离群视图的能力。通过简单地利用这些"涌现式"的内部信号,我们就能在不增加训练成本、不修改模型架构的前提下,显著提升模型在复杂野外场景下的三维重建鲁棒性和实用性。

"它本来就很强",VGGT自己就知道谁是噪声!

...

相关推荐
啊吧怪不啊吧1 小时前
从数据到智能体大模型——cozeAI大模型开发(第一篇)
人工智能·ai·语言模型·ai编程
勿在浮沙筑高台2 小时前
生产制造型供应链的采购业务流程总结:
人工智能·制造
新知图书9 小时前
FastGPT简介
人工智能·ai agent·智能体·大模型应用开发·大模型应用
Dev7z9 小时前
基于Matlab卷积神经网络的交通警察手势识别方法研究与实现
人工智能·神经网络·cnn
元拓数智9 小时前
IntaLink:破解数仓建设痛点,重塑高效建设新范式
大数据·数据仓库·人工智能·数据关系·intalink
区块链小八歌10 小时前
从电商收入到链上资产:Liquid Royalty在 Berachain 重塑 RWA 想象力
大数据·人工智能·区块链
沃达德软件10 小时前
大数据反诈平台功能解析
大数据·人工智能
OAoffice10 小时前
智能学习培训考试平台如何驱动未来组织:重塑人才发展格局
人工智能·学习·企业智能学习考试平台·学练考一体化平台