【VGGT-X】：尝试将VGGT用到3DGS重建中去

VGGT将三维重建任务变成了大模型推理任务，这个意义在于，它在试图代替三维重建中无论是点云系列重建还是目前的3DGS重建中的SfM流程，众所周知，SfM在大量图片处理过程中非常耗时。如果将这个过程使用数据驱动的方法来快速推理得到，那么将大幅加强三维重建任务的效率。自打VGGT方法出来以后，很多人开始考虑建立VGGT+3DGS的pipeline，但是，目前VGGT的pose估计以及点云质量并没有达到可以替代SfM的地步，本篇VGGT---X是对此的又一尝试，采取的措施包括VGGT的效率化、pose+gs的联合优化。

abstract

我们研究了将三维基础模型（3D Foundation Models，简称 3DFMs）应用于高密度新视图合成（Dense Novel View Synthesis, NVS）的问题。

尽管基于 NeRF 和 3DGS 的新视图合成技术已经取得了显著进展，但当前的方法仍然依赖于SfM获得的精确三维属性 （例如相机位姿和点云）。然而，SfM 通常速度缓慢，并且在低纹理或视角重叠度低的场景中极易失效。

最近的 3D 基础模型（3DFMs） 展示出了相较于传统流程数量级级别的加速 ，并在在线新视图合成 任务中展现出巨大潜力。然而，现有的验证和结论大多局限于稀疏视角（sparse-view）设置。

我们的研究表明，直接将 3DFMs 扩展到高密度视角（dense views） 会遭遇两个根本性障碍：

显存占用急剧上升（dramatically increasing VRAM burden）；
输出结果不完美 ，从而损害依赖初始化质量的三维训练过程（initialization-sensitive 3D training）。

为了解决这些问题，我们提出了 VGGT-X，其特点包括：

一种高效内存的 VGGT 实现 ，可扩展至 1000 张以上图像；
一个用于增强 VGGT 输出的**自适应全局对齐（adaptive global alignment）**机制；
以及鲁棒的 3DGS 训练策略。

大量实验证明，这些改进措施能够显著缩小与基于 COLMAP 初始化流程之间的保真度差距 ，并在高密度、无 COLMAP 的新视图合成和位姿估计 任务中取得最新的最先进性能（state-of-the-art）。

此外，我们还对与 COLMAP 初始化渲染之间剩余性能差距的原因 进行了分析，为未来3D 基础模型与高密度新视图合成的发展提供了有价值的洞见。

1 INTRODUCTION

本文探讨了将 3DFMs 应用于高密度 NVS 时面临的关键挑战。首先，3DFM 的计算与显存开销会随着视角数量急剧增加，例如 VGGT 的显存需求从 20 张输入的 5.6 GB 上升至 200 张输入的 40.6 GB（Wang 等，2025a），使得在商用 GPU 上直接进行高密度推理几乎不可行。其次，即便将 3DFM 作为 COLMAP 等传统重建流程的替代，其输出通常仍存在更高的噪声水平，导致初始化敏感的三维基元学习受损，从而引发渲染质量下降。

为了解决这些问题，我们以 VGGT 为代表，对 3DFM 及 3DGS 训练流程分别进行了优化与改进。在 3DFM 端，我们通过移除冗余特征缓存、降低数值精度以及采用批处理式逐帧操作，使 VGGT 能够在无损精度的情况下扩展至 1000 张以上图像的推理规模 。在 3DGS 端，我们系统分析了直接使用 VGGT 输出进行初始化所导致的性能退化，并提出基于极线约束（epipolar constraints）的自适应全局对齐方法以精炼预测结果。同时，我们结合 MCMC-3DGS（Kheradmand 等，2024）与联合位姿优化（joint pose optimization），增强对噪声初始化的鲁棒性，并通过点云初始化策略进一步稳定训练过程。

通过这些改进，我们显著缩小了与 COLMAP 初始化管线在渲染保真度上的差距，在无 COLMAP 的条件下实现了新视图合成与位姿估计的最新最优性能（state of the art）。此外，我们还分析了与 COLMAP 初始化训练之间剩余性能差距的原因，包括过拟合和泛化能力不足等问题，并提出了未来构建更强大 3DFMs 与更鲁棒 NVS 训练的方向。

2.2 3D FOUNDATION MODELS

三维基础模型（3D Foundation Models, 3DFMs）旨在直接从图像集合推断基本的三维属性 ，例如相机参数、点云、深度图、点轨迹，甚至神经辐射场（Neural Radiance Fields）。现有方法主要通过两类架构实现：基于扩散（diffusion-based）模型 （Ho 等，2020）和基于前馈视觉Transformer（ViT）模型（Dosovitskiy 等，2021）。

根据输入类型，3DFMs 可分为四类（Cong 等，2025）：

未校准的图像对（uncalibrated image pairs）： 模型如 DUSt3R（Wang 等，2024b）及其后续工作。通过额外的对应匹配与重投影损失优化，这些局部几何结构可对齐到全局一致的坐标系（Duisterhof 等，2025）。
无序多视角图像集合（unordered multi-view image collections） ：模型如 Fast3r 等通过视角间与视角内的交叉注意力 直接生成全局一致的相机位姿和几何结构。
图像流（image streams） ：模型如 Spann3R（Wang & Agapito，2025）和 CUT3R（Wang 等，2025b）利用当前特征和时间记忆预测下一帧几何结构；而基于扩散的模型（Team 等，2025；Jiang 等，2025b；Xu 等，2025）将几何估计视作条件生成过程。
未校准稀疏视角（uncalibrated sparse views）：FLARE（Zhang 等，2025b）采用级联前馈管线，先回归相机位姿，再以此为条件预测全局几何与外观。

尽管该领域发展迅速，但大多数现有模型在处理上百甚至上千张图像时仍存在显著的计算开销 ，且性能明显下降。本文的研究旨在弥补这一空白，为可扩展的三维基础模型的设计与发展提供新见解。

2.3 3D RADIANCE FIELD LEARNING WITH POSE OPTIMIZATION

为了减少对精确相机位姿的依赖，近年来的新视图合成（NVS）方法探索了多种策略。一种被广泛采用的解决方案是将相机参数与神经辐射场（Neural Radiance Field, NeRF）联合优化，通常辅以多视图对应损失（Wang et al., 2021；Jeong et al., 2021）。方法如 NoPe-NeRF（Bian et al., 2023）和 SPARF（Truong et al., 2023）引入了深度监督，而（Bian et al., 2024；Huang et al., 2025b）则使用多层感知机（MLP）回归位姿更新，以增强鲁棒性并利用全局场景上下文。

MCMC-3DGS（Kheradmand et al., 2024）通过重新设计高斯散射的更新机制提升了对初始化的鲁棒性，而（Fu et al., 2024；Chen et al., 2024；Ji & Yao, 2025）则针对未配准图像序列执行增量的局部几何重建和位姿优化。

3 METHOD

3.1 PRELIMINARY

3.1.1 3DGS

3.1.2 3DGS-MCMC

https://arxiv.org/pdf/2404.09591

在渲染精度和对噪声初始化的鲁棒性方面对 3DGS 进行了改进。其核心思想是将 3DGS 的优化重新表述为随机梯度朗之万动力学（Stochastic Gradient Langevin Dynamics, SGLD）更新：

关于3DGS-MCMC的review

🔍 公式直观理解：

3.2 MEMORY-EFFICIENT VGGT IMPLEMENTATION

如图 2 所示，VGGT（Wang et al., 2025a）的网络结构由三个主要部分组成：

逐帧 DINO 特征提取器（per-frame DINO-based patch embedding extractor），用于从每一帧中提取基于 DINO 的图像块嵌入；
堆叠的 Transformer 层，其在全局注意力和逐帧注意力（即 AA 层，Alternating Attention layers）之间交替切换；
解码器（decoder），用于回归相机参数并生成密集预测（dense predictions）。

虽然 VGGT 包含 24 个 AA 层，但仅使用第 4、11、17 和 23 层的输出特征进行密集预测。为了消除冗余，我们舍弃其他层的中间输出，从而降低了显存（VRAM）占用。该修改使得图像吞吐量从 150 张提升至 600 张，我们将此变体称为 VGGT⁻。

另一种冗余来源于数据精度 。虽然模型启用了自动混合精度（Automatic Mixed Precision, AMP），但大多数运算和张量存储仍默认使用 Float32。我们观察到，将除解码头中的 MLP 外的部分切换为 BFloat16 几乎不会带来性能下降。相反，这一调整将峰值 GPU 内存使用量减少了 最高可达 74%，显著提升了推理吞吐率。

此外，由于 DINO 特征提取和逐帧注意力仅涉及帧内计算 ，因此各帧可异步处理 。具体而言，可将 N 张输入图像划分为 ⌈N/S⌉个块（chunks），并按顺序处理。通过选择合适的块大小 S，可以有效控制这些模块的峰值内存占用。为方便描述，我们将该版本命名为 VGGT⁻⁻。

版本	改进点	主要效果
VGGT	原始网络，24 个 AA 层全部使用	标准性能，但显存和吞吐效率较低
VGGT⁻	丢弃中间层特征（仅用 4 层输出）	显存显著降低，吞吐量提升 4×
VGGT⁻⁻	采用 BFloat16 精度 + 异步帧处理	显存节省 74%，推理速度显著提升

3.3 Global Alignment

3.3.1 epipolar distance loss

在 VGGT 前向推理（feedforward inference）之后，我们得到估计的相机参数集合

为了进一步优化这些参数，可利用图像间的对应关系（correspondences），通过最小化极线距离损失（epipolar distance loss）来实现：

权重 wk 的准确估计对于优化过程至关重要。

极几何补充知识

直观理解

想象两台相机在看同一个物体：每个点在第一张图像中的位置 xx，在第二张图像中应该落在极线上。

如果不在极线上，说明相机姿态（R,t）预测不准。极线距离损失就是在"拉"这些点回到它们的极线上，使姿态重新对齐。

因此，在像 VGGT 这种从图像直接估计相机参数的模型 中，

使用极线距离损失能在无显式3D点的情况下进行有效的相机全局对齐（Global Alignment）。

3.3.2 匹配对筛选与特征匹配器

由于并非所有对图像都具有重叠视角，本文遵循 (Jeong et al., 2021) 的做法，仅保留视角差异低于阈值 的候选图像对。

对于这些对，VGGT 的 tracking head 可提供对应点及置信度分数。

然而，如表 3 所示，这些预测在相机优化任务中仍不够可靠。

因此，作者采用了 XFeat (Potje et al., 2024) ------一种以高效著称的神经特征匹配器。

https://arxiv.org/pdf/2404.19174https://arxiv.org/pdf/2404.19174

XFeat 提供了准确的匹配点，但并不输出匹配权重 wk。直接使用 VGGT 的深度置信度作为代理也被证明效果欠佳（见表 3）。

3.3.3 自适应加权策略（Adaptive Weighting）

为解决匹配权重 wk计算问题，作者提出了一个自适应权重策略 。

直观上，当 3D 基础模型与匹配模型均较为可靠时，大多数（极线距离）应集中在 0 附近，此时应赋予这些匹配较高权重 ；而较大的对应点更可能是异常值（outliers），应被降低权重。

图 2 的 "Global Alignment" 面板展示了典型直方图，横轴范围限定在 $0, 20$ 。

可以看到呈现明显的长尾分布，符合上述直觉。

3.3.4 自适应学习率策略（Adaptive Learning Rate）

为了适应不同收敛阶段，作者进一步设计了自适应学习率调度 策略。当 VGGT 的初始位姿较准确时，只需较小学习率即可完成精细对齐；但在困难场景中，过小学习率会导致优化停滞。因此，作者以极线距离的中位数作为优化难度的指标，并据此调整学习率：

总结

模块	作用	数学核心	效果
Epipolar Loss	最小化多视图几何误差		提升相机姿态一致性
Adaptive Weighting	基于误差分布动态分配权重		降低异常匹配影响
Adaptive LR	根据收敛状态动态调整学习率	分段函数 Eq. (4)	稳定并加速收敛

3.4 3DGS Training with Imperfect Poses

前面我们通过极线几何约束显著提升了 VGGT 预测相机参数的精度，但其优化结果 仍与 COLMAP 存在性能差距 。而 原始的 3D Gaussian Splatting (3DGS) 对初始化非常敏感 ------如果相机姿态存在较大误差，模型可能会无法收敛或陷入局部最优。

因此，这一节的核心目标是：

在相机位姿仍存在偏差的情况下，使 3DGS 模型能够稳定训练并逐步修正错误的相机参数。

3.4.1采用 MCMC-3DGS 提升鲁棒性

本文采用了MCMC-3DGS（Kheradmand et al., 2024） 作为基础。

该方法将 3DGS 的参数更新重写为 随机梯度朗之万动力学（SGLD） 形式：

3.4.2联合优化（Joint Optimization）

为了进一步减少由初始位姿误差带来的问题，本文在训练阶段采用了 高斯参数 + 残差相机姿态（Residual Poses）联合优化策略：

加入pose优化的ablation如图4：

小结

模块	输入	输出	功能
VGGT	多帧图像	预测相机参数 {K, R, t}	从图像估计粗略相机姿态
GA (Global Alignment)	{K, R, t} + 图像匹配	优化相机参数，减小极线误差	提升位姿精度
MCMC-3DGS (本节)	改进相机参数 + 图像	训练高斯场并联合优化残差位姿	在噪声姿态下稳定收敛

4 EXPERIMENTS

使用的数据集包括 MipNeRF360 、Tanks and Temple (TnT) 和 CO3Dv2 ，分别含有 9、5、5 个场景，最大图像序列长度分别为 311、1106、202。

姿态估计的准确性采用 AUC@30 指标，该指标结合了相对平移误差（RTE）与相对旋转误差（RRE） ，作者指出其对图像顺序敏感，并进行了轻微修改（详见附录 B）。点云质量通过 Chamfer Distance 、准确率和完整率来衡量。重建质量通过 PSNR、SSIM、LPIPS 评估渲染效果，以及运行时间与显存占用（40G A100 显卡）。

实现细节

帧级操作的分块大小设为 128，全局配准时视角阈值为 30°。学习率分别设为 lr₀=5×10⁻⁴、lr₁=1×10⁻³、lr₂=1×10⁻²，参数 b₁=2.5、b₂=7.5；每对图像最多保留 4096 个对应点，优化迭代 300 次。提取 COLMAP 结果时，仅保留权重大于 0.3 的匹配点。

在 MCMC-3DGS 训练中，每个场景的高斯数量与原始 3DGS 相同以保证公平。姿态嵌入的学习率设为 1×10⁻⁴ 并指数衰减 0.1；其他 3DGS 属性的学习调度遵循前人方法。在渲染质量评估中，冻结训练好的高斯并微调测试视角的姿态嵌入，通过光度损失优化；TnT 数据集迭代 10,000 次，其余数据集迭代 5,000 次。

对比baseline

在 3D关键属性预测 方面，与 MASt3R-SfM、π³、VGGT 等方法比较，其中 MASt3R-SfM 采用检索模式构建场景图以平衡精度与效率。

在 COLMAP-free 的 3DGS 训练 方面，对比了 CF-3DGS、HT-3DGS、3RGS、MCMC-3DGS 等方法。为保证公平性，作者将 3RGS 的初始姿态与点云替换为自身的全局配准结果，以获得更高精度的初始条件。

4.2 COMPARISON

表 1 表明，该方法在图像质量上达到当前最优水平（Fig. 3），能够更有效地消除模糊伪影和浮漂，同时保持精细纹理。需要注意的是，CF-3DGS 在 CO3Dv2 上的表现明显低于其原论文报告，可能源于其代码库中已知的可复现性问题。

在表 2 中，作者进一步比较了姿态估计精度，结果显示其全局配准与联合优化策略在所有数据集上均提升了性能，超越了以往的联合优化方法。在与多视角 3D 基础模型的对比中（Fig. 4），该方法的相机轨迹与真值对齐度更高，在 MipNeRF360 和 TnT 上获得最高精度，在 CO3Dv2 上排名第二。

4.3 discussion

尽管模型在整体上达到最先进水平，但与使用 COLMAP 初始化 的 3DGS 仍存在明显差距（表 1）。表 4 显示，模型在训练集上的渲染质量甚至优于 COLMAP 初始化的 3DGS，但在测试集上表现较差，说明存在过拟合问题 ，也反映了该任务本身的病态特性 。缺乏可靠初始化时，优化过程容易陷入高度非凸损失空间的局部最优。

加入深度监督（表 5）效果提升有限。即便进行了联合优化，姿态精度仍低于 COLMAP。残差可视化（图 5）表明大多数姿态预测接近真值，但对偏差较大的相机位姿校正能力不足。

另一个发现是：尽管 VGGT 在 MipNeRF360 上显著优于 π³，但在 CO3Dv2 上反而落后许多，说明 3D 基础模型的泛化能力仍然是一个尚待解决的问题。