ECCV24高分论文：MVSplat稀疏视图下的高效的前馈三维重建模型

一、概述

二、相关工作

1、稀疏视角场景重建

2、前馈NeRF

一、概述

本文提出了一个MVSplat高效的前馈三维重建模型，可以从稀疏的多视图图像中预测3D高斯分布，并且相较于pixelSplat预测多个高斯模型，MVSplat只预测一个高斯模型，且不需要去预测深度图，相比于pixelSplat，MVSplat使用的参数减少十倍，推理速度提高了2倍，也提高了更好的外观和几何质量的渲染能力以及跨数据集的泛化能力。

对于pixelSplat中利用epipolar Transformer感知特征，但仅通过预测可靠的概率深度分布仍然有挑战性，且几何重建质量较低，容易造成伪影，所以在pixelSplat中需要缓慢地深度微调以及引入额外的深度正则化。

二、相关工作

1、稀疏视角场景重建

近期工作中主要使用3DGS和NeRF方法进行稀疏视角下的场景重建，主要的问题在于对于每个场景进行优化需要单独建立有效的正则化项，然而每个场景的反向传播消耗较大，所以推理时需要的时间较长，大多数方法都优先从图片中获取先验，比如pixelSplat优先获取深度图作为先验。

2、前馈NeRF

pixelNeRF开创了从图像预测像素对齐特征的方法。

MuRF基于3D CNN的辐射场重建以及目标视角底部体积，渲染效果最好，但渲染成本巨大。

3、前馈3DGS

3DGS使用了快速光栅化splat来降低渲染的计算量，另外近期的MVSGaussian等也做了从稀疏视角到3D重建的任务。

相比于以往的论文，该论文考虑使用U-Net从单个视图中对像素对齐进行回归。

另外，对于pixelSplat由于优先预测深度图，在从像素到深度进行重建，因为深度图的不可靠性，导致了重建效果存在残影。

在GPS-Gaussian中提到渲染人体模型，但要求真实的深度图作为监督，而我们的模型仅使用RGB图像。

4、多视角立体视觉

多视角立体视觉方法，就是将2D升维到3D结构，相比于一般的多视角立体视觉MVS网络，该论文的MVSplat是完全可微的，不需要使用地面真实几何来进行训练，这可以更可扩展，也更适合开放场景。

三、MVSplat

MVSplat框架由多视角Transformer、成本体积建设，成本体积精炼，深度估计与精炼，3D高斯参数预测五个部分。

参考论文：https://arxiv.org/abs/2403.14627

参考代码：GitHub - donydchen/mvsplat: 🌊 $ECCV'24 Oral$ MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images