ECCV24高分论文:MVSplat稀疏视图下的高效的前馈三维重建模型

目录

一、概述

二、相关工作

1、稀疏视角场景重建

2、前馈NeRF

3、前馈3DGS

4、多视角立体视觉

三、MVSplat

1、多视角Transformer


一、概述

本文提出了一个MVSplat高效的前馈三维重建模型,可以从稀疏的多视图图像中预测3D高斯分布,并且相较于pixelSplat预测多个高斯模型,MVSplat只预测一个高斯模型,且不需要去预测深度图,相比于pixelSplat,MVSplat使用的参数减少十倍,推理速度提高了2倍,也提高了更好的外观和几何质量的渲染能力以及跨数据集的泛化能力。

对于pixelSplat中利用epipolar Transformer感知特征,但仅通过预测可靠的概率深度分布仍然有挑战性,且几何重建质量较低,容易造成伪影,所以在pixelSplat中需要缓慢地深度微调以及引入额外的深度正则化。

二、相关工作

1、稀疏视角场景重建

近期工作中主要使用3DGS和NeRF方法进行稀疏视角下的场景重建,主要的问题在于对于每个场景进行优化需要单独建立有效的正则化项,然而每个场景的反向传播消耗较大,所以推理时需要的时间较长,大多数方法都优先从图片中获取先验,比如pixelSplat优先获取深度图作为先验。

2、前馈NeRF

pixelNeRF开创了从图像预测像素对齐特征的方法。

MuRF基于3D CNN的辐射场重建以及目标视角底部体积,渲染效果最好,但渲染成本巨大。

3、前馈3DGS

3DGS使用了快速光栅化splat来降低渲染的计算量,另外近期的MVSGaussian等也做了从稀疏视角到3D重建的任务。

相比于以往的论文,该论文考虑使用U-Net从单个视图中对像素对齐进行回归。

另外,对于pixelSplat由于优先预测深度图,在从像素到深度进行重建,因为深度图的不可靠性,导致了重建效果存在残影。

在GPS-Gaussian中提到渲染人体模型,但要求真实的深度图作为监督,而我们的模型仅使用RGB图像。

4、多视角立体视觉

多视角立体视觉方法,就是将2D升维到3D结构,相比于一般的多视角立体视觉MVS网络,该论文的MVSplat是完全可微的,不需要使用地面真实几何来进行训练,这可以更可扩展,也更适合开放场景。

三、MVSplat

MVSplat框架由多视角Transformer、成本体积建设,成本体积精炼,深度估计与精炼,3D高斯参数预测五个部分。

参考论文:https://arxiv.org/abs/2403.14627

参考代码:GitHub - donydchen/mvsplat: 🌊 [ECCV'24 Oral] MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

相关推荐
golang学习记15 小时前
阿里又出手了,发布全新终端CLI工具,还支持VSCode
人工智能
机器之心15 小时前
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
人工智能·openai
lanyancloud_JX16 小时前
公路工程项目管理软件选型指南
人工智能
柠檬味拥抱16 小时前
基于Rokid CXR-M和CXR-S SDK构建简易翻译助手
人工智能
用户51914958484516 小时前
在VS Code IDE中通过LocalStack集成加速无服务器测试
人工智能·aigc
FreeCode16 小时前
智能体化系统(Agentic System)开发面临的挑战及应对
人工智能·agent
leafff12316 小时前
Stable Diffusion在进行AI 创作时对算力的要求
人工智能·stable diffusion
Juchecar16 小时前
AI大模型商业模式分析
人工智能
leafff12316 小时前
Stable Diffusion进行AIGC创作时的算力优化方案
人工智能·stable diffusion·aigc
FIN666816 小时前
昂瑞微:以射频“芯”火 点亮科技强国之路
前端·人工智能·科技·前端框架·智能