ECCV24高分论文:MVSplat稀疏视图下的高效的前馈三维重建模型

目录

一、概述

二、相关工作

1、稀疏视角场景重建

2、前馈NeRF

3、前馈3DGS

4、多视角立体视觉

三、MVSplat

1、多视角Transformer


一、概述

本文提出了一个MVSplat高效的前馈三维重建模型,可以从稀疏的多视图图像中预测3D高斯分布,并且相较于pixelSplat预测多个高斯模型,MVSplat只预测一个高斯模型,且不需要去预测深度图,相比于pixelSplat,MVSplat使用的参数减少十倍,推理速度提高了2倍,也提高了更好的外观和几何质量的渲染能力以及跨数据集的泛化能力。

对于pixelSplat中利用epipolar Transformer感知特征,但仅通过预测可靠的概率深度分布仍然有挑战性,且几何重建质量较低,容易造成伪影,所以在pixelSplat中需要缓慢地深度微调以及引入额外的深度正则化。

二、相关工作

1、稀疏视角场景重建

近期工作中主要使用3DGS和NeRF方法进行稀疏视角下的场景重建,主要的问题在于对于每个场景进行优化需要单独建立有效的正则化项,然而每个场景的反向传播消耗较大,所以推理时需要的时间较长,大多数方法都优先从图片中获取先验,比如pixelSplat优先获取深度图作为先验。

2、前馈NeRF

pixelNeRF开创了从图像预测像素对齐特征的方法。

MuRF基于3D CNN的辐射场重建以及目标视角底部体积,渲染效果最好,但渲染成本巨大。

3、前馈3DGS

3DGS使用了快速光栅化splat来降低渲染的计算量,另外近期的MVSGaussian等也做了从稀疏视角到3D重建的任务。

相比于以往的论文,该论文考虑使用U-Net从单个视图中对像素对齐进行回归。

另外,对于pixelSplat由于优先预测深度图,在从像素到深度进行重建,因为深度图的不可靠性,导致了重建效果存在残影。

在GPS-Gaussian中提到渲染人体模型,但要求真实的深度图作为监督,而我们的模型仅使用RGB图像。

4、多视角立体视觉

多视角立体视觉方法,就是将2D升维到3D结构,相比于一般的多视角立体视觉MVS网络,该论文的MVSplat是完全可微的,不需要使用地面真实几何来进行训练,这可以更可扩展,也更适合开放场景。

三、MVSplat

MVSplat框架由多视角Transformer、成本体积建设,成本体积精炼,深度估计与精炼,3D高斯参数预测五个部分。

参考论文:https://arxiv.org/abs/2403.14627

参考代码:GitHub - donydchen/mvsplat: 🌊 [ECCV'24 Oral] MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

相关推荐
tt555555555555几秒前
《神经网络与深度学习》学习笔记一
深度学习·神经网络·学习
诸葛务农6 分钟前
光刻胶分类与特性——g/i线光刻胶及东京应化TP-3000系列胶典型配方(上)
人工智能·材料工程
mm-q29152227297 分钟前
YOLOv5(PyTorch)目标检测实战:TensorRT加速部署!训练自己的数据集(Ubuntu)——(人工智能、深度学习、机器学习、神经网络)
人工智能·深度学习·机器学习
搞科研的小刘选手16 分钟前
【多所高校合作】第四届图像处理、计算机视觉与机器学习国际学术会议(ICICML 2025)
图像处理·人工智能·机器学习·计算机视觉·数据挖掘·人脸识别·人机交互
FreeCode22 分钟前
LangChain1.0智能体开发:消息组件(Messages)
人工智能·langchain·agent
视觉AI23 分钟前
为什么 transformers 要 import TensorFlow
人工智能·tensorflow·neo4j
Coovally AI模型快速验证26 分钟前
未来已来:从 CVPR & ICCV 观察 2025→2026 年计算机视觉的七大走向
人工智能·深度学习·目标检测·计算机视觉·stable diffusion
ZEGO即构开发者27 分钟前
【ZEGO即构开发者日报】Soul AI Lab开源播客语音合成模型;腾讯混元推出国内首个交互式AI播客;ChatGPT Go向用户免费开放一年......
人工智能·aigc·语音识别·实时音视频
沫儿笙32 分钟前
ABB焊接机器人节气装置
人工智能·机器人
Geo_V37 分钟前
提示词工程
人工智能·python·算法·ai