Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读

目录

一、概述

二、相关工作

1、单场景3DGS

2、跨场景生成3DGS

3、几何方法解决3D任务

三、eFreeSplat

1、预训练跨视角模块

2、无外极线跨视角交互感知模块

3、迭代跨视角高斯对齐

4、高斯参数预测


一、概述

该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同,eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。

(1)不依赖于极线约束实现可推广的新视角合成,而通过自监督的ViT和跨视角注意力。

(2)提出了一种迭代跨视角高斯对齐(ICGA)技术,确保不同视角之间的深度尺度一致,解决了渲染过程中出现的伪影和像素位移问题。

(3)eFreeSplat在几何重建和新视角合成质量方面均优于依赖于极线约束的方法。

二、相关工作

1、单场景3DGS

单场景3D高斯散射(3DGS)方法标志着3D场景表示的一个重要转变。它使用数百万个可学习的3D高斯分布来显式地将空间坐标映射到像素值,通过光栅化的散射方法提高了渲染效率和质量,并增强了各种下游任务。与早期的3D神经表示方法[]相比,3DGS可以实现实时渲染和可编辑性,同时计算需求大大降低。现有的单场景3DGS相关方法需要通过昂贵的逐场景梯度反向传播过程获得每个场景的密集视角。而该论文,我们采用单个前馈网络,仅使用两个图像就可以推断高斯原语的参数。

2、跨场景生成3DGS

跨场景泛化是一种从少量观测合成新场景视图的方法。利用从大规模多视角数据集学习的鲁棒先验,可以直接生成新场景的视图,消除了需要针对每个场景进行重新训练的限制。

pixelSplat和LatentSplat利用外极性Transformer来寻找跨视图对应关系和学习每个像素的深度分布。然而在非重叠和封闭区域会性能下降,导致不准确的几何形状和表面重建。Splatter Image合并了来自单视图回归的高斯参数,但缺乏跨视角信息。GPS-Gaussian和MVSplat通过成本体积和特征匹配来获得更好的几何信息。Triplane-Gaussian通过单视图编码为潜在三维点云和三平面的特征,并通过MLP解码器输出三维高斯参数。然而这侧重于单视图重建,而不能做到跨视图的重建。

3、几何方法解决3D任务

基于重投影特征、成本体积和图像变形等几何先验的方法在3D视觉任务中表现良好,但这些方法依赖于特定任务的设计,在复杂场景如遮挡或视角不重叠时会遇到困难。

为了解决这一问题,一些无几何先验的替代方法被提出,如SRT和GS-LRM。这些方法摒弃了任何显式的几何归纳偏差,但由于缺乏针对性的场景编码,它们要么局限于特定数据集,要么计算效率和碳足迹都不可接受。

一些无需姿态的可泛化的NVS方法,如LEAP和PF-LRM,也是无极线先验的。但由于缺乏已知的相机姿态,它们在执行极线采样时面临挑战,通常需要通过特殊设计的特征表示来降低任务复杂度,但这也会降低模型的泛化能力。

与上述方法不同,该论文的eFreeSplat关注数据驱动的3D先验,不需要任何耗时复杂的结构化特征表示,如体积代价。它利用自监督的跨视角完成预训练来恢复图像中被遮挡的部分,显著增强了下游3D视觉任务的性能。

三、eFreeSplat

eFreeSplat的框架分为预训练跨视角模块,无外极线跨视角交互感知模块,迭代跨视角高斯对齐,高斯参数预测。

1、预训练跨视角模块

利用CroCo v2模型,一个基于自监督跨视角预测被遮挡图像区域的模型,对输入图像其一进行了一定的图像掩码操作,另一个不做影响,也就是上图存在一定掩码的图像,经过ViT+Cross-Attention,通过预测被遮挡的图像区域来学习跨视角的空间关系,实现自监督的跨视角预训练,也为后续的大规模数据集上学习到鲁棒性的几何偏差和后续全局3D表示提供支撑。

2、无外极线跨视角交互感知模块

直接共享上一模块的权重,有效获得跨视角的3D几何先验,并且通过跨视角交互,来输出两张图片的特征

3、迭代跨视角高斯对齐

首先用2D U-Net,预测每个像素点的高斯深度d和特征G。之后计算第一视图的特征在第二视图上的投影特征,并与第一视图的特征进行相似度,计算得到相似度

最后使用更新第一视图的高斯特征和深度,并将更新后的特征和深度再次作为输入,进行下一轮迭代。

4、高斯参数预测

首先基于细化的深度和相机参数预测每个视图的高斯中心

之后对于其他的参数基于额外的U-Net方法预测

最后利用3DGS中的可微渲染来重建模型。

参考项目:eFreeSplat

相关推荐
KevinRay_4 分钟前
Python超能力:高级技巧让你的代码飞起来
网络·人工智能·python·lambda表达式·列表推导式·python高级技巧
跃跃欲试-迪之9 分钟前
animatediff 模型网盘分享
人工智能·stable diffusion
Captain823Jack36 分钟前
nlp新词发现——浅析 TF·IDF
人工智能·python·深度学习·神经网络·算法·自然语言处理
被制作时长两年半的个人练习生36 分钟前
【AscendC】ReduceSum中指定workLocal大小时如何计算
人工智能·算子开发·ascendc
Captain823Jack1 小时前
w04_nlp大模型训练·中文分词
人工智能·python·深度学习·神经网络·算法·自然语言处理·中文分词
Black_mario1 小时前
链原生 Web3 AI 网络 Chainbase 推出 AVS 主网, 拓展 EigenLayer AVS 应用场景
网络·人工智能·web3
Aileen_0v02 小时前
【AI驱动的数据结构:包装类的艺术与科学】
linux·数据结构·人工智能·笔记·网络协议·tcp/ip·whisper
数信云 DCloud2 小时前
实力认可 | 通付盾入选《ISC.AI 2024创新能力全景图谱》五项领域
人工智能
itwangyang5202 小时前
AIDD - 从机器学习到深度学习:蛋白质-配体对接评分函数的进展
人工智能·深度学习·机器学习
jerry2011082 小时前
机器学习常用术语
人工智能·机器学习