Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读

目录

一、概述

二、相关工作

1、单场景3DGS

2、跨场景生成3DGS

3、几何方法解决3D任务

三、eFreeSplat

1、预训练跨视角模块

2、无外极线跨视角交互感知模块

3、迭代跨视角高斯对齐

4、高斯参数预测


一、概述

该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同,eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。

(1)不依赖于极线约束实现可推广的新视角合成,而通过自监督的ViT和跨视角注意力。

(2)提出了一种迭代跨视角高斯对齐(ICGA)技术,确保不同视角之间的深度尺度一致,解决了渲染过程中出现的伪影和像素位移问题。

(3)eFreeSplat在几何重建和新视角合成质量方面均优于依赖于极线约束的方法。

二、相关工作

1、单场景3DGS

单场景3D高斯散射(3DGS)方法标志着3D场景表示的一个重要转变。它使用数百万个可学习的3D高斯分布来显式地将空间坐标映射到像素值,通过光栅化的散射方法提高了渲染效率和质量,并增强了各种下游任务。与早期的3D神经表示方法[]相比,3DGS可以实现实时渲染和可编辑性,同时计算需求大大降低。现有的单场景3DGS相关方法需要通过昂贵的逐场景梯度反向传播过程获得每个场景的密集视角。而该论文,我们采用单个前馈网络,仅使用两个图像就可以推断高斯原语的参数。

2、跨场景生成3DGS

跨场景泛化是一种从少量观测合成新场景视图的方法。利用从大规模多视角数据集学习的鲁棒先验,可以直接生成新场景的视图,消除了需要针对每个场景进行重新训练的限制。

pixelSplat和LatentSplat利用外极性Transformer来寻找跨视图对应关系和学习每个像素的深度分布。然而在非重叠和封闭区域会性能下降,导致不准确的几何形状和表面重建。Splatter Image合并了来自单视图回归的高斯参数,但缺乏跨视角信息。GPS-Gaussian和MVSplat通过成本体积和特征匹配来获得更好的几何信息。Triplane-Gaussian通过单视图编码为潜在三维点云和三平面的特征,并通过MLP解码器输出三维高斯参数。然而这侧重于单视图重建,而不能做到跨视图的重建。

3、几何方法解决3D任务

基于重投影特征、成本体积和图像变形等几何先验的方法在3D视觉任务中表现良好,但这些方法依赖于特定任务的设计,在复杂场景如遮挡或视角不重叠时会遇到困难。

为了解决这一问题,一些无几何先验的替代方法被提出,如SRT和GS-LRM。这些方法摒弃了任何显式的几何归纳偏差,但由于缺乏针对性的场景编码,它们要么局限于特定数据集,要么计算效率和碳足迹都不可接受。

一些无需姿态的可泛化的NVS方法,如LEAP和PF-LRM,也是无极线先验的。但由于缺乏已知的相机姿态,它们在执行极线采样时面临挑战,通常需要通过特殊设计的特征表示来降低任务复杂度,但这也会降低模型的泛化能力。

与上述方法不同,该论文的eFreeSplat关注数据驱动的3D先验,不需要任何耗时复杂的结构化特征表示,如体积代价。它利用自监督的跨视角完成预训练来恢复图像中被遮挡的部分,显著增强了下游3D视觉任务的性能。

三、eFreeSplat

eFreeSplat的框架分为预训练跨视角模块,无外极线跨视角交互感知模块,迭代跨视角高斯对齐,高斯参数预测。

1、预训练跨视角模块

利用CroCo v2模型,一个基于自监督跨视角预测被遮挡图像区域的模型,对输入图像其一进行了一定的图像掩码操作,另一个不做影响,也就是上图存在一定掩码的图像,经过ViT+Cross-Attention,通过预测被遮挡的图像区域来学习跨视角的空间关系,实现自监督的跨视角预训练,也为后续的大规模数据集上学习到鲁棒性的几何偏差和后续全局3D表示提供支撑。

2、无外极线跨视角交互感知模块

直接共享上一模块的权重,有效获得跨视角的3D几何先验,并且通过跨视角交互,来输出两张图片的特征

3、迭代跨视角高斯对齐

首先用2D U-Net,预测每个像素点的高斯深度d和特征G。之后计算第一视图的特征在第二视图上的投影特征,并与第一视图的特征进行相似度,计算得到相似度

最后使用更新第一视图的高斯特征和深度,并将更新后的特征和深度再次作为输入,进行下一轮迭代。

4、高斯参数预测

首先基于细化的深度和相机参数预测每个视图的高斯中心

之后对于其他的参数基于额外的U-Net方法预测

最后利用3DGS中的可微渲染来重建模型。

参考项目:eFreeSplat

相关推荐
后端小肥肠3 分钟前
文案号搞钱潜规则:日入四位数的Coze工作流我跑通了
人工智能·coze
LCHub低代码社区5 分钟前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
-曾牛5 分钟前
Spring AI 快速入门:从环境搭建到核心组件集成
java·人工智能·spring·ai·大模型·spring ai·开发环境搭建
阿川20159 分钟前
云智融合普惠大模型AI,政务服务重构数智化路径
人工智能·华为云·政务·deepseek
自由鬼37 分钟前
开源AI开发工具:OpenAI Codex CLI
人工智能·ai·开源·软件构建·开源软件·个人开发
生信碱移44 分钟前
大语言模型时代,单细胞注释也需要集思广益(mLLMCelltype)
人工智能·经验分享·深度学习·语言模型·自然语言处理·数据挖掘·数据可视化
一个数据大开发1 小时前
解读《数据资产质量评估实施规则》:企业数据资产认证落地的关键指南
大数据·数据库·人工智能
云卓SKYDROID1 小时前
无人机环境适应性与稳定性技术要点!
人工智能·无人机·科普·高科技·云卓科技
Mapmost1 小时前
【数据可视化艺术·应用篇】三维管线分析如何重构城市“生命线“管理?
3d·信息可视化·性能优化·demo
硅谷秋水1 小时前
通过模仿学习实现机器人灵巧操作:综述(上)
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人