目录
一、概述
该论文提出大视角合成模型LVSM,基于Transformer方法,用于场景中或对象级层次从稀疏视角(或单视角)作为输入,进行可扩展和泛化的新视角合成。
提出了两种新颖的LVSM架构:encoder-decoder LVSM,decoder-only LVSM。
encoder-decoder LVSM:将输入图像编码到固定长度的潜在表示,并从中解码新视角图像。
decoder-only LVSM:直接将输入图像映射到新视角输出,完全消除了中间场景表示,减少了3D归纳偏差,decoder-only的方法也实现了更高的质量、可扩展性和零样本泛化能力,在PSNR指标上优于之前的SOTA(GS-LRM)1.5到3.5dB PSNR。
我觉得LVSM的最大特点在于,依赖Transformer架构完全数据驱动的方法实现高质量新视角合成,不需要再考虑几何,纹理等问题,这也需要进一步的思考。
二、相关工作
1、新视角合成
基于图像的渲染(IBR)早期一般使用基于图像的渲染使用代理几何,并通过输入参考图像进行加权混合的方式(Modeling and rendering architecture from photographs)。光场方法从密集视图输入中建立4D多视函数切片(Light field rendering)。
上面两个方法属于20年前老祖级别,近期随着卷积神经网络的发展,将逐渐转变为基于学习的IBR方法来预测深度图或者渲染权重(比如NeRF参数)。另外由于要做更大的场景渲染,所以考虑多视角立体重建。
而该论文做的事基于大场景,真实数据的可泛化的先验来实现新视角合成。
2、优化3D表示
NeRF提出可微分的神经辐射场3D表示,通过最小化渲染损失来重建场景。后续工作逐渐在渲染质量、优化速度、放宽输入条件等多方式,来提升NeRF的性能。
DVGO通过将NeRF于体素信息相结合,Point-NeRF提出基于点的NeRF表示,Gaussian Splatting将3D点引入3DGS来提升渲染速度。
另外也有一些论文考虑使用稀疏体素,体积分解,哈希技术来降低空间复杂度。
我们的论文提出不需要3D先验和任何单一场景的优化过程的归纳偏差,来实现LRM的新视角生成。
3、可泛化的前馈方法
3D归纳偏差(3D Inductive Bias),指在设计前馈网络时,引入一些预定义的3D结构或渲染方程,从而限制了模型的灵活性和泛化能力,无法很好地适应更加复杂多样的场景。3D归纳偏差包括极线约束、平面扫描体积等3D特定先验,尽管这些方法会在某些特定场景取得了一些进展,但是限制了模型的潜在泛化能力和可扩展性。
可泛化的方法考虑通过NVS推理,并使用神经网络训练场景,来生成3D表示和新视角图像。
PixelNeRF、MVSNeRF、IBRNet网络考虑使用3D先验来实现可微分的3D渲染。另外,考虑直接学习渲染函数的方法但被证实是不可扩展的且缺乏模型容量,无法捕捉高频细节。SRT方法移除手工设计的3D表示,而学习潜在表示,但他采用的是一个不可扩展的模型+Cross Att.而我们的模型使用完全基于Transformer的模型,有效的学习新视角合成和最小化归纳偏差,不需要学习潜在表示。
对于以往的方法通过引入3D归纳偏差,而该论文的LVSM考虑完全消除3D归纳偏差,直接从数据中学习渲染函数,提高了模型的可扩展性和渲染质量。
三、LVSM
LVSM分为两个部分:encoder-decoder部分和decoder-only部分。
1、总体结构
首先对于输入图像使用Plucker射线对于每一个像素进行嵌入,最后在分解为不重叠的patch中,p个patch。之后将这组输入引入线性层得到输入token。
对于目标视图的Plucker光线,通过相机内参和外参计算而来,并且通过一个线性层得到目标视图的每一个patch的Plucker射线嵌入。
经过一个full-transformer来计算LVSM的输出。
之后通过线性层加unpatchify来恢复输出空间结构的新视角生成。
2、encoder-decoder
特殊字母含义:
x:输入图像token序列
x':编码器处理后的输入token序列
y:最终合成目标视图
z:编码器处理后的中间潜在表示
z':解码器更新后的潜在表示
e:用于聚合输入token信息的可学习的潜在token,是人为给定的
q:目标视图中的plucker射线嵌入
对于encoder-decoder模型是需要潜在表示存在的,而decoder-only不再需要潜在token序列。
3、decoder-only
4、Loss
损失函数由两部分组成:MSE和权重的光感损失
参考项目:LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias