LVSM: A LARGE VIEW SYNTHESIS MODEL WITH MINIMAL 3D INDUCTIVE BIAS 论文解读

基于图像的渲染（IBR）早期一般使用基于图像的渲染使用代理几何，并通过输入参考图像进行加权混合的方式（Modeling and rendering architecture from photographs）。光场方法从密集视图输入中建立4D多视函数切片（Light field rendering）。

上面两个方法属于20年前老祖级别，近期随着卷积神经网络的发展，将逐渐转变为基于学习的IBR方法来预测深度图或者渲染权重（比如NeRF参数）。另外由于要做更大的场景渲染，所以考虑多视角立体重建。

而该论文做的事基于大场景，真实数据的可泛化的先验来实现新视角合成。

2、优化3D表示

NeRF提出可微分的神经辐射场3D表示，通过最小化渲染损失来重建场景。后续工作逐渐在渲染质量、优化速度、放宽输入条件等多方式，来提升NeRF的性能。

DVGO通过将NeRF于体素信息相结合，Point-NeRF提出基于点的NeRF表示，Gaussian Splatting将3D点引入3DGS来提升渲染速度。

另外也有一些论文考虑使用稀疏体素，体积分解，哈希技术来降低空间复杂度。

我们的论文提出不需要3D先验和任何单一场景的优化过程的归纳偏差，来实现LRM的新视角生成。

3、可泛化的前馈方法

3D归纳偏差（3D Inductive Bias），指在设计前馈网络时，引入一些预定义的3D结构或渲染方程，从而限制了模型的灵活性和泛化能力，无法很好地适应更加复杂多样的场景。3D归纳偏差包括极线约束、平面扫描体积等3D特定先验，尽管这些方法会在某些特定场景取得了一些进展，但是限制了模型的潜在泛化能力和可扩展性。

可泛化的方法考虑通过NVS推理，并使用神经网络训练场景，来生成3D表示和新视角图像。

PixelNeRF、MVSNeRF、IBRNet网络考虑使用3D先验来实现可微分的3D渲染。另外，考虑直接学习渲染函数的方法但被证实是不可扩展的且缺乏模型容量，无法捕捉高频细节。SRT方法移除手工设计的3D表示，而学习潜在表示，但他采用的是一个不可扩展的模型+Cross Att.而我们的模型使用完全基于Transformer的模型，有效的学习新视角合成和最小化归纳偏差，不需要学习潜在表示。

对于以往的方法通过引入3D归纳偏差，而该论文的LVSM考虑完全消除3D归纳偏差，直接从数据中学习渲染函数，提高了模型的可扩展性和渲染质量。