Adobe又一力作：无位姿稀疏视图即可重建3D大模型？

前言本文介绍了PF-LRM，该方法使用了三平面体NeRF进行表示，并采用了可扩展单流Transformer模型，在2D和3D的token之间进行信息交换。通过在大规模数据集上训练，PF-LRM在输入稀疏视角情况下也能够稳健地准确的姿态并重建出逼真的3D物体，超越了以往的baseline工作。该模型在不需要添加额外的3D监督的情况下进行训练，并且能够推广到未训练过的数据集、处理2-4个输入的无姿态图像。

本文转载自深蓝

仅用于学术分享，若侵权请联系删除

欢迎关注公众号 CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

**研究人员提出了一种可以处理无姿态图像三维重建大型重建模型方案（PF-LRM），用于在无姿态并且有很少视觉重叠图像的情况下重建3D物体，同时该方法可以在单个A100 GPU上以极短的时间来估计对应的摄像机姿态。**PF-LRM是一种高度可伸缩的方法，它可以利用自注意力模块在3D对象标记和2D图像标记之间交换信息；为每个视图预测一个粗略的点云，且使用可微透视点（PnP）求解器来获得相机姿态。在大约100万个建模物体的大量多视图姿态数据上进行训练时，PF-LRM显示出较强的跨数据集泛化能力。在各种此前未见过的评估数据集上，在姿态预测精度和三维重建质量方面大大优于目前baseline方法。

如下图所示可以很精确地预估图片位姿，并渲染对应的图片：

▲图1｜gt位姿与模型估计位姿对比

本研究的大体思路是：给定没有位姿的稀疏输入图像，使用一个大参数的transformer来重建一个三平面NeRF，同时估计输入视图相对于参考视图的相对摄像机位姿。在训练过程中，使用GT位姿监督新视点的渲染loss。对于相机配准，该工作并不是直接回归预测相机位姿，而是将图像token以点云（右上）的形式映射到一个粗糙的三维几何图形，在那里从每个补丁中心对应的每个补丁标记预测一个三维点，然后使用可微PnP求解器从这些预测的3D-2D对应中获得相机位姿。

▲图2｜PF-LRM的pipeline图

■2.1 transformer网络结构

单流Transformer方法采用预训练的DINO Vision Transformer对输入图像进行标记化处理，并通过单流多模态Transformer对图像和三平面NeRF进行标记化处理。该方法的设计灵感源自于学者们之前与LRM相关的工作及其后续的研究，其采用单流架构，实现了图像token和NeRF token之间的信息交换，以预测一致的NeRF和用于相机估计的每个视图粗略几何，而先前的方法采用编码-解码设计。

■2.2 NeRF表达

通过神经可微分体积渲染监督学习NeRF模型的形状和外观，使用了体积渲染来生成三面体NeRF在新视角下的图像。这一渲染过程由数学公式表达，其中采用L2 loss和VGG-based LPIPS损失函数来监督神经渲染的重建效果，以优化形状与外观的学习过程。

■2.3 监督训练方式

通过可微分PNP求解器进行姿态预测的方法。该方法利用NeRF token上下文化的每个视图图像块标记来估计相机的相对姿态，通过MLP预测了每个图像块标记对应的3D点位置和置信度。通过实施一系列损失函数，特别是可微分PNP损失，从而稳定并提高了姿态预测的准确性。最终的训练目标是由多个损失项组合而成，其中包括渲染损失以及各个与粗略几何预测、不透明度预测和可微分PNP损失相关的损失项。

■3.1 数据集

PL-LRM模型只需要多视图带有位姿图像来进行训练。为了构建一个大规模的多视图姿态数据集，研究人员使用了Objaverse 和MVImgNet的数据。为了评估模型的跨数据集泛化能力，研究人员使用一些数据集，包括OmniObject3D ， Google Scanned Objects（GSO）， Amazon Berkeley Objects（ABO）， Common Objects 3D （CO3D），和DTU。

■3.2 baseline对比

研究人员在姿态估计和三维重建两个任务上根据基线评估其性能。对于姿态估计任务，将PF-LRM与FORGE、RelPose++和基于sfm的方法HLoc。研究人员还在重建质量方面与FORGE进行了比较。（一些方法由于缺少可用的开源代码，以及在研究范围内的有着明显区别，没有进行比较）

▲表1｜各个数据集实验

■3.3 结果

本模型在OmniObjects3D、ABO、GSO、CO3D和DTU等未知数据集上取得了出色的成果。相比基线方法（FORGE、HLoc、RelPose++），本文的模型在各项度量指标下都取得了显著的优势。作者特别关注了不同方法在跨数据集泛化能力方面的表现，这反映了它们在实际应用中的性能。对于OmniObjects3D、GSO和ABO数据集，作者相对FORGE获得了平均14.6倍的旋转误差减少率，相对HLoc和RelPose++分别为15.3倍和14.7倍。

本模型在处理非信息性白色背景输入图像时表现出色，相比较其他方法能够取得更准确的姿态估计结果。在CO3D和DTU数据集上，本模型也展现出了比RelPose++和FORGE更好的泛化能力。在重建质量方面，本文的模型在OmniObjects3D、GSO和ABO数据集上表现出色，平均PSNR为24.8，远远超过基线方法FORGE的13.4。

本模型能够产生高质量的重建，并且在渲染NeRF时可以与实际输入图像相匹配。相比之下，基线方法FORGE在这一目标上表现不佳，显示出PSNR较低的趋势。

▲图3｜各数据集生成实验

除此之外，通过对可变数量的输入视图进行测试，作者的模型展现了一定程度的鲁棒性，在减少视图数量的情况下性能有所下降，但降低的幅度是可以接受的。然而，当输入的分割掩模非常嘈杂时，模型性能明显下降，这与CO3D数据集提供的不准确掩模可能对模型性能造成负面影响一致。

▲表2｜少视图输出实验

在这项工作中，研究人员提出了一个基于tansformer的三维重建大模型来估计摄像机参数，并以三平面NeRF来重建三维物体。该模型采用自注意力机制，以三平面token和图像patch token相互交流关键信息，从而提高最终NeRF重建质量，并使用可微PnP求解器进行鲁棒的每个patch表面点预测。目前该模型在姿态预测精度和重建质量方面大大优于基线方法，也可以在下游应用程序中使用，比如文本/图像到3D生成。

尽管该模型的重建和姿态预测性能十分强大，但在未来的工作中仍存在一些局限性：

1）首先，在预测相机姿态时，忽略了可能包含丰富线索的背景信息，如消失点、投射阴影等。如果将工作扩展到处理空间扭曲的背景将会很有趣。

PF-LRM预测的三平面NeRF的分辨率也可以通过探索粗到细建模或其他高容量紧凑表示等技术，如多分辨率体素网格以实现更详细的几何和纹理重建。

3）该模型目前假设已知参数是来自相机传感器元数据，未来的工作也可以探索预测相机扫描的技术。

虽然该模型在测试期间是无姿势的，但它仍然需要GT真实位姿监督来训练；一个有趣的方向是在训练过程中提高摄像机位姿的要求，以使用大量的户外直接拍摄的视频训练数据。

欢迎关注公众号 CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库，上千篇文章、专栏，CV所有资料都在这了

明年毕业，还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力，性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM：微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器！目标检测蒸馏学习新方法，浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习

听我说，Transformer它就是个支持向量机