[VGG团队论文阅读]Free3D: Consistent Novel View Synthesis without 3D Representation

Vedaldi, C. Z. A. (n.d.). Free3D: Consistent Novel View Synthesis without 3D Representation. Chuanxiaz.com. https://chuanxiaz.com/free3d/static/videos/Free3D.pdf

Free3D: 无需3D表示的一致新视角合成

Visual Geometry Group, University of Oxford

摘要

我们介绍了Free3D,这是一种简单的方法,专为从单个图像进行开放式新视角合成(NVS)而设计。与Zero-1-to-3类似,我们从预训练的2D图像生成器开始,以实现泛化,并对其进行微调以适应NVS。与最近和同时进行的工作相比,我们在不依赖显式3D表示(既慢又占用内存)或训练额外的3D网络的情况下获得了显著的改进。我们通过通过新的逐像素射线条件归一化(RCN)层更好地对目标相机姿态进行编码来实现这一点。后者通过告诉每个像素其特定的观察方向,将姿态信息注入底层2D图像生成器。我们还通过轻量级的多视图注意力层和多视图噪声共享改善了多视图一致性。我们在Objaverse数据集上训练Free3D,并展示了在多个新数据集中对各种新类别的出色泛化效果,包括OminiObject3D和GSO。我们希望我们的简单而有效的方法将作为一个坚实的基线,并在更准确的姿态下帮助未来NVS研究。项目页面可在 https://chuanxiaz.com/free3d/ 查看。

图1. Free3D在开放集环境中进行的新视角合成。在给定单个输入视图的情况下,我们的方法能够准确地合成一致的360度视频,而无需显式的3D表示。仅在Objaverse上进行训练,它在新数据集和类别上表现出很好的泛化能力。

图2. 我们的Free3D的整体流程。(a) 给定单个源输入图像,提出的架构联合预测多个目标视图,而不是独立处理它们。为了实现一致的新视角合成而无需3D表示,(b) 我们首先提出了一种新颖的射线条件归一化(RCN)层,它使用每个像素的定向相机射线来调节潜在特征,从而使模型能够捕捉更精确的视点。© 引入了一个内存友好的伪3D交叉注意力模块,以有效地在多个生成的视图之间传递信息。请注意,这里相似度分数仅在时间上而非空间上计算,从而带来最小的计算和内存成本。

图3. 感知路径长度一致性(PPLC)。为了部分补偿视角变化,第二张图在比较之前相对于第一张进行了校正。为了说明使用校正的重要性,图中显示了一个大的方位角 φ: 57.6◦ 下的两个物体。顶行左侧显示了一个理想渲染的图像对,然而由于视角变化而导致了较大的LPIPS损失。右侧通过校正减小了这个分数。底行显示了相反的情况,其中一对不正确渲染的视图通过校正使其LPIPS损失增加。

图4. Objaverse上的定性比较。给定目标姿势,与现有的最先进方法相比,我们的Free3D显著提高了生成的姿势的准确性。请注意,Zero123-XL [17]是在规模更大的Objaverse-XL数据集[17]上训练的,该数据集包含1000万个3D对象。在附录图C.1和C.2中提供了更多的比较。

相关推荐
井队Tell5 小时前
打造高清3D虚拟世界|零基础学习Unity HDRP高清渲染管线(第五天)
学习·3d·unity
墨绿色的摆渡人9 小时前
论文笔记(九十六)VGGT: Visual Geometry Grounded Transformer
论文阅读
爱怪笑的小杰杰10 小时前
Cesium中的倒立四棱锥:从几何结构到交互式3D可视化
javascript·3d·arcgis·1024程序员节
芯片SIPI设计10 小时前
面向3D IC AI芯片中UCIe 电源传输与电源完整性的系统分析挑战与解决方案
人工智能·3d
CV实验室11 小时前
TPAMI 2025 | 从分离到融合:新一代3D场景技术实现双重能力提升!
人工智能·计算机视觉·3d
DuHz21 小时前
基于MIMO FMCW雷达的二维角度分析多径抑制技术——论文阅读
论文阅读·物联网·算法·信息与通信·毫米波雷达
CV-杨帆21 小时前
论文阅读:ICML 2025 Adversarial Reasoning at Jailbreaking Time
论文阅读
_AaRong_21 小时前
《Hiding Images in Diffusion Models by Editing Learned Score Functions》 论文阅读
论文阅读·人工智能·计算机视觉
程序猿阿伟1 天前
《3D手游云原生开发:关键难题突破日志》
3d·云原生
Dave.B1 天前
VTK入门:vtkPolyData——3D几何的“乐高积木盒
3d·vtk