3D 生成重建030-SV3D合成环绕视频以生成3D

3D 生成重建030-SV3D合成环绕视频以生成3D


文章目录

    • [0 论文工作](#0 论文工作)
    • [1 论文方法](#1 论文方法)
    • [2 实验结果](#2 实验结果)

0 论文工作

论文提出了Stable Video 3D (SV3D)------一个用于生成围绕三维物体的高分辨率图像到多视角视频的潜在视频扩散模型。最近关于三维生成的文献提出了将二维生成模型应用于新视图合成 (NVS) 和三维优化的技术。然而,这些方法由于视角有限或 NVS 不一致而存在一些缺点,从而影响了三维物体的生成性能。在这项工作中,作者提出了SV3D,它采用图像到视频的扩散模型进行新视图合成和三维生成,从而利用视频模型的泛化能力和多视角一致性,并为 NVS 添加显式相机控制。作者还提出了改进的三维优化技术,利用 SV3D 及其 NVS 输出进行图像到三维生成。在包含二维和三维指标的多个数据集上的大量实验结果以及用户研究表明,与之前的工作相比,SV3D 在 NVS 和三维重建方面具有最先进的性能。

就目前看到的一些工作来说,在测试中,一半以上的情况视频扩散模型在3D数据上的微调效果没有明显超过直接生成多视图。
paper
github

相关论文
video LDM

1 论文方法

SV3D 旨在解决现有图像到三维重建方法中新视角合成(NVS)不一致和三维优化效率低下的问题。它主要包含两个阶段:
新视角合成 (NVS): 首先,利用一个预训练的、图像到视频的潜在视频扩散模型 (SVD),从单张输入图像生成围绕目标物体的多视角一致的视频帧。该模型具有良好的泛化能力和多视角一致性,并通过显式控制相机参数来实现可控的新视角生成。
三维模型优化: 然后,利用改进的三维优化技术,结合生成的视频帧,优化三维模型(例如NeRF或DMTet网格)。该优化过程使用了改进的遮挡感知分数蒸馏采样(SDS)损失函数,以提高不可见区域的三维重建质量。

利用潜在视频扩散模型进行新视角合成: 这是SV3D最主要的创新点。它不同于以往使用图像扩散模型生成新视角的方法,而是巧妙地利用了潜在视频扩散模型(SVD)的优势。视频模型天生具有时间一致性和泛化能力强的特点,这使得SV3D生成的新视角在一致性和质量上都优于现有方法,并且对不同类型的输入图像具有更好的鲁棒性。

显式相机参数控制: SV3D在生成新视角时,可以显式控制相机参数(例如,方位角和仰角),从而实现对生成视角的精确控制,这在以往的图像到三维重建方法中并不常见,极大提升了可控性。

改进的三维优化技术和遮挡感知SDS损失: SV3D采用改进的三维优化技术,并结合遮挡感知SDS损失函数,能够更有效地利用多视角信息进行三维重建,特别是对于在输入图像中不可见的部分,提高了重建的精度和完整性。

2 实验结果

感觉生成结果在很多种类上不是很好。应该说不如理想那么好,首先视频扩散模型在3d数据上微调的时候,可能造成计算量大很多倍,微调后后3D感知还是不够。

相关推荐
Thanks_ks8 分钟前
深入探索现代 IT 技术:从云计算到人工智能的全面解析
大数据·人工智能·物联网·云计算·区块链·数字化转型·it 技术
东方佑1 小时前
给图像去除水印攻
人工智能·python
知来者逆1 小时前
Layer-Condensed KV——利用跨层注意(CLA)减少 KV 缓存中的内存保持 Transformer 1B 和 3B 参数模型的准确性
人工智能·深度学习·机器学习·transformer
tangjunjun-owen1 小时前
异常安全重启运行机制:健壮的Ai模型训练自动化
人工智能·python·安全·异常重运行或重启
爱研究的小牛1 小时前
Rerender A Video 技术浅析(二):视频增强
人工智能·深度学习·aigc
Bdawn2 小时前
【通义实验室】开源【文本生成图片】大模型
人工智能·python·llm
黑马王子132 小时前
谷歌史上最强大模型-Gemini2.0震撼发布!以后世界都属于智能体?
人工智能·google
电报号dapp1192 小时前
当前热门 DApp 模式解析:六大方向的趋势与创新
人工智能·去中心化·区块链·智能合约
宸码2 小时前
【机器学习】手写数字识别的最优解:CNN+Softmax、Sigmoid与SVM的对比实战
人工智能·python·神经网络·算法·机器学习·支持向量机·cnn
睡觉狂魔er2 小时前
自动驾驶控制与规划——Project 1: 车辆纵向控制
人工智能·机器学习·自动驾驶