【世界模型】video2world:从不一致视角重建世界


标题:World Reconstruction From Inconsistent Views
来源:德国慕尼黑工业大学
链接:https://lukashoel.github.io/video_to_world

文章目录

  • 摘要
  • 一、场景初始化
    • [1. 利用视频扩散模型(VDMs)生成视频](#1. 利用视频扩散模型(VDMs)生成视频)
    • [2. 利用几何基础模型(GFM)获取几何信息](#2. 利用几何基础模型(GFM)获取几何信息)
    • [3. 点云重投影(Unprojection)](#3. 点云重投影(Unprojection))
    • [4. 关键步骤:过滤方案(Filtering Scheme)](#4. 关键步骤:过滤方案(Filtering Scheme))
  • 二、几何配准
  • [三、非刚性高斯泼溅优化(Non-rigid Gaussian Splatting Optimization)](#三、非刚性高斯泼溅优化(Non-rigid Gaussian Splatting Optimization))
    • [1. 逆向变形优化 (Backward Deformation Optimization)](#1. 逆向变形优化 (Backward Deformation Optimization))
    • [2. 3D 场景整合 (3D Scene Consolidation)](#2. 3D 场景整合 (3D Scene Consolidation))
    • [3. 非刚性感知渲染 (Non-rigid Aware Rendering)](#3. 非刚性感知渲染 (Non-rigid Aware Rendering))
  • 实验

摘要

视频扩散模型能够生成高质量且多样化的三维场景,但单帧图像在输出序列中常缺乏三维一致性,这给三维场景重建带来挑战。

本文通过将视频帧非刚性对齐至全局一致坐标系,有效解决这些不一致性问题 ,从而生成清晰精细的点云重建结果。首先,几何基础模型将每帧图像提升为像素级三维点云,但由于初始一致性缺失,该点云中存在未对齐的表面。随后,我们采用定制化非刚性迭代帧到模型ICP算法实现全帧初始对齐,再通过全局优化进一步提升点云锐度。最终,我们将该点云作为三维重建的初始数据,并创新性地提出逆形变渲染损失函数,成功从不一致视角构建出高质量且可探索的三维环境。

实验表明,本方法生成的三维场景质量显著优于基线模型,实现了视频模型向三维一致性世界生成器的高效转化。

一、场景初始化

1. 利用视频扩散模型(VDMs)生成视频

接受文本、初始帧或特定的摄像机轨迹(旋转 R \mathbf{R} R、平移 t \mathbf{t} t、内参 K \mathbf{K} K)控制,使用 VDM 生成描述静态场景的多视角图像序列 V = { I i } i = 0 N \mathbf{V} = \{\mathbf{I}i\}{i=0}^N V={Ii}i=0N。 生成的帧之间仍存在"生成漂移(Generative Drift)",导致 3D 几何不一致,直接重建会出现重影或扭曲

2. 利用几何基础模型(GFM)获取几何信息

使用预训练模型(DepthAnything-3)处理生成视频,输出 每一帧的逐像素深度图 d \mathbf{d} d、置信度图 c \mathbf{c} c 以及相机参数 ( R , t , K ) (\mathbf{R}, \mathbf{t}, \mathbf{K}) (R,t,K):

3. 点云重投影(Unprojection)

利用相机内参逆矩阵 K − 1 \mathbf{K}^{-1} K−1,将 2D 像素坐标 ( u , v ) (u, v) (u,v) 结合深度 d d d 转换回 3D 空间中的点(像素点 -> 相机坐标系 p i c a m \mathbf{p}_i^{cam} picam--> 全局世界坐标系 P ˉ \bar{\mathcal{P}} Pˉ),获得带颜色的未对齐的(Misaligned)初始点云:

4. 关键步骤:过滤方案(Filtering Scheme)

为了确保初始化的点云足够可靠,作者设计了一个基于**体素(Voxel)**的过滤机制:

  • 分配体素 : 将每个 3D 点 p k \mathbf{p}_k pk 分配到对应的体素 v k \mathbf{v}_k vk 中。
  • 置信度阈值 ( τ l o c \tau_{loc} τloc): 计算每个体素内所有点的平均置信度,过滤掉低置信度的噪声点。
  • 占用阈值 ( τ c n t \tau_{cnt} τcnt): 统计每个体素内的点数,过滤掉点数过少的稀疏区域(可能是不一致的幻觉产生的)。

最终点云 P \mathcal{P} P: 仅保留同时满足"高置信度 "且"在多个视角中被观测到"的点。

二、几何配准

1.第一阶段:非刚性迭代帧到模型 ICP

核心目标:将每一帧的点云 P [ k ] \mathcal{P}[k] P[k] 迭代地对齐到当前的累积模型 P [ j ] \mathcal{P}[j] P[j] 中 。

  1. 形变模型

使用基于 Hashgrid 的多层感知机(MLP)作为变形神经场,预测3D点 p \mathbf{p} p 的一个 6 维的指数坐标 ξ \xi ξ(twist),它代表了 se ( 3 ) \text{se}(3) se(3) 空间中的一个变换。 p ′ = R p p cam + t p , P ˉ [ k ] = { R k p ′ + t k ∣ p ∈ P [ k ] } (3) \mathbf{p}' = \mathbf{R}_p \mathbf{p}^{\text{cam}} + \mathbf{t}_p, \quad \bar{\mathcal{P}}[k] = \{ \mathbf{R}_k \mathbf{p}' + \mathbf{t}_k | \mathbf{p} \in \mathcal{P}[k] \} \tag{3} p′=Rppcam+tp,Pˉ[k]={Rkp′+tk∣p∈P[k]}(3)解析:公式描述了如何将相机坐标系下的点通过神经场预测的局部旋转 R p \mathbf{R}_p Rp 和平移 t p \mathbf{t}_p tp 进行非刚性变换,然后再应用全局相机位姿 ( R k , t k ) (\mathbf{R}_k, \mathbf{t}_k) (Rk,tk) 将其转换到统一的世界坐标系(或参考帧坐标系)。

  1. 点到平面距离损失

L data = 1 ∑ p ∈ P [ k ] w ( p ) ∑ p ∈ P [ k ] w ( p ) ( ( p ′ − q nn ( j ) ) ⋅ n nn ( j ) ) 2 (4) \mathcal{L}{\text{data}} = \frac{1}{\sum{\mathbf{p} \in \mathcal{P}[k]} w(\mathbf{p})} \sum_{\mathbf{p} \in \mathcal{P}[k]} w(\mathbf{p}) ((\mathbf{p}' - \mathbf{q}{\text{nn}(j)}) \cdot \mathbf{n}{\text{nn}(j)})^2 \tag{4} Ldata=∑p∈P[k]w(p)1p∈P[k]∑w(p)((p′−qnn(j))⋅nnn(j))2(4)
解析:测量变换后的点 p ′ \mathbf{p}' p′ 与其在模型中的最近邻点 q \mathbf{q} q 之间的距离,并投影到 q \mathbf{q} q 的法向量 n \mathbf{n} n 上。这比单纯的点到点距离更鲁棒。

w ( p ) = { 1 , if ∥ p ′ − q nn ( j ) ∥ 2 < d max 2 0 , otherwise (5) w(\mathbf{p}) = \begin{cases} 1, & \text{if } \|\mathbf{p}' - \mathbf{q}{\text{nn}(j)}\|^2 < d{\text{max}}^2 \\ 0, & \text{otherwise} \end{cases} \tag{5} w(p)={1,0,if ∥p′−qnn(j)∥2<dmax2otherwise(5)
解析:这是一个权重因子(mask),如果点对之间的距离超过阈值 d max d_{\text{max}} dmax,则视其为离群点(Outlier),权重设为 0,不参与计算。

  1. 稀疏对应损失

利用深度学习匹配器(如 RoMa)获取图像间的 2D 匹配对,以辅助对齐: L corr = ∑ i w i ∥ P j [ s i ] − P k [ t i ] ∥ 2 ∑ i w i (6) \mathcal{L}_{\text{corr}} = \frac{\sum_i w_i \|\mathcal{P}_j[\mathbf{s}_i] - \mathcal{P}_k[\mathbf{t}_i]\|^2}{\sum_i w_i} \tag{6} Lcorr=∑iwi∑iwi∥Pj[si]−Pk[ti]∥2(6)
解析:s i \mathbf{s}_i si 和 t i \mathbf{t}_i ti 分别是源图像和目标图像中的像素坐标,公式计算对应 3D 点之间的欧几里得距离。这有助于解决重叠较小时的对齐问题。

  1. 正则化项:总变分损失

为了保证形变的平滑性(类似于 As-Rigid-As-Possible 约束): L tv = 1 ∣ P [ k ] ∣ ∑ p ∈ P [ k ] ∥ F θ k ( p ) − F θ k ( p ± s vox ) ∥ 2 (7) \mathcal{L}{\text{tv}} = \frac{1}{|\mathcal{P}[k]|} \sum{\mathbf{p} \in \mathcal{P}[k]} \|\mathcal{F}{\theta_k}(\mathbf{p}) - \mathcal{F}{\theta_k}(\mathbf{p} \pm s_{\text{vox}})\|^2 \tag{7} Ltv=∣P[k]∣1p∈P[k]∑∥Fθk(p)−Fθk(p±svox)∥2(7)

解析: F θ k \mathcal{F}{\theta_k} Fθk 是预测变换的 MLP。**该公式惩罚相邻点(距离为 s vox s{\text{vox}} svox)之间变换预测的差异,确保局部的形变场是连续且平滑的**。

2.第二阶段:全局非刚性优化

第一阶段完成后,由于是序贯对齐,可能会产生漂移(Drift)导致表面变厚。因此需要对所有相机的位姿和变形网络 进行联合优化

  1. 全局能量函数

E ( { R i , t i , θ i } i = 1 N ) = L data global + λ color L color global + λ anchor L anchor (8) E(\{\mathbf{R}i, \mathbf{t}i, \theta_i\}{i=1}^N) = \mathcal{L}{\text{data}}^{\text{global}} + \lambda_{\text{color}} \mathcal{L}{\text{color}}^{\text{global}} + \lambda{\text{anchor}} \mathcal{L}_{\text{anchor}} \tag{8} E({Ri,ti,θi}i=1N)=Ldataglobal+λcolorLcolorglobal+λanchorLanchor(8)

  1. 锚点正则化

为了防止优化过程中出现退化解(即模型乱掉),约束更新后的参数不要偏离第一阶段的结果太远: L anchor = 1 N ∑ i = 1 N [ 1 M ∑ k = 1 M ∥ F θ i ( a k , i ) − ξ k , i ( 0 ) ∥ 2 + ∥ ξ g , i − ξ g , i ( 0 ) ∥ 2 ] (9) \mathcal{L}{\text{anchor}} = \frac{1}{N} \sum{i=1}^N \left[ \frac{1}{M} \sum_{k=1}^M \|\mathcal{F}{\theta_i}(\mathbf{a}{k,i}) - \xi_{k,i}^{(0)}\|^2 + \|\xi_{g,i} - \xi_{g,i}^{(0)}\|^2 \right] \tag{9} Lanchor=N1i=1∑N[M1k=1∑M∥Fθi(ak,i)−ξk,i(0)∥2+∥ξg,i−ξg,i(0)∥2](9)
解析: N N N 为帧数, M M M 为每帧下采样的样本点数。第一项:约束每个点的局部形变 F \mathcal{F} F 接近第一阶段结束时的值 ξ ( 0 ) \xi^{(0)} ξ(0)。第二项:约束相机的位姿参数 ξ g \xi_g ξg 接近第一阶段得到的初始位姿 ξ g ( 0 ) \xi_g^{(0)} ξg(0)。

三、非刚性高斯泼溅优化(Non-rigid Gaussian Splatting Optimization)

在完成之前的几何对齐后,虽然得到了对齐的点云 P [ 0 ] \mathcal{P}[0] P[0],但由于输入图像集 { I i } \{\mathbf{I}_i\} {Ii} 之间存在不一致性(生成漂移),直接渲染效果很差。本节的核心目标是构建一个统一的"标准空间(Canonical State)"重建,并通过非刚性形变场来解释各帧之间的一致性

1. 逆向变形优化 (Backward Deformation Optimization)

为了将标准空间(Canonical space)中的3DGS映射到每一帧的观测空间,需要求解逆向变形。

  • 模型构建 :使用一个基于 Hashgrid 的 MLP F θ inv − 1 \mathcal{F}{\theta{\text{inv}}}^{-1} Fθinv−1 来学习逆向变形场。输入标准空间中的点 p ∈ P [ 0 ] \mathbf{p} \in \mathcal{P}[0] p∈P[0] 和视图嵌入(view embedding),输出 6 维指数坐标 ξ inv \xi^{\text{inv}} ξinv。
  • 坐标变换: p inv ′ = R i T ( p ( 0 ) − t i ) , p ^ cam = R inv p inv ′ + t inv (10) \mathbf{p}'{\text{inv}} = \mathbf{R}i^T(\mathbf{p}^{(0)} - \mathbf{t}i), \quad \hat{\mathbf{p}}^{\text{cam}} = \mathbf{R}{\text{inv}}\mathbf{p}'{\text{inv}} + \mathbf{t}{\text{inv}} \tag{10} pinv′=RiT(p(0)−ti),p^cam=Rinvpinv′+tinv(10)该公式描述了如何将标准空间点 p ( 0 ) \mathbf{p}^{(0)} p(0) 通过相机位姿的逆变换和学习到的局部逆向变形 ( R inv , t inv ) (\mathbf{R}{\text{inv}}, \mathbf{t}{\text{inv}}) (Rinv,tinv),转换回原始的相机观测空间坐标 p ^ cam \hat{\mathbf{p}}^{\text{cam}} p^cam。
  • 优化目标 : L inverse = 1 M ∑ i = 1 M ∥ p ^ i cam − p i cam ∥ 2 , E ( θ inv ) = L inverse + λ tv L tv (11) \mathcal{L}{\text{inverse}} = \frac{1}{M} \sum{i=1}^{M} \|\hat{\mathbf{p}}i^{\text{cam}} - \mathbf{p}i^{\text{cam}}\|^2, \quad E(\theta{\text{inv}}) = \mathcal{L}{\text{inverse}} + \lambda_{\text{tv}} \mathcal{L}_{\text{tv}} \tag{11} Linverse=M1i=1∑M∥p^icam−picam∥2,E(θinv)=Linverse+λtvLtv(11)通过监督学习,使逆变换后的点云尽力还原到原始的观测位置,并辅以全变分(TV)正则化项以保证形变场的平滑。

2. 3D 场景整合 (3D Scene Consolidation)

利用学到的逆向变形场,将点云转化为高斯表示(2DGS)。

  • 初始化 :将对齐的点云 P [ 0 ] \mathcal{P}[0] P[0] 作为 2D 高斯圆盘的中心位置,利用估计的法线确定其朝向。
  • 属性设置
    • Scale:取每个点到其 k = 10 k=10 k=10 个最近邻点的平均欧式距离。
    • Opacity:统一初始化为 0.1。
    • Color:将点云颜色转换为 0 阶球面谐波系数(SH coefficients)。

3. 非刚性感知渲染 (Non-rigid Aware Rendering)

由于输入图像存在几何不一致,直接从固定相机渲染会撤销之前的几何对齐成果。因此,作者提出了一种 "非刚性感知"的渲染目标:

  • 渲染逻辑在渲染每一帧之前,利用公式 (10) 先将标准空间中的高斯分布进行非刚性变形,使其回到具有不一致性的帧空间中,然后再进行光栅化渲染
  • 渲染损失 : L rend = 1 N ∑ i = 0 N ( λ 1 ∥ I ^ i − I i ∥ 1 + λ 2 LPIPS ( I ^ i , I i ) ) (12) \mathcal{L}{\text{rend}} = \frac{1}{N} \sum{i=0}^{N} (\lambda_1 \|\hat{\mathbf{I}}_i - \mathbf{I}_i\|^1 + \lambda_2 \text{LPIPS}(\hat{\mathbf{I}}_i, \mathbf{I}_i)) \tag{12} Lrend=N1i=0∑N(λ1∥I^i−Ii∥1+λ2LPIPS(I^i,Ii))(12)结合了 L 1 L_1 L1 损失和感知损失(LPIPS),强制标准空间的3DGS在经过形变后能够解释不一致的图像观测。
  • 总目标函数 (还引入了 2DGS 的深度Depth和法线Normal正则项): E ( G , { R i , t i } i = 0 N ) = L rend + λ d L d + λ n L n (13) E(\mathcal{G}, \{\mathbf{R}i, \mathbf{t}i\}{i=0}^N) = \mathcal{L}{\text{rend}} + \lambda_d \mathcal{L}_d + \lambda_n \mathcal{L}_n \tag{13} E(G,{Ri,ti}i=0N)=Lrend+λdLd+λnLn(13)

优势 :通过非刚性形变场"吸收"了生成图像中的几何漂移,使得3DGS可以在一个干净、对齐的标准空间中优化 ,从而获得更尖锐、更详细的外观。

细节优化 :收敛速度快(几千次迭代即可)。采用两阶段训练:第二阶段专门优化高阶球面谐波系数以处理高光(Specular)场景。在特定阶段会冻结相机位姿和高斯位置,以防止模型陷入将"生成漂移(Generative Drift)"错误解释为"视点依赖效果(View-dependent effects)"的退化解。

实验

1.实验细节

超参数配置:粗到精的ICP优化采用 s v o x = [ 4 c m , 2 c m ] s_{vox}=[4cm,2cm] svox=[4cm,2cm]和 d m a x = [ 5 c m , 3 c m ] d_{max}=[5cm,3cm] dmax=[5cm,3cm]参数,分别进行50次和150次迭代,学习率为 1 e − 3 1e−3 1e−3, λ c o l o r = 0.05 , λ c o r r = 1.0 , λ t v = 10.0 λ_{color}=0.05,λ_{corr}=1.0,λ_{tv}=10.0 λcolor=0.05,λcorr=1.0,λtv=10.0. 设置为1e−3。我们将百分位数阈值设为 θ l o c = 15.0 , θ c n t = 50.0 , θ d = θ g = 75.0 θ_{loc}=15.0,θ_{cnt}=50.0,θ_d=θ_g=75.0 θloc=15.0,θcnt=50.0,θd=θg=75.0 ,异常值剔除的最大标准差设为 σ d = 2.5 , σ c = 1.5 σ_d=2.5,σ_c=1.5 σd=2.5,σc=1.5. 。对于 L c o r r L_{corr} Lcorr算法,我们最多检测20组图像对中的5,000个对应关系。全局优化阶段再进行100次迭代, λ a n c h o r = 50.0 λ_{anchor} =50.0 λanchor=50.0。在单个A6000 GPU上处理N=50张图像时,两个阶段平均耗时25分钟/20GB内存。根据2DGS[24]的配置方案,我们将P[0]子样本量缩减至约150万GS基元,采用5,000次迭代进行三维场景优化,耗时10分钟/8GB内存且不进行密度增强处理。可选地对SH进行额外10,000次迭代优化。

2.单目视频3D重建

与近期基于多款先进视频扩散模型生成帧的三维重建方法进行对比。具体而言, 利用Wan-2.2,从文本生成包含多种室内外场景及摄像机运动的单视频序列 ,并通过ViewCrafter[88]、Gen3C[56]、Seva[91]和Voyager[26]实现摄像机控制 。此外,我们还采用了近期自回归世界生成器Genie3 [5]和HY-WorldPlay

我们基于从这些视频中采样的50张图像,采用多种基线方法重建三维场景。首先,使用随机初始化的3DGS- MCMC [34]和DA3[42]中的可优化相机参数。其次,将DA3[42]的点位作为3DGS[33]的初始化参数,并通过深度损失函数[90]对DA3深度图进行位置正则化处理。我们将此方法称为"DA3"[42]。在优化3DGS前,采用 VGGT -X[43]方法(该方法通过束调整技术实现刚性对应点对齐),当使用DA3[42]替代 VGGT [43]预测时,我们将此方法称为" VGGT -X†"。

图3和图4重建结果 :video2world在三维一致性空间中生成的纹理更加锐利细腻,视觉保真度与输入视频帧相当。相比之下,基线方法未能校正生成帧中固有的生成漂移现象,这会导致输入姿态下的渲染效果出现模糊现象(例如图3顶部的砖块纹理)。这种问题在新视角下尤为明显:不一致的图像观测会导致三维场景中出现漂浮伪影,限制了从任意位置进行探索的能力。我们的方法采用非刚性感知方式优化场景,显著提升了视角稳定性------即在保持视频帧高视觉保真度的同时,能够从新颖视角探索三维世界。该方法有效将任何视频扩散模型转化为三维世界生成器,实现了持久性、高质量且实时的渲染效果。

表1的计算一致性与保真度指标:基于既定的世界评分基准[16],并针对每种重建方法的所有虚拟现实设备(VDM)进行平均计算。本方法获得最高的一致性评分,这凸显了其从不一致视角重建三维场景的能力。渲染质量在基准方法中表现最优,与输入视频质量相当(CLIP- IQA +:47.39,CLIP美学:39.04)。

图5对比了 所有适用基准方法所使用的三维点云初始化数据。与DA3[42]的预测结果相比,我们的方法显著提升了单个表面的对齐精度(例如在花园场景中实现了多窗口与幻灯片的统一)。 VGGT -X[43]由于未建模非刚性形变,其生成的点云密度较低且对齐精度较差。

#pic_center =40%x80%

d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ
ϕ \phi ϕ ∏ \prod ∏ a b c \sqrt{abc} abc ∑ a b c \sum{abc} ∑abc

/ $$ E \mathcal{E} E

相关推荐
冬夜戏雪2 小时前
agent工程3 固定模板填充智能体
人工智能
梦星辰.2 小时前
大语言模型训练中的显存占用与优化方法简述
人工智能·深度学习·语言模型
deephub2 小时前
信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析
人工智能·深度学习·大语言模型·agent
前端小张同学2 小时前
有了AI大家的日常是轻松了还是更焦虑了呢?
人工智能·程序员·ai编程
快手技术2 小时前
KAT-Coder-Pro V2:玩转龙虾,吃透美学
人工智能
新缸中之脑3 小时前
AI工程师成长路线图 (2026)
人工智能
商业数据派3 小时前
快手估值重构的“隐藏彩蛋”
大数据·人工智能·重构
新缸中之脑3 小时前
你的智能体技术栈中缺失的层
大数据·人工智能·数据挖掘
呆呆敲代码的小Y3 小时前
UnityMCP+Claude+VSCode,构建最强AI游戏开发环境
人工智能·vscode·游戏·unity·游戏引擎·u3d·mcp