【物理重建】SPLART:基于3D高斯泼溅的铰链估计与部件级重建


标题:《SPLART: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting》
项目:https://github.com/ripl/splart

文章目录

  • 摘要
  • 一、引言
  • 二、相关工作
    • [2.1 数据驱动的铰链学习](#2.1 数据驱动的铰链学习)
    • [2.2 物体重建的表征方法](#2.2 物体重建的表征方法)
    • [2.3 铰链物体重建](#2.3 铰链物体重建)
  • 三、方法
    • [3.1 总览](#3.1 总览)
    • [3.2 Separate per-state reconstruction](#3.2 Separate per-state reconstruction)
    • [3.3 Cross-static formulation for mobility estimation](#3.3 Cross-static formulation for mobility estimation)
    • [3.3. Cross-mobile formulation for articulation estimation and mobility refinement](#3.3. Cross-mobile formulation for articulation estimation and mobility refinement)
    • [3.5 真实世界应用](#3.5 真实世界应用)
  • 四、实验
    • [4.1 数据集](#4.1 数据集)
    • [4.2 评估指标](#4.2 评估指标)

摘要

重建日常环境中普遍存在的可活动物体,对于增强/虚拟现实和机器人应用至关重要。然而现有方法面临可扩展性局限(需要3D监督或昂贵标注)、鲁棒性问题(易陷入局部最优)以及渲染缺陷(速度不足或缺乏照片级真实感)。我们提出SPLART框架------一种自监督、类别无关的解决方案,通过3D高斯泼溅(3DGS)技术, 利用两组不同活动状态(articulation states)下拍摄的位姿RGB图像,实现可活动物体(articulated objects)的重建与运动学推断,从而支持新视角和新活动状态下的实时照片级渲染 。SPLART为 每个高斯元素引入可微分移动参数,实现了精细化的部件分割采用多阶段优化策略逐步处理重建、部件分割和活动结构估计(articulation estimation ),显著提升了系统的鲁棒性与精确度。 PLART利用几何自监督机制,有效解决了无需3D标注或类别特定先验信息的复杂场景问题 。通过在既有基准和新提出的测试平台上进行评估,并结合手持RGB相机在真实场景中的应用,实验证明了SPLART具备最先进的性能表现与实际应用价值。

一、引言

articulated objects:铰接式物体 (如抽屉、门和剪刀)在日常生活中无处不在,但其动态特性给三维重建带来了重大挑战------这项关键技术对增强/虚拟现实[37,52]、机器人学[1,5,16,24,51,58]和计算机视觉[20,46]等应用领域至关重要。现有铰接物体重建方法存在若干关键局限:往往需要劳动密集型监督(如部件级分割或关节标注)[23,29,41,55,57],依赖限制实际应用的三维监督[23,29,34,41,61],只能生成限制可扩展性的特定类别模型[29,41,55,60],或无法实现实时逼真渲染[6,13,23,29,30,41,55,57,60,61]。为解决这些挑战,我们推出SPLART------一种新颖的自监督且与类别无关的框架。该框架利用三维高斯泼溅(3DGS)[26]技术,仅需最少输入(两组不同关节状态下的位姿RGB图像)即可重建铰接物体。SPLART不仅能重建物体部件,还能推断运动学特性,从而实现对新颖视角和关节状态进行实时、逼真渲染。

SPLART系统的核心创新在于对3D高斯泼溅(3DGS)[26]技术的增强------为每个高斯单元引入了可微分运动参数(differentiable mobility parameter )。这一改进通过基于梯度的优化算法,实现了静态与动态场景要素的更精细分割。该技术不仅显著提升了三维重建质量,同时完整保留了3DGS原有的实时照片级渲染能力,其运算速度较基于神经辐射场[39]的方法[6,30]提升了100倍以上。

为提高鲁棒性,SPLART采用多阶段优化策略,将部件级重建与铰链估计过程(articulation estimation processes)解耦。与容易陷入局部最优的端到端方法不同[30],SPLART首先独立重建每个铰链状态,随后估算每个高斯分布的运动参数以实现部件分割,最终联合优化关节与运动参数估计。这种结构化方法确保了稳定精确的收敛,规避了现有方法对初始化的严苛要求,从而为复杂铰接结构提供了实用解决方案。

基于这一基础,SPLART利用几何自监督技术,无需人工标注或三维监督。通过互补的损失函数设计强制实现重建间的几何一致性,该方法能稳健估计各类场景下的铰链参数。这种自监督策略增强了可扩展性,使SPLART能够在不依赖先验结构或类别知识的情况下,重建多种关节化物体。

实际场景实验进一步验证了其应用价值,仅通过手持RGB相机就成功实现了对各类铰链物体的高质量重建。

贡献

  1. 对3D高斯泼溅(3DGS)的扩展------通过为每个高斯分布引入可微分移动性值,实现基于梯度优化的精确部件分割。
  2. 采用多阶段优化策略,将重建与铰链估计解耦,从而提升鲁棒性与精确度。
  3. 提出几何自监督的互补公式用于铰链估计,无需3D监督或繁琐标注。
  4. 构建具有挑战性的数据集及新评估指标,用于关节化物体重建的综合评测。

二、相关工作

2.1 数据驱动的铰链学习

准确估计铰链物体的姿态与铰链属性对机器人操控与交互至关重要[10,11,19,31]。近期基于学习的方法[9,13,15,22,29,33,57,65]通过端到端训练从点云推断铰链属性。例如,Shape2Motion[57]在监督环境下从单一点云分析运动部件,而ANCSH[29]实现类别级姿态估计但需要特定类别模型。RPM-Net[63]提升了部件分割与运动学预测的跨类别泛化能力,DITTO[23]则无需标签即可从三维点云对预测运动与几何特征。然而这些方法都依赖昂贵的3D监督与标注。相比之下,我们的方法能重建精确的三维几何结构与细致外观,在无需3D监督或先验知识的情况下捕捉铰链特性。

2.2 物体重建的表征方法

早期的三维物体重建方法通过部分观测数据预测点云、体素或网格[3,8,17]。隐式场景表征技术的最新进展[18,26,38,39,45,66]实现了通过可微分渲染[12,44,53,56]进行精细几何结构与外观重建。虽然神经场存在渲染速度慢的问题,但三维高斯泼溅技术(3DGS)[26]通过使用显式的三维高斯分布克服了这一缺陷。我们利用3DGS技术从位姿已知的RGB图像中实现自监督铰接物体重建,能够实时快速生成新颖视角和关节运动的逼真合成效果。

2.3 铰链物体重建

近期研究利用可微分三维表示方法[26,39,45]实现关节物体的联合重建与关节参数推断。基于训练的方法使用合成三维数据预测关节参数并分割部件[13,14,23,25,41,43,60]。自监督方法无需大量训练即可优化单场景的形状、外观与关节结构[6,27,30,32,34,50,61],其中部分研究虽能处理多部件物体,但需预先知道部件数量和单层关节结构[6,34,61]。另有研究通过大型语言或视觉-语言模型提升关节估计精度[28,36]。相比之下,我们的自监督方法采用3D高斯泼溅技术[26],仅凭RGB图像即可跨关节状态重建双部件关节物体。作为首个在无三维监督或预训练先验条件下将该技术应用于此任务的研究,本方法能稳健处理复杂案例并实现实时性能。

三、方法

3.1 总览

考虑一个由两个刚性部件组成的任意物体:一个静态的父部件,以及一个可通过旋转关节或棱柱关节相对于父部件移动的子部件。两个目标:(1) 在部件级别重建这个铰链物体;(2) 估算其铰链运动。在已知关节类型(即旋转或棱柱)的假设下,我们方法的输入由两组位姿已知的RGB图像(即已知相机内外参数的图像)组成,每组图像分别捕捉铰链物体在运动两端状态时的形态。

正式地,设l表示关节状态标签,其中 l = 0 l=0 l=0和 l = 1 l=1 l=1对应观测关节的两个端点状态 。为实现重建,SPLART算法采用观测数据 O l O_l Ol={ ( I l i , P l i , K l i ) (I_l^i, P_l^i, K_l^i) (Ili,Pli,Kli)} i = 1 N l , ^{N_l}_{i=1} , i=1Nl, l l l∈{0,1},其中 I l i I_l^i Ili表示第i个在状态l下观测到的关节物体RGB图像, P l i P_l^i Pli与 K l i K_l^i Kli分别代表其相机外参和内参矩阵, N l N_l Nl表示状态 l l l的数据样本数量 。需注意 P l i P_l^i Pli在两个状态中均定义于统一的世界坐标系,而铰链运动仅涉及相对于世界坐标系的一个运动部件。SPLART通过旋转轴a(∥a∥=1)、枢轴点p和旋转角度θ来建模旋转铰链,使得世界坐标系中移动部件上的点 x x x在状态 l = 0 l=0 l=0时将运动至------

当状态 l = 1 l = 1 l=1时, R a , θ R_{a,θ} Ra,θ表示由axis-angle notation 实现的旋转。棱柱铰链(prismatic articulation)则通过其平移轴 a a a(∥a∥= 1)和距离d来建模。目标是使用选定的表示方法在部件级别重建铰链对象,并估计铰链运动 1 T 0 ^1T_0 1T0,确保每个铰链状态下的渲染与观察结果一致。

同时进行部件级重建和铰链估计时,容易陷入局部最小值 [6,30],因此SPLART通过三个阶段,将部件级重建铰链估计 分离,扩展了3DGS对于关节物体的表示方法,:(1)每个铰链状态分别进行重建,(2)使用交叉静态公式进行运动估计,(3)使用交叉移动公式进行铰链估计和运动细化。 为了使SPLART更容易应用于现实世界中的物体,我们利用现代的sfm和图像分割技术,开发了一个框架,使普通用户能够仅通过手持相机设备拍摄的图像,在周围环境中重建关节物体。

3.2 Separate per-state reconstruction

第一阶段,除了原始3DGS的属性外,每个高斯分布还被初始化了一个持久的二进制状态标签 l l l,该标签从{ 0 , 1 0,1 0,1}中等概率选取。表示状态l的高斯分布集合记为 G l r e f G_l^{ref} Glref ,其中 r e f ref ref强调 G r e f G^{ref} Gref是未受其他状态影响的参考重建。利用状态 l l l下的数据样本进行优化:

其中 R R R是渲染函数, ∆ I ∆_I ∆I表示光度损失。为简化表述,从现在起将省略视图索引 i i i 和相机参数 P l i 、 K l i P_l^i、K_l^i Pli、Kli。

3.3 Cross-static formulation for mobility estimation

第二阶段是每个高斯的运动估计。为了确保 G r e f G^{ref} Gref专注于单状态重建,首先将其复制为两个状态(即l∈{0,1})的 G t g t G^{tgt} Gtgt作为目标表示 ,旨在实现部件级和铰链级的重建。设计上, G t g t G^{tgt} Gtgt在创建后既不与 G r e f G^{ref} Gref共享数据存储也不共享梯度流。

对于 G t g t G^{tgt} Gtgt中的每个高斯基元,属性集中加入一个移动性值 m ∈ [ 0 , 1 ] m∈[0,1] m∈[0,1],初始化为0.5 。通过这一设计,m使得高斯分布可以分解为其静态和移动部分,其中每个部分继承了所有原始高斯分布的属性,除了不透明度 σ σ σ。静态部分的不透明度调整为 σ ⋅ ( 1 − m ) σ·(1−m) σ⋅(1−m),而移动部分的不透明度则调整为 σ ⋅ m σ·m σ⋅m。为了简化表述,设 M M M为 G G G的所有移动性集合,使用元素级乘法 G ⋅ ( 1 − M ) G·(1−M) G⋅(1−M)来表示 G G G的静态部分,而 G ⋅ M G·M G⋅M则表示移动部分。

为了估算运动性M,基于直觉:即铰链物体的静态部分应由两种状态的静态分量共同构成。具体而言,我们引入了交叉静态(cs)公式,其中铰链物体的静态部分被联合表示为:

其中⊕表示拼接。对于状态 l l l,目标表示变为:

根据该公式,第2阶段进一步分为以下两个子阶段:

第二阶段(a) :通过交叉静态几何一致性进行粗略运动估计。为了测量两个高斯集之间的几何距离,设计一种加权的Chamfer距离:设 X = X= X={ ( x i , w x i ) (x_i,w_{x_i}) (xi,wxi)} i = 1 M ^M_{i=1} i=1M和 Y = Y= Y={ ( y j , w y j ) (y_j,w_{y_j}) (yj,wyj)} j = 1 N ^N_{j=1} j=1N为两组点-权重对,加权Chamfer距离则定义为:


对于每个高斯基元,采用运动修正后的不透明度 σ ′ σ′ σ′作为权重(实际上将其视为在平均位置重叠的σ′个点)。通过优化这些移动性,以促进几何一致性:

其中, C h a m f e r ( ⋅ ) Chamfer(·) Chamfer(⋅)表示加权Chamfer距离,而 λ ∥ M ∥ λ∥M∥ λ∥M∥ 是一个正则化项,旨在鼓励较小的移动性。请注意,M通过调整不透明度来影响加权Chamfer距离,而当M=1时,没有正则化的情况下,这是一个简单的解。在没有光度监督的情况下,从方程6a得到的移动性通常较为嘈杂。然而,由于这些方法相对快速(仅需几十秒),它们仍然可以作为下一阶段的良好初始化。

第二阶段(b):通过交叉静态渲染,实现运动性与高斯的联合优化:

λ m p h o t o ∥ M 1 − l ∥ λ^{photo}m∥M{1−l}∥ λmphoto∥M1−l∥表示运动正则化。

3.3. Cross-mobile formulation for articulation estimation and mobility refinement

第三阶段,估计所有高斯的移动部件共享的铰链参数。基于这样的直觉:两个端点状态下的移动部件,通过铰链运动相互关联。引入了交叉移动(cm)公式:状态 l l l下,铰链物体的移动部分被共同表示为:

其中 l T 1 − l ( G ) ^lT_{1−l}(G) lT1−l(G)表示高斯G在从状态 1 − l 1−l 1−l到状态 l l l的铰链运动下的变换。对于状态 l l l,目标表示变为:

根据该公式,第3阶段进一步分为以下三个子阶段:

第三阶段(a):通过几何一致性进行粗略铰链估计。类似于方程6a,采用加权Chamfer距离计算交叉移动的几何一致性,在移动性和铰链参数上进行优化:

然而,我们发现 1.当移动部分在几何上过于微不足道时,这种表述方式仍可能陷入局部最小值。如图3a的案例 。为解决这一问题,我们进一步提出了仅针对移动部件的几何一致性方案,该方案仅关注两种状态下的移动组件:

虽然成功解决了这些情况,但 2.仅限于移动组件的几何一致性在其他情况下仍显不足,尤其是在两个状态下的移动组件存在显著差异时 。如图4a的失败案例。为了充分利用两种方法,提高铰链参数优化的鲁棒性:

  • 1.在 K m K^m Km次随机尝试中:通过下式进行铰链估计
    1. 结合 K c m K^{cm} Kcm次随机尝试方法,再加上另一个以 T m T^m Tm初始化的方案:通过下式估计铰链
  • 3.最终以 T c m T^{cm} Tcm初始化:通过方程10a进行联合的铰链估计和移动行细化。

第三阶段(b):通过交叉移动渲染实现铰链、运动及高斯的联合优化。与第二阶段(b)类似,利用光度监督,通过交叉移动渲染来全面优化:

3©阶段:通过交叉移动几何一致性进行移动校正。第3(b)阶段仅依赖光度监督,这种监督方式仅限于训练视图。如果铰链运动使高斯从大多数视角中消失,那么它可能会被误认为是可移动的,从而有效地失去了监督。另一方面,几何一致性不受视线限制的影响。利用这一点进行移动性校正:

3.5 真实世界应用

为了在现实世界中重建一个铰链物体,首先从物体周围的半球拍摄图像,收集两组RGB图像,每种铰链状态各一组。预处理数据,得到SPLART输入的带位姿图像:使用SAM 2 [47]进行前景与背景的分割,同时去除场景中的动态元素。随后利用COLMAP [49]和SuperPoint [7]描述符及SuperGlue [48]匹配技术,在两组图像的分割背景上执行SFM来确定相机的姿态,从而构建出物体在两种状态下的联合坐标系。一旦我们获得了这个联合坐标系,并且前景目标物体被准确定位后,就运行SPLART来重建铰链物体。

四、实验

4.1 数据集

PARIS PartNet-Mobility子集。PartNet-Mobility是一个大规模的数据集,提供了具有部件级移动性[2,40,62]的可模拟3D对象模型。PARIS [30]从中选取了10个实例用于实验,其中8个为旋转实例,2个为棱柱实例。我们将这个数据集称为PARIS-PMS。对于每个铰链状态,PARIS提供了100个校准的以对象为中心的视角用于训练,50个用于测试,这些视角是从上半球随机选取的。然而,发布的数据集中缺少真实深度和部件分割图。为了解决这一问题,我们遵循他们的数据生成流程,并为PARIS-PMS增加了必要的真实数据,用于深度和分割评估。尽管如此,中间关节状态的测试视角仍未提供,这限制了对新关节合成的定量评估。

SPLART PartNet-Mobility子集。我们从PartNet-Mobility中精选了一个额外的铰链对象数据集,命名为SPLART-PMS,以实现更全面的评估,包括对新铰链合成的定量评估。我们的数据集包含22个未被PARIS-PMS包含的类别中的对象实例,其中包括12个旋转对象和10个棱柱形对象。在测试分割中,我们还生成了真实深度图和部分分割图,以促进相关评估。重要的是,虽然PARIS-PMS将关节状态限制为二进制值,而SPLART-PMS从[−0.1,1.1]的范围内均匀采样状态,这要求对关节、部分分割和对象重建进行准确估计,以确保正确的视图合成。

真实世界数据集。为了展示SPLART在实际应用中的效果,我们收集了一个包含7个真实物体和9种不同动作的数据集,这些物体包括常见的显示器、橱柜、眼镜等。所有图像均通过手持手机拍摄。

4.2 评估指标

铰链估计。根据铰链类型评估其估计的准确性。

  • 旋转铰链描述了在三维空间中围绕某条线的旋转,参数包括线上的枢轴点p、线的方向轴a和旋转角度θ。我们报告预测轴与真实轴之间的角度误差 e r r a ( i n × 10 − 2 度 ) err_a(in×10^{−2}度) erra(in×10−2度),由axis-angle ( a − θ ) (a-θ) (a−θ)对引起的预测旋转与真实旋转之间的测地距离 e r r r ( i n × 10 − 2 度 ) err_r(in×10^{−2}度) errr(in×10−2度),以及枢轴点误差 e r r p err_p errp。由于轴心可以沿轴任意移动, e r r p err_p errp通过计算 axis-pivot (a-p) pair 所引导的预测与真实line之间的最近距离来确定。

  • prismatic articulation(棱柱铰链)描述了沿特定方向的平移,该平移由平移方向的轴a和平移距离d参数化。我们报告axis误差 e r r a err_a erra,如同旋转铰链的情况,并报告平移误差 e r r d err_d errd,即由axis-distance对所引导的预测平移与真实平移之间的距离。

部件级重建。其准确性评估包括三个方面:光照渲染质量、几何精度和部件分割精度。对于这些方面,我们采用了新视图合成作为替代任务。我们对测试集中的每个视图进行volume render,生成包含RGB图像、深度图和部件分割图的输出。光照渲染质量通过报告图像质量指标PSNR来评估。几何精度通过报告深度图的平均绝对误差(depth MAE)来评估。部分分割精度则通过三个类别的交并比(IoU)来评估:静态部分(IoUs)、移动部分(IoUm)和背景(IoUbg)。这些类别的平均IoU(mIoU)被报告为这些类别的平均IoU。此外,我们还通过网格重建来评估几何精度。为了从3DGS中提取网格,我们采取了以下步骤:(1)从均匀采样的球形视角渲染深度图像,(2)将渲染的深度图像融合成TSDF表示[4,42],(3)使用Marching Cubes算法[35]提取网格。对于每次重建,我们分别提取静态、移动和整体部分的网格。评估时,我们遵循先前研究[30,61]中使用的方法:从重建和真实网格中均匀采样10,000个点,并计算每个类别的Chamfer距离---静态(CDs)、移动(CDm)和整体(CDw)。

定性与定量实验



#pic_center =80%x80%

d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ
ϕ \phi ϕ ∏ \prod ∏

相关推荐
墨风如雪11 小时前
美团LongCat-Audio-Codec:给语音大模型装上“顺风耳”与“巧舌”
aigc
ImAlex16 小时前
实测PaddleOCR-VL:文心4.5最强衍生模型如何重构文档处理效率
人工智能·aigc
用户51914958484517 小时前
利用配置错误的IAM策略窃取云函数访问令牌[GCP]
人工智能·aigc
鼓掌MVP19 小时前
图生3D技术解析:从二维平面到立体世界的智能飞跃
平面·3d
用户51914958484519 小时前
cURL Kerberos FTP整数溢出漏洞分析与修复
人工智能·aigc
小溪彼岸20 小时前
Claude Code颠覆编程风格的Output Styles
aigc·claude
小溪彼岸21 小时前
Hooks才是Claude Code CLI 的革命性更新
aigc·claude
小溪彼岸21 小时前
深入了解Claude Code CLI子代理Subagent
aigc·claude
用户5191495848451 天前
使用AWS Security Hub自动业务上下文验证加速安全发现审查
人工智能·aigc
Baihai_IDP1 天前
AI 推理服务是否真的无利可图?从第一性原理看 AI 推理成本
人工智能·llm·aigc