导读
模拟铰链物体是计算机视觉与机器人操作仿真中的重要问题。现有方法通常采用两阶段流程------先建模物体不同状态,再推断关节运动------这不仅复杂化工作流程,还限制了可扩展性。我们提出GaussianArt单阶段训练框架,通过关节式3D高斯模型统一运动与外观建模。本方法支持最多20个部件的复杂物体,并集成鲁棒部件分割模块以精确分解关节级运动。相较于仅在19个物体上评估的先前的研究,我们通过90个铰接物体进行了大规模扩展评估,涵盖广泛的运动组合与几何形态。GaussianArt在几何建模、视觉重建和运动估计方面均达到当前最佳水平,并能支持操作仿真等下游应用。本工作于近期被三维计算机视觉领域的垂类学术会议3DV 2026正式接收。
论文链接: https://arxiv.org/abs/2508.14891
代码仓库 (Github): https://github.com/shenlc19/GaussianArt
项目主页: https://sainingzhang.github.io/project/gaussianart/
数据集 (Hugging Face): https://huggingface.co/datasets/LiCheng23/MPArt-90
研究背景
铰链物体(尤其是家具)是人机交互与机器人操作仿真的关键要素。传统数字孪生创建方法耗时费力且资源密集,而基于视觉数据(如RGB-D扫描)的重建则提供了更具可扩展性和效率的解决方案,从而为机器人技术实现快速数据集生成。
该领域的近期研究进展主要集中于:从物体两种不同状态的观测数据中重建部件级几何结构与关节模型。例如,PARIS分别优化静态和动态组件的隐式神经场,但仅适用于两部分物体。DigitalTwinArt采用两阶段策略:先在两种状态下重建有符号距离场(SDF),再利用二维像素对应关系进行监督;但仅依赖此类对应关系会导致复杂多部件物体的性能下降。ArtGS设计了基于 3D 高斯函数的初始化方法,并借鉴了 DTA 的两阶段训练策略,提升了多部件物体的处理性能。
然而现有方法仍受限于其对两阶段管线的依赖或独立的部件特定表示,增加了复杂性,并阻碍了对更多样化铰接物体的可扩展性。此外,当前评估仅基于相对较小的数据集------仅包含17个模拟对象和2个真实世界对象------这限制了其研究结论的普适性和可信度。
为克服这些局限性,我们提出{GaussianArt}------一种单阶段统一建模框架,通过铰接式三维高斯模型同时表征运动与外观特征。该方法消除了多阶段优化与离散部件表示的需求,从而简化训练流程,最终获得稳定、视觉逼真且物理准确的结果。
我们的方法展现出对包含多达20个部件且具有多样化运动类型的关节物体的强大泛化能力,在关节参数估计、部件级网格重建及视觉质量指标方面均达到当前最先进水平。
本研究的主要创新点包括:
- 我们提出了一种新型单阶段重建管线GaussianArt,能够通过两个不同状态的观测数据,重建具有精细纹理的铰接物体的高清晰度数字孪生模型。
- **我们有效解决了部件级运动分解问题。**即使观测数据中存在多个部件的同步运动,我们的方法仍能精确区分不同部件并估计部件级运动参数,从而使重建的数字孪生中每个部件都能独立运作。
- 我们构建了包含90个关节物体的综合基准测试集MPArt-90,对现有方法进行更全面验证。
方法

GaussianArt铰链物体场景表示
GaussianArt是一种基于3DGS,从两状态、多视图RGB-D数据,进行铰链物体建模的统一管线。我们首先构建部件分割模型以初始化规范高斯分布,随后采用将高斯分布优化为刚性部件。
3DGS是一种显式场景表示法,刚体运动可通过直接对高斯基元属性进行变换来表示。因此,我们将关节物体重构为基于规范高斯表示的运动场。对于每个高斯基元,刚体运动作用于均值和协方差属性:
μ ~ ( k ) = R ( k ) μ ( k ) + T ( k ) , Σ ~ ( k ) = R ( k ) Σ ( k ) R ( k ) T , \widetilde{\mu}^{(k)} = \mathbf{R}^{(k)}\mu^{(k)}+\mathbf{T}^{(k)}, \widetilde{\mathbf{\Sigma}}^{(k)} = \mathbf{R}^{(k)}\mathbf{\Sigma}^{(k)}{\mathbf{R}^{(k)}}^T, μ (k)=R(k)μ(k)+T(k),Σ (k)=R(k)Σ(k)R(k)T,
其中 μ ~ ( k ) ∈ R 3 , Σ ~ ∈ R 3 × 3 \widetilde{\mu}^{(k)} \in \mathbb{R}^3, \widetilde{\mathbf{\Sigma}}\in\mathbb{R}^{3\times3} μ (k)∈R3,Σ ∈R3×3 分别表示变换后的均值与协方差矩阵, R ( i ) , T ( i ) \mathbf{R}^{(i)}, \mathbf{T}^{(i)} R(i),T(i) 则表示每个高斯基元的刚体运动参数。在关节场景中,可动部件远少于高斯基元,后者构成全局运动基: { R i , T i } i = 1 N \{\mathbf{R}_i, \mathbf{T}i\}{i=1}^N {Ri,Ti}i=1N,其中N代表部件数量。因此每个高斯基元的运动可进一步分解为运动基的加权和:
R ( i ) = ∑ j = 1 N w j ( i ) R j , T ( i ) = ∑ j = 1 N w j ( i ) T j , \mathbf{R}^{(i)} = \sum_{j=1}^N w_j^{(i)}\mathbf{R}j, \mathbf{T}^{(i)} = \sum{j=1}^N w_j^{(i)}\mathbf{T}_j, R(i)=j=1∑Nwj(i)Rj,T(i)=j=1∑Nwj(i)Tj,
其中每个高斯基元都通过混合权重项 w ( i ) = ( w 1 ( i ) , w 2 ( i ) , ... , w N ( i ) ) ∈ R N \mathbf{w}^{(i)} = (w_1^{(i)}, w_2^{(i)}, \dots, w_N^{(i)}) \in \mathbb{R}^N w(i)=(w1(i),w2(i),...,wN(i))∈RN 进行加权,该项表示属于每个运动基底的概率。由于渲染过程具有可微特性,参数可进行显式优化。
由于缺乏约束条件,仅这种表示方式不足以准确捕捉关节物体的特征。要精确表示关节物体,我们在训练过程增加约束,以满足以下属性:
- **权重分布:**在高斯混合权重中,一个元素的值应接近1,其余元素的值接近0。
- **空间稀疏性:**每个部件的运动应在局部范围内保持一致,仅在物体活动部件与静态主体的边界处显著存在。
- **刚性估计:**在基础权重正则化之后,我们将每个部分的高斯分布视为刚体进行运动学习,从而实现关节参数的简洁高效优化。
部分分割与高斯初始化
**为有效初始化并正则化高斯分布的权重 w ( i ) \mathbf{w}^{(i)} w(i),我们采用基础模型进行部件分割,选用SAM2模型------该基础图像分割模型经大规模数据集预训练,可生成刚性部件的分割掩膜。**由于SAM2在零样本分割中对关节物体呈现不可控的粒度问题,我们通过在多视图图像子集及其对应遮罩上进行微调,生成由Partnet-Mobility(PM渲染的关节物体数据,最终获得专用模型Art-SAM。
**随后,我们采用交叉视图传播策略生成多视图一致的分割掩膜。**首先,我们选择可见度更高的关节状态作为规范状态。在获得视图一致的分割掩膜后,我们从RGB-D图像中随机采样点,并利用深度图将颜色和部件标签同时重投影至三维空间。该过程生成的点云用于初始化规范高斯模型。
我们选择可见度更高的关节状态作为规范状态。获得视图一致的分割掩膜后,从RGB-D图像中随机采样点,并利用深度图将颜色和部件标签重新投影到三维空间。该过程生成的点云用于初始化规范高斯分布。随后将部件标签 S ( i ) S^{(i)} S(i) 作为相邻性特征: \\mathbf{w}\^{(i)} = (w_1\^{(i)}, w_2\^{(i)},\\dots, w_N\^{(i)}) \\in \\mathbb{R}\^N 作为高斯分布的附带特征,并用于运动估计中权重项 w ( i ) \mathbf{w}^{(i)} w(i) 的初始化,具体如下:
w j ′ ( i ) = { 1 if j = S ( i ) , 0 if j ≠ S ( i ) , w_j^{'(i)} = \begin{cases} 1 & \text{if } j = S^{(i)}, \\ 0 & \text{if } j \neq S^{(i)}, \end{cases} wj′(i)={10if j=S(i),if j=S(i),
w ( i ) = Softmax ( w ′ ( i ) ) . \mathbf{w}^{(i)}=\text{Softmax}(\mathbf{w}^{'(i)}). w(i)=Softmax(w′(i)).
MPArt-90 数据集

我们构建了一个新型数据集,包含79%的合成物体和36%的真实世界物体,涵盖20个类别共90个物体,将现有可动物体重建数据集扩展至更大规模,覆盖更多物体类型和运动模式。
铰接物体主要基于Partnet-Mobility(PM)数据集构建,从中选取87个物体。我们采用Blender配合过程化渲染管线,为基础资产中的3D模型生成多视角图像。为增加物体状态多样性并充分呈现内部结构,我们将部件级运动参数设置为两个随机状态。针对每个运动状态下的物体,我们将摄像机放置在物体周围的球形区域内,随机采样多个视图用于训练和测试。
由于高质量真实世界多关节物体数据较为稀缺,我们从Multiscan数据集中选取了三个标注完善的真实物体,生成与合成物体相同格式的数据。
实验
我们选取与本研究最为接近的方法ArtGS, DigitalTwinArt,在MPArt-90数据集上开展定性和定量验证。
针对运动参数估计,我们计算轴向位置误差、轴向角度误差及部件运动误差;针对几何重建,则分别对静态部件与动态部件计算倒角距离(CD)。
相较于ArtGS, DigitalTwinArt,GaussianArt核心优势在于能进行相对精确的运动初始估计与部件级分割,实现了更准确的运动参数估计,从而克服了运动分割策略对对应点估计偏差极为敏感,以及点云匹配与聚类方法的稳健性不足的问题。


物体重建可视化对比:
| GaussianArt | ArtGS |
|---|---|
| 41083.gif> | 41083.gif> |
| 46145.gif> | 46145.gif> |
| Foldingchair_100523.gif | Foldingchair_100523.gif |
| StorageFurniture_40147.gif | StorageFurniture_40147.gif |
| StorageFurniture_45759.gif | StorageFurniture_45759.gif |
| Table_22367.gif | Table_22367.gif |
| Table_32052.gif | Table_32052.gif |
| Toilet_102630.gif | Toilet_102630.gif |
GaussianArt可用于多种仿真场景。通过结合学习到的运动参数与精确的部件级几何信息,我们有效分解了视觉观测中的混合运动,使机械臂能够与输入图像中未见状态的任意运动部件进行交互。这些逼真的数字孪生体为机械臂操控铰接物体提供了支持。

此外,我们的铰链物体高斯模型可用于生成4D资产,从而实现数字人与动态物体的交互。
原文链接:除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
结论与展望
在本研究中,我们提出GaussianArt------一种针对铰链物体物体的单阶段统一建模管道。该方法首先通过鲁棒部件分割模型初始化规范高斯模型,随后采用软标签到硬标签的训练范式优化运动估计。大量实验表明,在我们构建的最大规模铰链物体重建基准数据集MPArt-90上,GaussianArt在几何重建与部件运动估计方面均达到当前最佳水平。GaussianArt生成的数字孪生集成至仿真系统。我们期待该技术能推动机器人仿真领域取得新突破。
本研究所提出GaussinArt方法仍存在一些局限性。对中间运动状态缺乏直接约束可能导致运动参数学习失误;由于部件分割中的分布外问题或多视图重建中的错位,规范高斯函数的初始化可能存在错误而影响后续运动参数估计。我们将在未来工作中继续优化上述问题,以实现更优的重建效果。
具身求职内推来啦
国内最大的具身智能全栈学习社区来啦!
推荐阅读
从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂
工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)
具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?