【3D 资产生成】PhysX-3D: Physical-Grounded 3D Asset Generation

PhysX-3D：基于物理的3D资产生成

原文链接：https://arxiv.org/pdf/2507.12465

项目主页：https://physx-3d.github.io/

openreview:https://openreview.net/forum?id=hLJLP3CmHR

发表：NeurIPS 2025 (Spotlight)

图1：我们用于物理3D生成的PhysXNet可视化效果。我们数据集中的3D资产包含细粒度的物理属性标注，包括：1) 绝对尺度，2) 材质，3) 功能可供性，4) 运动学参数，以及5) 功能描述（基础描述、功能描述和运动学描述）。

摘要

3D建模正从虚拟向物理领域转型。现有3D生成方法主要强调几何结构和纹理，而忽视了基于物理的建模。因此，尽管3D生成模型发展迅速，合成的3D资产往往忽略了丰富且重要的物理属性，阻碍了其在仿真和具身智能等物理领域的实际应用。作为解决这一挑战的初步尝试，我们提出了PhysX，一种用于基于物理的3D资产生成的端到端范式。1) 为了弥补带物理标注的3D数据集的关键缺口，我们提出了PhysXNet------首个在五个基础维度上进行系统标注的基于物理的3D数据集，这五个维度包括绝对尺度、材质、功能可供性、运动学参数和功能描述。特别地，我们设计了一种基于视觉语言模型的可扩展人在环标注流水线，能够从原始3D资产高效创建以物理为先的资产。2) 此外，我们提出了PhysXGen，一种用于基于物理的图像到3D资产生成的前馈框架，将物理知识注入预训练的3D结构空间中。具体而言，PhysXGen采用双分支架构，显式建模3D结构与物理属性之间的潜在相关性，从而在保留原生几何质量的同时，生成具有合理物理预测的3D资产。大量实验验证了我们框架的优越性能和良好的泛化能力。所有代码、数据和模型都将公开发布，以促进生成式物理人工智能领域的未来研究。

1 引言

近年来，随着3D资产在游戏、机器人和具身仿真器等领域的应用不断扩展，创建多样化、高质量的3D资产变得日益重要。研究人员已经在外观和几何方面投入了大量精力，从高质量3D数据集 $1,2,3,4$ 、高效3D表示到生成式建模。然而，大多数方法主要关注结构特征，而忽略了现实世界物体固有的物理属性。鉴于3D空间中对物理建模、理解和推理的需求不断增长，我们认为，从上游数据标注流水线到下游生成式建模，构建一套全面的基于物理的3D物体处理工具至关重要。

除了几何和外观等纯结构属性外，现实世界物体还内在地拥有丰富的物理和语义特征，包括：1) 绝对尺度，2) 材质，3) 功能可供性，4) 运动学参数，以及5) 功能描述。通过将这些基本属性与经典物理原理相结合，我们可以推导出关键的动态指标，包括重力效应、摩擦力、接触区域、运动轨迹和交互作用。然而，现有的数据集和标注流水线只能部分解决3D物体中的物理知识问题，无法覆盖全部维度。近期支持铰接式物体应用的研究产生了PartNet-Mobility $5$ 等数据集，该数据集提供了2700个人工标注的铰接式3D模型。但该数据集仍然缺乏关键的物理描述符，包括尺寸规格、材质组成和功能可供性，而这些对于物理准确的仿真和机器人应用至关重要。

为了弥补这一表征缺口，我们提出了PhysXNet------首个包含超过26000个带丰富标注的3D物体的综合物理3D数据集，如图1所示。除了物体级标注（即上述第1点）外，我们还为每个部件标注了第2点和第5点属性。此外，对于第3点，我们为所有部件提供了功能可供性排名；对于第4点，我们标注了详细的运动学约束参数，包括运动范围、运动方向、子部件和父部件。同时，我们还推出了扩展版本PhysXNet-XL，包含超过600万个通过程序化生成和标注的3D物体。

最重要的是，PhysXNet采用了高效、鲁棒且可扩展的标注流水线。我们引入了一种人在环标注流水线，用于为现有的物体级3D数据集（即PartNet $6$ ）标注属性。该流水线分为三个阶段：1) 目标视觉隔离，通过alpha合成渲染每个组件，以获得视觉干扰最小的最佳视觉提示；2) 自动VLM标注，使用大型视觉语言模型（VLM）标注大部分属性；3) 专家优化，结合系统的抽查和对复杂运动学行为的针对性人工标注。据我们所知，PhysXNet是首个为每个部件提供丰富属性的3D数据集。

为了弥补基于物理的3D资产的建模缺口，我们进一步提出了PhysXGen，一种用于物理3D生成的前馈模型。考虑到物理属性与几何和外观在空间上相关，我们利用在大规模仅几何3D扫描数据上预训练的模型，并对其进行微调以适应物理3D生成任务。基于其成熟的3D表示空间，我们提出了PhysXGen，一种新颖且简洁的框架，将物理属性与几何和外观相结合，如图4所示。我们的方法通过同时将基本物理属性集成到生成过程中，并通过针对性微调优化结构分支，实现了这一双重目标。这种联合优化能够生成物理一致的3D资产，同时保持出色的几何和外观保真度。

综上所述，我们的主要贡献如下：

我们率先提出了首个用于基于物理的3D资产生成的端到端范式，推进了基于物理的内容创作的研究前沿，并为仿真领域的下游应用开辟了新的可能性。
我们构建了首个基于物理的3D数据集PhysXNet，并提出了一种人在环标注流水线，能够高效、鲁棒地将现有的以几何为中心的数据集转换为带细粒度物理标注的3D数据集。此外，我们还推出了扩展版本PhysXNet-XL，包含超过600万个通过程序化方法生成的带标注3D物体。
我们设计了双分支前馈框架PhysXGen。它能够建模结构特征与物理特征之间的潜在相互依赖关系，在保持原生几何质量的同时，实现合理的物理预测。

2 相关工作

2.1 3D数据集与基准

由于真实数据收集耗时且成本高昂，当前的大规模3D数据集更倾向于在线收集数据 $1,2,3$ 。根据3D数据的类型，现有3D数据集可分为合成数据集和真实世界数据集。为了推动3D视觉的发展，ShapeNet $1$ 收集了51300个CAD模型。在此基础上，PartNet数据集 $6$ 引入了一种标注框架，提供了更细粒度的部件级标注。

此外，PartNet-Mobility $5$ 标注了运动学约束，为3D视觉（尤其是具身智能和机器人领域）提供了2700个铰接式3D物体。ABO $7$ 是一个高质量数据集，包含约7900个带细粒度几何和纹理的CAD模型。与之前的工作相比，它包含了物理尺寸、材质和关键词信息。然而，其材质信息和描述仅停留在物体级别，限制了部件级应用（如机器人操作或物理仿真）。近期，Objaverse $2$ 缓解了3D数据稀缺的问题，收集并筛选了超过80万个3D数据。为了弥补合成数据与真实数据之间的差距，Omniobject3D $4$ 提供了超过6000个高质量3D扫描数据。详细的对比见表1。

表1：可支持物理3D生成研究的相关数据集对比。尽管ABO数据集 $7$ 包含材质元数据和关键词，但其物体级别的标注粒度限制了机器人操作或物理仿真等部件级应用。相比之下，PhysXNet提供了部件级标注。

尽管3D数据采集取得了显著进展，但主流3D数据集主要强调几何和外观保真度，或仅关注狭义定义的物理属性，这为开发具备物理感知能力的3D视觉模型及其实际应用造成了关键瓶颈。为了弥补这一基础缺口，我们提出了PhysXNet------一个包含全面物理属性的3D数据集，涵盖物理尺寸、部件级材质、功能可供性排名、运动学参数和部件级描述。此外，我们通过PhysXNet-XL扩展了数据集，包含超过600万个通过程序化生成的带标注3D物体。

2.2 3D生成模型

作为3D生成中最具代表性的基于优化的方法，DreamFusion $9$ 提出了SDS损失函数。通过利用2D扩散模型的先验知识，它实现了令人印象深刻的生成性能。尽管后续有诸多改进工作，基于优化的方法仍然存在多面Janus问题和优化效率低下的缺点。近期，前馈模型 $10,11,12,13,14,15,16,17$ 凭借其出色的效率和鲁棒性受到了越来越多的关注。然而，这些方法仍然专注于几何和外观质量，忽略了3D资产的物理属性。

2.3 铰接式与物理3D物体建模

铰接式物体建模主要包括感知、重建和生成等任务。一些工作尝试估计关节姿态 $18$ 和识别关节部件 $19$ ，而另一些工作 $20$ 则专注于从图像中学习关节参数。在重建领域，现有工作尝试从RGB $21$ 、RGBD $22$ 和点云 $23$ 重建铰接式模型。近期，一些方法尝试利用视觉语言模型 $24,25$ 或采用基于优化的框架 $26$ 生成铰接式3D资产。为了弥补现有方法与实际应用之间的关键差距，许多研究致力于将物理属性融入3D建模。一些工作尝试从视频 $27$ 或图像 $28$ 中学习材质参数，而其他方法则旨在通过仿真 $29,30$ 或物理原理 $31$ 引入物理引导。

与物理3D建模中碎片化的范式不同，本文提出了PhysXGen------一个统一的物理集成生成框架，能够学习跨属性一致性，生成具有所有必要物理属性的3D资产。通过利用物理特征与结构特征之间的关系，我们的方法在物理3D生成中取得了良好的性能。

3 PhysXNet数据集

在本节中，我们将介绍物理属性以及人在环标注流水线。此外，我们还将报告PhysXNet和PhysXNet-XL的统计信息与分布情况。

3.1 物理属性的定义

图2：上图：PhysXNet中的属性定义。通过在三个类别上定义和标注属性，可以系统地计算常见物理量以支持物理仿真。下图：我们的人在环标注流水线概述。我们利用GPT-4o获取基础原始数据，随后通过人工监督进行验证。运动学参数则通过人工审核进行严格确定和最终确认。

如图2所示，我们将物体属性系统地划分为三个递进阶段：a) 识别------确定物体的基本性质；b) 功能------理解其潜在应用；c) 操作------详细的使用方法。为了简化标注流程，我们假设组件的内部组成是均匀的，在其整个结构中表现出统一的属性不变性。对于阶段a)，我们标注了绝对尺度和材质（材质名称、杨氏模量、泊松比和密度）。对于阶段b)，我们建立了功能可供性分析和功能描述（基础描述、功能描述和运动学描述）。最后，我们使用运动学参数量化来表示阶段c)。具体而言，我们对所有可用部件的被触摸优先级进行评分，得到所有部件从1到10的功能可供性分数。我们定义了五种可能的运动学类型：A. 无运动约束（如瓶中的水）、B. 棱柱关节（如抽屉）、C. 旋转关节（如笔记本电脑）、D. 铰链关节（如淋浴系统中的软管）、E. 刚性关节，以及一种组合运动学类型：CB. 旋转+棱柱关节（如瓶盖）。除A和E外，我们将标注父部件、子部件以及详细的运动学参数（如旋转方向、旋转范围等）。需要注意的是，由于难以精确量化B类运动的绝对物理范围，我们使用3D坐标系内的运动范围。此外，为了避免对PartNet中过于细粒度的部件进行不必要且无意义的标注，我们将顶点数和面积小于预定义阈值的微小部件与其相邻部件合并。我们手动优化合并结果，以确保合并输出合理且一致。

3.2 人在环标注流水线

在确定目标标注规范后，我们实施了一套系统且精简的半自动化标注框架，分为两个不同的操作阶段（见图2）：1) 初步数据获取；2) 运动学参数确定。具体而言，我们使用GPT-4o获取基本信息。此外，为了保证原始数据的质量，人工标注员会检查并优化视觉语言模型（VLM）的输出。

对于第二阶段，我们将其拆分为四个子任务：(2.a) 计算接触区域、(2.b) 平面拟合、(2.c) 候选生成与选择、(2.d) 运动学参数确定。需要注意的是，(2.c)和(2.d)由人工标注员完成。对于所有受约束的可移动部件（运动学类型不是A或E），我们将计算其与相邻部件的接触区域。我们首先从父子网格对中提取点云数据，分别正式表示为 P c P_c Pc和 P p P_p Pp。随后计算 P c P_c Pc和 P p P_p Pp中点之间的欧氏距离，再通过空间过滤去除不满足预定距离阈值的点对。接下来，我们采用平面拟合算法。在拟合平面上均匀采样若干轴作为候选。需要注意的是，对于C类运动学类型，我们还需要确定旋转轴的位置。因此，我们将在C类的接触区域中执行k-means算法以生成若干候选。在选择候选位置后，我们可以最终确定运动学参数。

3.3 PhysXNet的统计信息与分布

PhysXNet包含超过26000个物理3D物体，其部件数量呈现长尾分布（如图3所示），每个物体平均包含约5个组成部件。此外，我们记录了物体的长-宽-高分布（图3(b)）。由于PhysXNet涵盖了从相对较小的室内实体到大型室外结构的各类物体，因此物理尺寸在不同物体之间存在显著差异。对于PhysXNet中的运动学类型和材质，我们展示了详细的比例构成。需要注意的是，我们的PhysXNet中的密度遵循度量标准化框架，即 g / c m 3 g/cm^3 g/cm3。此外，图3(d)展示了常见物体标签的频率，包括名称和类别。最后，我们还报告了程序化生成的3D物体的组件类别，包括：a) 类别内组合：橱柜、瓶子、水龙头、椅子、烤箱、淋浴、刀具、桌子和笔记本电脑；b) 跨类别组合：抽屉和门。关于PhysXNet-XL的更多细节将在附录中发布。

图3：PhysXNet和PhysXNet-XL的统计信息与分布。(a) PhysXNet中物体部件数量的分布直方图。(b) PhysXNet中的尺寸分布分析，展示了物理测量值（长度/宽度/高度）的频率。© PhysXNet中运动学状态和材质的比例构成，包括密度、杨氏模量和泊松比的分布，通过扇形比例可视化。(d) PhysXNet-XL中常见物体标签的频率统计。(e) PhysXNet-XL中程序化生成的3D物体的组件-类别分布。

4 PhysXGen框架

如前所述，物理3D生成仍然是一项具有挑战性且前景广阔的任务。大多数现有工作仅关注单一或特定的物理属性。在本节中，我们旨在构建一个统一的生成框架，直接生成基于物理的3D资产。尽管我们的PhysXNet数据集包含26000个资产，但这一规模仍不足以从头开始训练最先进的生成架构。因此，我们利用在大规模仅几何3D扫描数据上预训练的模型，并对其进行微调以适应物理3D生成任务。基于其成熟的3D表示空间，我们提出了PhysXGen------一个新颖且简洁的框架，将物理属性与几何和外观相结合，如图4所示。我们的方法通过同时将基本物理属性集成到生成过程中，并通过针对性微调优化结构分支，实现了这一双重目标。这种联合优化能够生成物理一致的3D资产，同时保持出色的几何和外观保真度。

图4：PhysXGen框架的架构。PhysXGen采用两阶段架构，包括用于潜在空间学习的物理3D VAE框架，以及用于结构化潜在空间的物理感知生成过程。前者专注于建立编码物理属性的压缩且信息丰富的潜在表示，而后者专门用于生成物理潜在向量。

4.1 物理3D VAE编码与解码

在本小节中，我们以带纹理的网格输出为例。为了减少几何潜在空间与物理潜在空间之间域差距带来的影响，我们参考 $10$ 构建了一个类似的物理VAE用于属性编码。此外，考虑到物理属性之间的相互依赖关系，我们将它们编码到一个统一的潜在空间中。我们采用4种物理属性：物理尺度（由物理尺寸转换得到） P d i m ∈ R N × 1 P_{dim} \in \mathbb{R}^{N ×1} Pdim∈RN×1、功能可供性优先级 P a f f ∈ R N × 1 P_{aff} \in \mathbb{R}^{N ×1} Paff∈RN×1、密度 P ρ ∈ R N × 1 P_{\rho} \in \mathbb{R}^{N ×1} Pρ∈RN×1，以及运动学参数 P m o v ∈ R N × 11 P_{mov} \in \mathbb{R}^{N ×11} Pmov∈RN×11（包括子部件索引 R N × i \mathbb{R}^{N ×i} RN×i和父部件索引 R N × 1 \mathbb{R}^{N ×1} RN×1、运动方向 R N × 3 \mathbb{R}^{N ×3} RN×3、运动位置 R N × 3 \mathbb{R}^{N ×3} RN×3、运动范围 R N × 2 \mathbb{R}^{N ×2} RN×2和运动学类型 R N × 1 \mathbb{R}^{N ×1} RN×1），其中N是体素的数量。物理属性（ P p h y ∈ R N × 14 P_{phy} \in \mathbb{R}^{N ×14} Pphy∈RN×14）可以通过通道拼接得到。对于功能描述，我们采用CLIP模型 $32$ 获取文本嵌入。类似地，描述特征（ P s e m ∈ R N × 768 × 3 P_{sem} \in \mathbb{R}^{N ×768 ×3} Psem∈RN×768×3）通过拼接基础描述、功能描述和运动学描述的嵌入形成。此外，结构分支采用DINOv2提取特征。因此，结构特征的维度为 P a e s ∈ R N × 1024 P_{aes} \in \mathbb{R}^{N ×1024} Paes∈RN×1024。为清晰起见，我们将预训练的VAE编码器和解码器分别表示为 E a e s \mathcal{E}{aes} Eaes和 D a e s \mathcal{D}{aes} Daes，而物理VAE编码器和解码器分别表示为 E p h y \mathcal{E}{phy} Ephy和 D p h y \mathcal{D}{phy} Dphy。物理潜在向量 P p l a t ∈ R N × 8 P_{plat} \in \mathbb{R}^{N ×8} Pplat∈RN×8和结构潜在向量 P s l a t ∈ R N × 8 P_{slat} \in \mathbb{R}^{N ×8} Pslat∈RN×8可以表示为：

P p l a t = E p h y ( P p h y , P s e m ) , P s l a t = E a e s ( P a e s ) . ( 1 ) P_{plat}=\mathcal {E}{phy}(P{phy},P_{sem}), P_{slat}=\mathcal {E}{aes}(P{aes}) . \quad (1) Pplat=Ephy(Pphy,Psem),Pslat=Eaes(Paes).(1)

为了研究物理属性对几何和外观质量的影响，我们通过残差连接从 D p h y \mathcal{D}{phy} Dphy向 D a e s \mathcal{D}{aes} Daes引入了一个分支。我们将在实验中分析独立VAE解码器和依赖型VAE解码器的性能。在解码结构和物理潜在向量后，我们可以定义损失函数 L \mathcal{L} L如下：

L v a e = L a e s c o l o r + L a e s g e o m e t r y + L p h y + L s e m + L k l + L r e g , ( 2 ) \mathcal{L}{vae }=\mathcal{L}{aes }^{color }+\mathcal{L}{aes }^{geometry }+\mathcal{L}{phy }+\mathcal{L}{sem }+\mathcal{L}{k l}+\mathcal{L}_{reg }, \quad (2) Lvae=Laescolor+Laesgeometry+Lphy+Lsem+Lkl+Lreg,(2)

其中 L a e s c o l o r \mathcal{L}{aes }^{color } Laescolor和 L a e s g e o m e t r y \mathcal{L}{aes }^{geometry } Laesgeometry分别表示颜色损失（包括L2损失、LPIPS损失）和几何损失（包括掩码损失、法向量损失和深度损失）。对于 L p h y \mathcal{L}{phy } Lphy和 L s e m \mathcal{L}{sem } Lsem，我们分别对真实值进行归一化，并采用L2损失。 L k l \mathcal{L}{kl} Lkl旨在约束 P p l a t P{plat} Pplat的分布，而 L r e g \mathcal{L}_{reg} Lreg可以减少带纹理网格中不必要的结构。

4.2 物理潜在空间生成

在获得压缩的物理潜在表示后，我们构建了一个基于Transformer架构的扩散模型，以联合生成物理和结构属性。为了有效利用物理属性与结构特征之间的内在相关性，同时保持与预训练组件的兼容性，我们实现了一个双分支架构，通过残差连接集成结构引导。具体而言，来自结构模块的额外分支通过可学习的跳跃连接层与主物理生成模块融合，实现跨域特征交互。全面的消融研究通过系统的组件对比，定量验证了这一设计的合理性。参考 $10$ ，我们采用条件流匹配（CFM）作为优化目标。因此，几何分支的损失可以表示为：

L a e s = E t , x 0 , ϵ ∥ f ( x , t ) − ( ϵ − x 0 ) ∥ 2 2 , ( 3 ) \mathcal{L}{a e s}=\mathbb{E}{t, x_{0}, \epsilon}\left\| f(x, t)-\left(\epsilon-x_{0}\right)\right\| _{2}^{2}, \quad(3) Laes=Et,x0,ϵ∥f(x,t)−(ϵ−x0)∥22,(3)

其中 ϵ \epsilon ϵ和 t t t分别表示噪声和时间步，而 x 0 x_0 x0是从 P s l a t P_{slat} Pslat中采样得到的。对物理分支采用类似的目标，潜在扩散模型的最终损失可以计算为： L d i f f = L a e s + L p h y \mathcal{L}{diff }=\mathcal{L}{aes }+\mathcal{L}_{phy } Ldiff=Laes+Lphy。

5 实验

5.1 实现细节

在我们的实验中，我们将PhysXNet数据集划分为24000个训练样本、1000个验证样本和1000个测试样本。通过分析在测试样本上的性能，我们可以评估我们方法的泛化能力。在VAE和扩散模型训练过程中，我们采用AdamW优化器，初始学习率为 1 × 10 − 4 1 ×10^{-4} 1×10−4来优化模型。我们方法中几何配置与物理属性之间的内在相关性产生了一个关键依赖关系：3D表示的结构保真度将影响最终的生成性能。在本文中，我们重新利用TRELLIS $10$ 丰富的几何和外观结构空间来完成我们的任务。我们的PhysXGen在8块NVIDIA A100 GPU上进行训练。关于架构的更多细节将在补充材料中发布。

5.2 评估指标

物理属性评估。我们的框架建立了一个包含五个核心属性的多属性特征空间：绝对尺度、材质、功能可供性、运动学参数和功能描述。需要注意的是，运动学属性表现为双重配置参数：1) 结构分组（父子部件层次结构）和2) 运动学参数。具体而言，我们使用欧氏距离评估绝对尺度，使用峰值信噪比（PSNR）评估密度和功能可供性图，使用实例化距离 $33$ 评估运动学参数，使用余弦相似度分数图的PSNR评估功能描述。

几何评估 。对于外观评估，我们从单位球面上随机采样30个视角来计算平均PSNR。此外，为了评估几何质量，我们计算标准形状指标：倒角距离（CD）（ × 10 − 3 ×10^{-3} ×10−3）和F分数（FS）（ × 10 − 2 ×10^{-2} ×10−2），阈值为0.05。

5.3 定量结果

如表2所示，我们在两类指标上进行了定量评估：1) 几何和外观评估；2) 物理属性评估。需要注意的是，TRELLIS+PhysPre是我们的基线方法，采用独立结构来预测属性。与独立的物理属性预测器相比，我们的PhysXGen利用了物理与预定义3D结构空间之间的相关性，在显著提升物理属性生成性能的同时，还增强了美学质量。

表2：不同方法在我们的PhysXNet测试集上的定量对比。有两种评估类型：结构评估和物理属性评估。PhysPre表示在TRELLIS之后添加的独立物理属性预测器。

表3：关于物理3D VAE和扩散模型的消融研究。Dep-VAE和Dep-Diff分别表示利用结构信息与物理信息之间相互依赖关系的模型。因此，Trellis+PhysPre和PhysXGen分别对应第一行和最后一行。

消融研究。我们框架的核心设计是在3D建模中同时集成几何和物理信息。因此，我们进行了消融研究以验证其有效性（结果见表3）。通过在扩散模型中引入几何和外观特征，与独立模型PhysPre相比，生成模型在物理生成方面获得了提升。此外，VAE中几何与物理之间的相关性可以增强生成资产的几何质量。最终，依靠双架构和联合训练，我们的PhysXGen在所有物理属性生成方面都取得了令人印象深刻的性能。

5.4 定性结果

图5展示了我们的PhysXGen生成的基于物理的3D资产。通过学习物理空间与结构空间之间的相互依赖关系，PhysXGen在生成物理属性方面取得了出色的性能。此外，我们与基线方法进行了定性对比，如图6所示。如前所述，对于绝对尺度，我们使用欧氏距离进行评估，而对于材质图、功能可供性图和功能描述相似度图，我们采用PSNR进行评估。通过利用物理属性与结构信息（尤其是几何信息）之间的相互依赖关系，我们的PhysXGen获得了更高的总体分数。此外，我们的PhysXGen能够区分不同部件的属性，并且在相邻结构的物理属性生成方面（尤其是在功能描述、材质和功能可供性方面）表现出更稳定、更鲁棒的性能。更多实验结果见补充材料。

图5：生成结果的可视化。给定单张图像作为提示，我们的PhysXGen可以生成基于物理的3D资产。

图6：不同方法的定性对比。与我们的基线相比，PhysXGen取得了显著的改进，清晰地展示了其在基于物理的3D生成方面的强大性能。

6. 结论

在本文中，为了填补现有合成3D资产与实际应用之间的差距，我们提出了一种用于基于物理的3D资产生成的端到端生成范式，包括首个基于物理的3D数据集和新颖的物理属性生成器。具体而言，我们开发了一种人在环标注流水线，能够将当前的3D资源库转换为支持物理的数据集。同时，新颖的端到端生成框架PhysXGen能够将物理先验集成到以结构为中心的架构中，实现鲁棒的生成性能。通过在PhysXNet上进行的全面实验，我们揭示了物理3D生成领域的基本挑战和发展方向。我们相信，我们的数据集将吸引不同领域的研究关注，包括但不限于具身智能、机器人和3D视觉。

局限性与未来工作。尽管取得了令人印象深刻的性能，但我们的方法在学习细粒度属性方面存在局限性，并且会产生伪影。在未来的工作中，我们将尝试解决这些问题。此外，我们将纳入更多从合成到真实的3D数据，以提高数据集的多样性，并集成更多的物理属性和运动学类型，以更好地模拟材料行为和运动。

思考

Q1：推理阶段模型除了输出3dgs、rfs、meshes，还会输出什么？

Q2：json、urdf、xml文件有什么作用？

PhysX-3D针对传统3D生成仅聚焦几何与纹理、忽略物理属性导致合成资产无法直接应用于物理仿真与具身AI的核心痛点，同时解决物理标注3D数据集极度稀缺的行业瓶颈，提出了首个端到端的物理驱动3D资产生成范式。

首先构建了包含26K人工标注与6M程序化生成样本的PhysXNet数据集，通过基于部件的人在环标注流水线，实现了绝对尺度、材质、功能可供性、运动学、功能描述五个维度的细粒度物理标注；在此基础上设计双分支解耦的PhysXGen框架，第一阶段训练维度对齐的物理与几何稀疏VAE，将高维特征压缩至统一的8维潜在空间，并通过物理到结构的残差连接优化几何重建质量，第二阶段采用双分支条件流匹配扩散模型，以预训练的强几何先验指导弱物理属性生成，最终可同时输出三角形网格、辐射场、3D高斯溅射三种3D表示，并自动生成JSON、URDF、MuJoCo XML三种工业标准物理描述文件。其核心创新在于首次实现了物理属性与几何结构的联合端到端建模，最大化复用预训练几何先验的同时保证物理-几何一致性，且生成资产无需任何人工后处理即可直接导入仿真平台。

该方法在保持原生几何质量（PSNR从24.31提升至24.53）的前提下，相比基线方法将绝对尺度预测误差降低45%、材质与可供性预测精度分别提升51%与56%，相比基于GPT的流水线在运动学与可供性任务上实现28%-72%的性能提升；训练阶段需8张NVIDIA A100 GPU，推理阶段需单张A800 GPU，1.87b 参数，推理 15.4s，可高效支撑具身AI训练、机器人仿真、数字孪生等下游应用。

7 实现细节

PhysXGen的架构

在本节中，我们将介绍PhysXGen的架构细节和实现规范。为了与已建立的预训练几何空间保持一致，我们的几何解码器保留了文献 $10$ 中的原始超参数配置，以确保预训练权重的有效利用。对于物理处理组件，我们实现了结构对称的编码器-解码器对（详见表4）。值得注意的是，我们的物理生成器采用了精简的Transformer架构，仅包含14个处理块，而非传统的24块配置，从而在保证满意性能的同时降低了计算开销。

表4：主要模块的超参数。

PhysXGen训练的纹理检索

尽管PartNet $6$ 中的3D物体本身缺乏表面纹理数据，但我们从ShapeNet $1$ 中检索了兼容的UV纹理坐标。对于在ShapeNet中没有对应纹理的实例，我们使用灰色作为其纹理信息。

8 人在环标注流水线的细节

在本节中，我们详细介绍了3D标注流水线的技术配置。对于部件感知的几何标注，我们评估了两种不同的方法：基于分割的方法和基于部件的方法。基于分割的方法采用多视图投影渲染来建立2D投影中部件间的空间关系。为了避免渲染图像中数字标签造成的遮挡，我们输入索引图像作为参考。尽管这种方法在宏观结构分析中有效，但在捕捉被遮挡组件和准确解析低于有效像素分辨率阈值的精细几何细节方面存在局限性。

相反，基于部件的范式在被遮挡部件和微小组件的标注中表现出更强的鲁棒性。然而，当处理具有大量部件的复杂装配体时，这种方法会带来可扩展性挑战，因为它需要为每个单独的组件渲染一张独立的图像------随着部件数量的增加，这一过程的成本会急剧上升。

为了避免基于部件的标注的高昂成本，并构建一个鲁棒且高效的标注框架，我们实施了以下预处理流水线：首先，我们通过比例缩放和平移将3D物体的空间坐标归一化到 $-1, 1$ 范围内。随后，我们基于双重标准过滤并合并无关紧要的组件来进行几何简化：面积 a r e a ≤ 0.2 area ≤ 0.2 area≤0.2的表面碎片，或者同时满足面数 c o u n t ≤ 100 count ≤ 100 count≤100且 a r e a ≤ 0.06 area ≤ 0.06 area≤0.06的表面碎片，会被系统地与其拓扑相邻的区域合并。在移除不必要的部件后，我们执行基于部件的标注。

图7展示了两种标注范式的定性对比。基于分割的标注流水线更容易产生不一致的结构解释。一个典型的例子是部件9，它被标注为相对于部件2进行平移运动（标注B），而不是保持预期的刚性连接（标注E）。此外，部件6被标注为可以相对于抽屉底座（部件2、部件10、部件13或部件14）移动，而不是相对于部件9移动。最终，由于其鲁棒性，我们采用了基于部件的标注流水线。此外，我们展示了基于部件标注的系统提示（见清单1）。通过从全局到局部的标注方式，我们可以获得更好的标注结果。

图7：不同标注设置的定性对比。

9 PhysXNet-XL中的程序化生成

为了支持鲁棒且多样化的物理3D生成，我们设计了一套程序化生成规则，旨在合成广泛的物理合理的3D资产。这些规则分为两类：a) 类别内程序化生成和b) 跨类别程序化生成。为了保证程序化生成的性能，我们选择了通常具有相似物理属性的部件。对于a)，我们针对具有结构可变性的物体类别，包括橱柜、桌子、瓶子、水龙头、椅子、烤箱、淋浴、刀具和笔记本电脑。对于b)，我们将抽屉和门识别为模块化组件，可以灵活地集成到不同的物体类型中，以增强组合多样性。

图8展示了我们的程序化生成方法的工作流程。具体而言，我们识别原始物体与目标部件之间的连接区域。为了确保结构和物理一致性，我们调整新组件的尺度，使其与基础结构的几何形状适当对齐。最终，我们的PhysXNet-XL包含超过600万个物理3D物体。我们将在未来的工作中尝试扩展更多类别。

图8：我们的程序化生成方法的工作流程。利用PhysXNet中的程序化生成，我们自动生成了超过600万个物理合理的3D资产，形成了扩展数据集PhysXNet-XL。

（核心思想：所有手动标注的 3D物体都可以拆解为独立的功能部件，这些部件的物理属性（材质、密度、运动学）是通用的。通过将不同物体的同功能部件进行互换组合，可以生成海量外观不同但物理完全正确的新 3D 资产，且不需要任何额外人工标注。）

10 更多实验结果

10.1 与基于GPT的基线的对比

为了评估我们提出的方法PhysXGen在生成基于物理的3D资产方面的能力，我们与一个由Trellis $10$ 、PartField $34$ 和GPT-4o组成的基于GPT的基线流水线进行了全面的定性和定量对比。在该基准框架下，给定输入图像提示，Trellis首先生成具有完整几何和外观表示的带纹理3D网格。这些资产随后由PartField处理以执行细粒度的部件分割，接着是一个基于GPT的物理属性分配模块，为每个识别出的部件预测材质参数和动态属性。

表5：与基于GPT的方法的定量对比。

如表5所示，我们的方法在几何和大多数物理指标上都优于基于GPT的方法。在绝对尺度、材质、运动学和功能可供性四个评估维度上，PhysXGen相比基于GPT的基线表现出显著的性能提升，相对提升幅度分别为24%、64%、28%和72%。在功能描述方面，我们的PhysXGen相比GPT-4o表现出较低的鲁棒性，这主要归因于其在相对较小的数据集（即PhysXNet）上进行训练。此外，我们在图9中可视化了基于GPT的基线和我们的PhysXGen的生成结果。定性评估证明了我们的方法在基于物理的3D资产生成方面，特别是在运动学和功能可供性方面的出色性能。

图9：不同方法的定性对比。与现有方法相比，我们的方法在生成物理3D资产方面取得了鲁棒的性能。

10.2 不同架构之间的定性对比

此外，我们在消融研究中对不同架构进行了定性评估（见图10）。通过在VAE和扩散模型中整合几何与物理之间的相关性，物理属性的生成性能得到了逐步提升。在材质、运动学和功能可供性方面，我们的PhysXGen在确定目标区域时更加稳定和准确，伪影更少。

图10：不同架构的定性对比。

11 基于物理的3D生成的挑战进一步分析

在本节中，我们分析了基于物理的3D资产生成中的新挑战。为清晰起见，我们总结了物理属性生成中的特殊挑战。

绝对尺度 ：我们对PhysXGen的实验结果揭示了绝对尺度预测中的一个限制：传统的归一化策略不足以应对维度分布带来的固有挑战。绝对尺度测量值呈现跨越三个数量级（1-1000 cm）的长尾分布，大多数样本集中在300 cm以下。这种长尾分布使得线性归一化效果不佳，因为它在占主导地位的300 cm以下范围内无法很好地保留相对尺度差异。虽然对数归一化为处理这种跨度提供了一个有吸引力的替代方案，但直接实现会不成比例地压缩大多数物体所在的特征空间（1-300 cm范围），可能会降低这个关键操作范围内的判别能力。图11展示了绝对尺度的误差分布。我们的PhysXGen在生成极大物体时难以保持鲁棒性。

图11：不同物理属性的误差分布。

材质与功能可供性 ：我们的分析进一步发现，材质密度预测（ 0 − 10 g / c m 3 0-10 \ g/cm^3 0−10 g/cm3范围）也存在类似的归一化挑战，尽管由于参数空间受限，其紧迫性低于绝对尺度。然而，一个更关键的限制出现在物理属性一致性方面：如图10所示，功能可供性估计和材质预测都存在空间不一致性伪影。此外，我们在图11中报告了这两个指标的误差分布。从分布图中可以看出，伪影引起的扰动表现为分布中空间上分散的数据点。此外，尽管形态学后处理可以增强生成结果，但相邻区域物理空间的不一致性可能会阻碍基于物理的3D资产生成的进一步改进。

运动学：作为细粒度的物理属性，我们将运动学拆分为多个参数：1) 子部件；2) 父部件；3) 运动类型：A. 无运动约束（如瓶中的水）、B. 棱柱关节（如抽屉）、C. 旋转关节（如笔记本电脑）、D. 铰链关节（如淋浴系统中的软管）、E. 刚性关节；4) 运动学参数，包括旋转/运动方向、旋转轴位置、旋转/运动范围。对于挑战1)和2)，在生成过程中确定部件数量的固有困难使得无法有效实施基于分类的损失。因此，在我们的方法中，采用基于回归的预测无意中在层次部件确定（父子关系）中引入了伪影。更关键的是，3D坐标系与几何结构特征之间缺乏显式映射，增加了构建运动学空间以及插入物理与几何之间相关性的难度，如图11所示。

功能描述：我们的框架利用CLIP $32$ 进行文本嵌入提取，随后通过3D VAE进行降维以建立压缩的潜在空间。这种架构支持所有物理属性的联合学习。然而，CLIP仅编码器架构的不可逆性从根本上限制了嵌入到提示的解耦，从而限制了下游3D语义推理任务的可解释性。同时，与其他物理属性相比，文本嵌入更难学习和生成。如图11所示，归一化功能描述的误差大于其他属性。此外，尽管T5 $35$ 等编码器-解码器基础模型理论上支持解码，但它们的高维嵌入空间为与物理属性进行跨域对齐带来了极高的计算开销。

12 伦理声明

人工标注者伦理问题：本研究中使用的所有标注均由作者完成。未涉及外部参与者，也未收集任何个人或敏感数据。根据我们机构的伦理准则，本研究不构成人类受试者研究，因此无需IRB批准。

数据集许可说明：由于PhysXNet和PhysXNet-XL中的3D数据均源自并修改自PartNet和ShapeNet，用户需遵守ShapeNet的许可条款²。

潜在偏差：尽管我们的数据集PhysXNet提供了一组新的带有丰富物理属性标注的3D物体，但我们承认该数据集可能存在代表性偏差，我们计划在未来的工作中解决这一问题。此外，我们提醒，在未经过严格验证的情况下，不要将我们的方法直接应用于安全关键领域（如自主机器人或医疗设备），因为物理属性预测中的错误或不准确可能导致不良后果。最后，由于部分标注过程涉及视觉语言模型（VLMs），特别是GPT-4o（成本超过1000美元），尽管随后进行了人工验证，数据集标注仍可能反映这些模型固有的偏差。

清单1：基于部件的标注（GPT）的系统提示

你对铰接式物体的结构有很好的理解。你的任务是协助用户分析其属性。具体来说，用户会给你提供部件的图像，你的任务是识别铰接式物体并分析该物体的部件。你应该在现实世界中找到一个相似的物理3D物体。基于人类对它的知识，你应该给出以下信息的答案：

物体级：

(1) 铰接式物体的名称、类别和尺寸（长宽高，单位：厘米）。

部件级：

部件_1（图像_1）：

(1) 部件的标签、名称、材质、密度（单位： g / c m 3 g/cm^3 g/cm3）。

(2) 根据人类使用该物体时的偏好，该部件被触摸的优先级排名。

(3) 所有相邻部件的标签。

(3.1) 为部件_1与其每个相邻部件之间的每组连接分配一种运动类型（A. 仅接触且无运动约束、B. 相对平移运动、C. 绕轴旋转、D. 绕点旋转、E. 刚性约束）。如果运动类型是B、C或D，请输出父部件和子部件。

(3.2) 为部件_1与其每个相邻部件之间的每组连接分配一种运动类型（A. 仅接触且无运动约束、B. 相对平移运动、C. 绕轴旋转、D. 绕点旋转、E. 刚性约束）。如果运动类型是B、C或D，请输出父部件和子部件。

...

(4) 总结基本信息（包括材质、物理尺寸、类别和名称）、功能描述、运动描述以及被抓取的优先级描述。

部件_2（图像_2）：

(1) 部件的标签、名称、材质、密度（单位： g / c m 3 g/cm^3 g/cm3）。

(2) 根据人类使用该物体时的偏好，该部件被触摸的优先级排名。

(3) 所有相邻部件的标签。

(3.1) 为部件_2与其每个相邻部件之间的每组连接分配一种运动类型（A. 仅接触且无运动约束、B. 相对平移运动、C. 绕轴旋转、D. 绕点旋转、E. 刚性约束）。如果运动类型是B、C或D，请输出父部件和子部件。

(3.2) 为部件_2与其每个相邻部件之间的每组连接分配一种运动类型（A. 仅接触且无运动约束、B. 相对平移运动、C. 绕轴旋转、D. 绕点旋转、E. 刚性约束）。如果运动类型是B、C或D，请输出父部件和子部件。

...

(4) 总结基本信息（包括材质、物理尺寸、类别和名称）、功能描述、运动描述以及被抓取的优先级描述。

示例：

json 复制代码

{
  "object_name": "步枪",
  "category": "玩具枪",
  "dimension": "80*10*25",
  "parts": [
    {
      "label": 1,
      "material": "塑料",
      "density": "1.2 g/cm^3",
      "name": "前握把",
      "priority_rank": 2,
      "neighbors": [
        {
          "labels_of_movement_group": "1-8",
          "movement_type": "E"
        }
      ],
      "Basic_description": "这是一把步枪的前握把，由塑料制成。",
      "Functional_description": "它可以控制...",
      "Movement_description": "它通常不能移动...",
      "Grasped_description": "最有可能被抓取或操作。"
    },
    {
      "label": 2,
      "material": "塑料",
      "density": "1.2 g/cm^3",
      "name": "枪托",
      "priority_rank": 5,
      "neighbors": [
        {
          "labels_of_movement_group": "2-8",
          "movement_type": "B",
          "parent_label": 8,
          "child_label": 2
        }
      ],
      "Basic_description": "这是一把归类为枪支的步枪的前握把。它是物体的一个大部件，由塑料制成。",
      "Functional_description": "它可以被抓取以控制物体...",
      "Movement_description": "它通常不能移动...",
      "Grasped_description": "不太可能被抓取。"
    }
  ]
}

注意事项：

(1) 不要回答任何未被问到的问题。

(2) 你应该基于现实世界中的物理3D物体来分析物体的属性和运动。

(3) 你应该纯粹基于其功能来确定部件的运动类型。

(4) 你应该更倾向于将渲染的物体分析为真实的3D物体，而不是玩具模型。

(5) 你应该将被抓取的优先级排名从1分配到10。最有可能被触摸的部件为1。

(6) 你应该根据目标部件的功能而不是面积或名称来确定被抓取的优先级排名。

(7) 目标部件使用红色，其他部件使用灰色。

(8) 你应该输出包含所有部件的完整JSON。