PhysX-Anything:从单张图像创建可用于模拟的物理 3D 资源

25年11月来自南洋理工和上海AI实验室的论文"PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image"。

3D建模正从静态视觉表示转向可直接用于仿真和交互的物理、可活动的资产。然而,大多数现有的3D生成方法忽略关键的物理和关节属性,从而限制它们在具身人工智能中的应用。为了弥补这一差距,PhysX-Anything,是一个可用于仿真的物理3D生成框架。它只需一张自然场景图像,即可生成具有明确几何形状、关节和物理属性的高质量仿真就绪3D资产。具体而言,提出一个基于VLM的物理3D生成模型,以及一种能够高效token化几何形状的新型3D表示方法。该方法将token数量减少193倍,使得在标准VLM token 预算内即可进行显式几何学习,而无需在微调过程中引入任何特殊tokens,并显著提高了生成质量。此外,为了克服现有物理3D数据集多样性不足的问题,构建一个数据集PhysX-Mobility,其目标类别比之前的物理3D数据集扩展2倍以上,并包含超过2000个带有丰富物理标注的常见真实世界目标。在PhysX-Mobility和真实场景图像上进行的大量实验表明,PhysX-Anything具有强大的生成性能和鲁棒的泛化能力。


在机器人、具身智能和交互式仿真等众多下游应用中,对可直接在仿真器中运行的高质量物理三维模型的需求日益增长。然而,现有的大多数三维生成方法要么侧重于全局三维几何形状和视觉外观[10, 12, 14, 26, 28, 31],要么侧重于对目标层级和细粒度结构进行建模的部件-觉察生成[30, 33]。尽管这些方法在视觉效果上令人印象深刻,但生成的模型通常缺乏必要的物理和关节信息,例如密度、绝对比例和关节约束,这与实际应用存在巨大差距,使得这些模型难以直接部署到仿真器或物理引擎中。

与此同时,一些研究工作开始探索关节/铰接目标的生成[11, 16, 20, 21]。然而,由于大规模高质量标注3D数据集的匮乏,许多此类方法采用基于检索的范式:它们检索现有的3D模型并赋予其合理的运动,而不是合成全新的、符合物理规律的模型。因此,它们仅提供有限的关节信息,对实际场景图像的泛化能力较差,并且仍然缺乏真实模拟所需的物理属性。尽管先前的研究尝试学习3D模型的形变行为[7, 8, 15, 17],但它们通常假设模型是均质材料,或者忽略一些必要的物理属性。即使是能够直接生成物理3D模型的PhysXGen[3],目前也尚不支持在标准模拟器或物理引擎中即插即用[25, 27],从而限制其在下游具身智能和控制任务中的实际应用。

如图所示PhysX-Anything 概述。PhysX-Anything 通过多轮交互生成物理模型,该模型包含整体信息(左图)和每个部件的详细几何信息(右图)。解码此模型即可生成高质量、可用于仿真的 3D 模型,这些模型具有明确的物理属性,可直接用于下游应用程序。

PhysX-Anything 的详细范式采用一种由全局到局部的流程。具体来说,给定一张真实世界的图像,PhysX-Anything 会进行多轮交互,依次生成整体物理描述和每个部分的几何信息。为了避免因提示信息过长而导致的上下文遗忘,在生成每个部分的几何信息时仅保留整体信息。换句话说,不同部分的几何描述是独立生成的,仅基于共享的整体信息。最后,通过解码物理表示,PhysX-Anything 可以输出六种常用格式的可用于仿真的物理 3D 模型。

物理表示

以往,为了减少VLM框架中原始3D网格的token长度,大多数3D生成方法[12, 26]采用基于顶点量化(vertex quantization)的文本序列化表示。然而,由此产生的token序列仍然过长。尽管3D VQ-GAN[31]可以进一步压缩几何tokens,但它需要在微调过程中引入额外的特殊token和定制的 token化器,这使得训练和部署变得复杂。

为了解决这些限制,提出一种3D表示方法,该方法在保留显式几何结构的同时,显著减少token长度,且无需引入任何额外的token化器。受基于体素的表示方法在保真度和效率之间取得显著平衡[28]的启发,本文基于体素构建表示。然而,即使将几何映射到压缩空间后,直接编码高分辨率体素仍然会产生VLM无法承受的token数量。因此,采用由粗到精的几何建模策略:VLM 在 323 体素网格上进行操作以捕获粗略几何形状,而下游解码器则将该粗略形状细化为高保真几何形状。这样既保留 3D 体素的显式结构优势,又避免了过度消耗tokens。如图所示,仅将网格转换为粗体素即可将token数量减少 74 倍。为了进一步消除稀疏体素数据中的冗余,将 323 网格线性化为从 0 到 323 - 1 的索引,并仅序列化已占用的体素。最后,通过合并相邻的已占用索引并用连字符"-"连接连续范围,在保持显式几何结构的同时,实现了更高的token压缩率(193 倍)。

对于整体信息,采用一种树状结构的、对 VLM 友好的表示方法,该方法遵循 [3]。与标准URDF文件相比,采用的JSON格式提供更丰富的物理属性和文本描述,从而有助于VLM的理解和推理。此外,为了保持运动学结构和几何形状的一致性,将关键的运动学参数(包括运动方向、轴位置、运动范围和相关的关节属性)转换到体素空间。

VLM与物理表示解码器

基于上述物理3D资产表示方法,采用Qwen2.5 [1] 作为基础模型,并针对物理3D数据集对VLM进行微调。通过定制的多轮交互,PhysX-Anything能够生成高质量的全局描述(整体物理和结构属性)以及局部信息(部件级几何形状)。为了获得更精细的几何形状,进一步设计一个受ControlNet [32] 启发的可控流transformer。基于流transformer架构 [28],引入一个基于transformer的控制模块,该模块以粗粒度体素表示作为扩散模型的指导,从而引导细粒度体素几何形状的合成,如图所示。因此,可控流transformer的训练目标 L_geo 被定义,其中 Vlow、x_0、ε、c、t 和 f_θ 分别表示粗体素表示、细粒度体素目标、高斯噪声、图像条件、时间步长以及由 θ 参数化的可控流transformer。噪声样本 x_t 通过在 x_0 和 ε 之间插值得到,即 x_t = (1−t)x_0 + tε。

基于精细的体素表示,采用预训练的结构化潜扩散模型[28]生成3D资源,包括网格表面、辐射场和3D高斯场。然后,应用最近邻算法,根据体素分配情况,将重建的网格分割成部件级组件。最后,通过将全局结构信息与精细的体素几何信息相结合,PhysX-Anything可以生成URDF、XML和部件级网格,用于生成可用于仿真的物理3D模型。

相关推荐
高洁016 小时前
智能体大模型时代的AI革新者
人工智能·深度学习·算法·机器学习·django
CoovallyAIHub6 小时前
震后如何快速评估上万栋建筑?俄亥俄州立大学提出混合智能检测方案
深度学习·算法·计算机视觉
JoannaJuanCV6 小时前
自动驾驶—CARLA仿真(8)tutorial demo
人工智能·机器学习·自动驾驶
Sui_Network6 小时前
Sui 主网升级至 V1.61.2
大数据·前端·人工智能·深度学习·区块链
JoannaJuanCV6 小时前
自动驾驶—CARLA仿真(11)bounding_boxes demo
人工智能·机器学习·自动驾驶·carla
m0_650108246 小时前
DETR:基于 Transformer 的端到端目标检测
论文阅读·深度学习·目标检测·transformer·全局建模 + 直接集合预测”·betr
神算大模型APi--天枢6466 小时前
自主算力筑基 垂域模型破局:国产硬件架构下的行业大模型训练与微调服务实践
大数据·人工智能·深度学习·架构·硬件架构
双翌视觉6 小时前
AI深度学习如何重塑机器视觉系统的大脑?
人工智能·深度学习
张哈大6 小时前
读懂大模型核心:Transformer 与 AI 发展的底层逻辑
java·神经网络·机器学习