MagicArticulate: Make Your 3D Models Articulation-Ready 论文解读

基于VLM过滤：由于经过初步过滤还有一些无法评定的骨骼（如下图），所以进行基于VLM的过滤。基于VLM从四个角度来渲染每个对象的skeleton，并利用GPT-4o根据特定标准评估骨架质量（比如该骨骼是否合理），之后使用Pyrended4形成了四视图渲染、3D模型以及骨架。形成了Articulation-XL。其中每个模型的骨骼数量在2-100，关节数3-101个。

类别标注：利用了一个VLM进行类别标注，人类相关的最多。

2、父子层级关系

根据自动化骨骼生成工具进行初步生成，比如选择几何中心为根关节，利用最小生成树/层次聚类方法来确定父子关节。

另外通过VLM来进行过滤，如果VLM判定层次不合理，则重新进行骨骼标注。

还可以加以物理仿真，测试是否存在网格变形异常（撕裂或者穿透），来判定层次存在问题。

注意Articulation-XL数据集中没有蒙皮权重，是后面预测的。

三、MagicArticulate

1、自回归骨架生成

相较于以往的固定模版的方法，MagicArticulate使用一个自回归生成框架来处理3D对象的固有结构多样性。

那为什么要建立上面的数据集呢，当然是与自回归生成的skeleton进行比较啦，做损失函数用的。

目的：根据一个3D mesh生成skeleton。骨架由两个部分组成，一组关节定义空间位置，骨连接决定拓扑结构，就是骨骼上的点和线，最终得到一个条件概率。

自回归网络原理如下：

（1）利用rodin Gen1生成3D mesh作为输入，利用点云编码器（PointNet++）提取3D模型的点云信息（全局特征，作为骨骼的条件），一共采样8192个点。

在这一部分论文提到了MeshAnything和MeshAnythingv2模型，前者是文本/图像生成3D网格的框架，结合了扩散模型和可微渲染技术，后者在其基础上，支持更复杂的网格编辑和细节生成。

（2）利用Shape Encoder（论文中用的是Michelangelo预训练的encoder模型，很多模型都是encoder+transformer的也合理）将原始三维点云转换为适合transformer处理的固定长度的shape token部分，用于后续自回归的生成，最后接一个【BOS】作为结尾。

（3）骨骼结构序列化

对Articulation-XL数据集中的骨骼进行标记化，每一个skeleton标记成一个序列，每一个骨骼由两个连接的关节定义（6个坐标，两组xyz）。

标记过程：为了保证一致和离散的表示，将输入mesh和相应的skeleton缩放并转换成一个单位cube $-0.5,0.5$ ^3，来确保空间对齐，之后将归一化的关节坐标映射到128^3的空间中（就是放大数值），从而得到一共b个skeleton总共序列长度为6b。

层次标记顺序：按照层次顺序（前序遍历）将关节排列为序列。

坐标顺序：对于每一个关节的空间坐标按照z-y-x升序排序。

将骨骼标记后，作为自回归的transformer的输入**skeleton token部分，**最后接一个【EOS】作为结尾。

下图Hierachical sequence ordering第二列为实际的标记方式，即从根节点往子节点放射式标记。