腾讯混元P3-SAM: Native 3D Part Segmentation

文章目录

  • [0. 论文项目地址](#0. 论文项目地址)
  • [1. 论文题目与研究方向](#1. 论文题目与研究方向)
  • [2. 主要研究问题(研究动机)](#2. 主要研究问题(研究动机))
  • [3. 方法概述(技术路线、模型或实验方法)](#3. 方法概述(技术路线、模型或实验方法))
  • [4. 主要结果与结论](#4. 主要结果与结论)
  • [5. 创新点与贡献](#5. 创新点与贡献)
  • [6. 存在的不足或局限性](#6. 存在的不足或局限性)

0. 论文项目地址

论文:https://arxiv.org/pdf/2509.06784

Github: https://murcherful.github.io/P3-SAM/

1. 论文题目与研究方向

题目: P3-SAM: Native 3D Part Segmentation

Point-Promptable Part Segmentation Model 点提示式部件分割模型

研究方向: 三维(3D)形状的部件级分割(part segmentation) ,重点在于从原生3D数据中实现自动化、无类别约束、可交互的部件分割


2. 主要研究问题(研究动机)

现有3D分割方法存在以下问题:

  • 依赖预定义类别标签 ,无法泛化到任意形状或任意部件。

  • 使用2D模型迁移至3D(2D lifting)时存在显著的域差距 与三维一致性问题,鲁棒性差。

    SAMesh 示意图(2D-3D 方案)

    SAMPart3D(Yang 等人,2024)使用 SAM 对点云投影特征进行分割,然后是利用多模态大模型对部件标注。

    Point-SAM(Zhou 等人,2024)将 SAM 适配到三维点云,并利用 SAM 基于多视图图像设计了一个数据引擎,使用二维数据引擎基于提示点实现部件分割,是 p3-sam 的在主要灵感来源。

  • 多数方法仍需人工输入提示点或部件数量 ,无法实现全自动分割。

研究动机:构建一个原生3D端到端模型 ,仅基于三维点云数据即可自动完成复杂物体的部件分割,同时保持可交互性与高精度。


3. 方法概述(技术路线、模型或实验方法)

(1)总体框架:P3-SAM

  • 核心思想: 借鉴 2D Segment Anything Model (SAM),提出Point-Promptable 3D Segmentation Model

    • P3 - SAM 简化了 SAM 的体系结构。没有采用 SAM 中复杂的分割解码器和多种类型的提示,模型只处理一个正点提示。具体来说,P3 - SAM 包含一个特征提取器,三个分割头和一个 IoU 预测头。
    • 跟SAM一样,创建了一个迄今最大最全的 3D 分割数据集,模型拥有全自动标注流水线,并且用标注进行训练,实现数据-标注循环
  • 主要成果:

    • 提出了一种原生的点提示零件分割模型,不再依赖标签数据
    • 构建全自动分割流水线
    • 使用 3D 点云进行训练,没有 2D 转 3D 的三维一致性问题,精度、鲁棒性更高
  • 输入:三维网格或点云(Point Cloud)+ 单个提示点。

  • 输出:多个多尺度掩膜(mask)及最佳预测的部件分割结果。

(2)模型结构

由三部分组成(见下图 ):

  1. 特征提取器:使用 PointTransformerV3(Sonata)提取多尺度点特征。并使用共享参数的 MLP Fe 处理融合后的多尺度特征,从而增强特征的表达能力。

  2. 两阶段多头分割器(Two-Stage Multi-Head Segmentor)

    • 第一阶段:生成三种尺度的掩膜。
      此时没有全局特征,因此作为中间结果与输入特征图融合后再与全局特征融合,作为第二阶段的输入。
      第一阶段的输入是 fin,输出是 m1, fin 与 m1 融合得到f(1), 再经过 MLPfg 和最大池化得到 fg。
    • 第二阶段:融合全局特征优化结果,提升边界与结构一致性。
      第二阶段的输入是 f (1) 与 fg 的融合,输出为 m2
  3. IoU预测器:自动评估三组掩膜质量,选择最优结果。

(3)自动化分割算法

  • 使用 Farthest Point Sampling (FPS) 生成候选提示点。

  • 模型对每个提示点预测掩膜与IoU分数。

  • 使用NMS(Non-Maximum Suppression,非极大值抑制)去重合并掩膜。

  • 最终通过**投票与洪泛填充(flood fill)**获得完整部件标注。

(4) 训练数据与策略

  • 构建了一个原生3D部件数据集(约3.7百万模型),来自 Objaverse、ShapeNet、PartNet 等。

  • 通过自动标注管线生成部件掩膜,并将部分模型修复为 watertight。

watertight

在 3D 建模、CAD 或三维网格(mesh)相关场景中,"watertight" 特指模型是 完全封闭的、无孔洞或缝隙的连续表面

这种模型的特点是:1. 所有边缘都被两个面共享(无 "悬边");2. 没有缺失的面或未封闭的开口;3. 能形成一个 "密闭体积"(如一个完整的球体、立方体)。

  • 采用 Dice 损失+ Focal 损失结合IoU监督进行优化。

    Dice 是重叠度特化损失, 解决类别不平衡 问题

    Focal loss 是难度权重特化损失,解决难样本挖掘问题

  • 引入随机噪声(概率提供噪声点提示)、法向扰动(概率不提供法向量)、混合封闭性数据和非封闭性数据等数据增强提升鲁棒性。


4. 主要结果与结论

  • PartObj-Tiny、PartObj-Tiny-WT、PartNetE 等基准上,P3-SAM在三种任务 (全分割、有/无连接约束、交互式分割)中均取得SOTA性能

    • 平均 mIoU 达到 59.9%~81.1%(显著优于 Find3D、PartField、Point-SAM 等)。
  • 实验验证:

    • 对复杂几何结构(如动物、交通工具、植物等)表现稳定。

    • 对 watertight 与非 watertight 模型均具备强泛化性。

  • 支持多种下游应用:

    • 自动/多提示点分割、层次化分割(Hierarchical Segmentation)、3D部件生成(Part Generation)。

结论: P3-SAM 实现了真正意义上的原生3D自动部件分割,在准确度、泛化性与实时性上均达到领先水平。


5. 创新点与贡献

  1. 首个原生3D点提示可分割模型(Point-Promptable 3D SAM),摆脱2D依赖。

  2. 两阶段多头掩膜结构 + IoU预测器,实现多尺度精细分割与自动掩膜选择。

  3. 全自动3D部件分割算法(FPS + NMS + Flood Fill)。

  4. 超大规模原生3D部件数据集(3.7M模型),具高质量掩膜标签。

  5. 可扩展、多任务能力:支持交互式、层次式、生成式任务。


6. 存在的不足或局限性

  • 模型过度依赖几何表面信息,缺乏对三维空间体积的理解。

  • 训练数据均为表面点云,无法捕获体积一致性(volumetric consistency)

  • 尚未充分结合语义信息或文本提示

  • 对极端复杂或纹理模糊的模型仍可能出现过分割或漏分割

  • 高精度训练需要大量GPU资源(训练约4天,64×H20 GPU)。


相关推荐
渊鱼L2 小时前
CAD多面体密堆积_圆柱体试件3D V1.1版本更新
3d
im_AMBER3 小时前
数据结构 05 栈和队列
数据结构·笔记·学习
报错小能手3 小时前
linux学习笔记(31)网络编程——TCP time_wait机制
linux·笔记·学习
Yupureki4 小时前
从零开始的C++学习生活 7:vector的入门使用
c语言·c++·学习·visual studio
i学长的猫4 小时前
Ruby小白学习路线
开发语言·学习·ruby
送秋三十五4 小时前
Docker 构建教程:学习上下文、架构和性能优化技术
学习·docker·架构
Dave.B4 小时前
vtkTubeFilter:让2D线条变3D管子,搞定流场可视化与3D建模线条加粗
3d·vtk
思成不止于此4 小时前
软考中级软件设计师备考指南(四):I/O 技术、安全与可靠性 —— 综合应用篇
网络·笔记·学习·信息安全·总线系统·i/o 技术·可靠性计算
Dave.B5 小时前
【VTK实战】vtkDepthImageToPointCloud:从2D深度图到3D点云,手把手教你落地3D扫描/AR场景
算法·计算机视觉·3d·ar·vtk