腾讯混元P3-SAM: Native 3D Part Segmentation

fanstering2025-10-15 11:08

文章目录

[0. 论文项目地址](#0. 论文项目地址)
[1. 论文题目与研究方向](#1. 论文题目与研究方向)
[2. 主要研究问题（研究动机）](#2. 主要研究问题（研究动机）)
[3. 方法概述（技术路线、模型或实验方法）](#3. 方法概述（技术路线、模型或实验方法）)
- (1)总体框架：P3-SAM
- (2)模型结构
- (3)自动化分割算法
- [(4) 训练数据与策略](#(4) 训练数据与策略)
[4. 主要结果与结论](#4. 主要结果与结论)
[5. 创新点与贡献](#5. 创新点与贡献)
[6. 存在的不足或局限性](#6. 存在的不足或局限性)

0. 论文项目地址

论文：https://arxiv.org/pdf/2509.06784

Github: https://murcherful.github.io/P3-SAM/

1. 论文题目与研究方向

题目： P³-SAM: Native 3D Part Segmentation

Point-Promptable Part Segmentation Model 点提示式部件分割模型

研究方向： 三维（3D）形状的部件级分割（part segmentation） ，重点在于从原生3D数据中实现自动化、无类别约束、可交互的部件分割。

2. 主要研究问题（研究动机）

现有3D分割方法存在以下问题：

依赖预定义类别标签 ，无法泛化到任意形状或任意部件。
使用2D模型迁移至3D（2D lifting）时存在显著的域差距 与三维一致性问题，鲁棒性差。

SAMesh 示意图（2D-3D 方案）

SAMPart3D（Yang 等人，2024）使用 SAM 对点云投影特征进行分割，然后是利用多模态大模型对部件标注。

Point-SAM（Zhou 等人，2024）将 SAM 适配到三维点云，并利用 SAM 基于多视图图像设计了一个数据引擎，使用二维数据引擎基于提示点实现部件分割，是 p3-sam 的在主要灵感来源。
多数方法仍需人工输入提示点或部件数量 ，无法实现全自动分割。

研究动机：构建一个原生3D端到端模型 ，仅基于三维点云数据即可自动完成复杂物体的部件分割，同时保持可交互性与高精度。

3. 方法概述（技术路线、模型或实验方法）

(1)总体框架：P3-SAM

核心思想： 借鉴 2D Segment Anything Model (SAM)，提出Point-Promptable 3D Segmentation Model。
- P3 - SAM 简化了 SAM 的体系结构。没有采用 SAM 中复杂的分割解码器和多种类型的提示，模型只处理一个正点提示。具体来说，P3 - SAM 包含一个特征提取器，三个分割头和一个 IoU 预测头。
- 跟SAM一样，创建了一个迄今最大最全的 3D 分割数据集，模型拥有全自动标注流水线，并且用标注进行训练，实现数据-标注循环
主要成果：
- 提出了一种原生的点提示零件分割模型，不再依赖标签数据
- 构建全自动分割流水线
- 使用 3D 点云进行训练，没有 2D 转 3D 的三维一致性问题，精度、鲁棒性更高
输入：三维网格或点云（Point Cloud）+ 单个提示点。
输出：多个多尺度掩膜（mask）及最佳预测的部件分割结果。

(2)模型结构

由三部分组成（见下图）：

特征提取器：使用 PointTransformerV3（Sonata）提取多尺度点特征。并使用共享参数的 MLP Fe 处理融合后的多尺度特征，从而增强特征的表达能力。
两阶段多头分割器（Two-Stage Multi-Head Segmentor）：
- 第一阶段：生成三种尺度的掩膜。
  此时没有全局特征，因此作为中间结果与输入特征图融合后再与全局特征融合，作为第二阶段的输入。
  第一阶段的输入是 fin，输出是 m1, fin 与 m1 融合得到f(1), 再经过 MLPfg 和最大池化得到 fg。
- 第二阶段：融合全局特征优化结果，提升边界与结构一致性。
  第二阶段的输入是 f (1) 与 fg 的融合，输出为 m2
IoU预测器：自动评估三组掩膜质量，选择最优结果。

(3)自动化分割算法

使用 Farthest Point Sampling (FPS) 生成候选提示点。
模型对每个提示点预测掩膜与IoU分数。
使用NMS（Non-Maximum Suppression,非极大值抑制)去重合并掩膜。
最终通过**投票与洪泛填充（flood fill）**获得完整部件标注。

(4) 训练数据与策略

构建了一个原生3D部件数据集（约3.7百万模型），来自 Objaverse、ShapeNet、PartNet 等。
通过自动标注管线生成部件掩膜，并将部分模型修复为 watertight。

watertight

在 3D 建模、CAD 或三维网格（mesh）相关场景中，"watertight" 特指模型是 完全封闭的、无孔洞或缝隙的连续表面 。

这种模型的特点是：1. 所有边缘都被两个面共享（无 "悬边"）；2. 没有缺失的面或未封闭的开口；3. 能形成一个 "密闭体积"（如一个完整的球体、立方体）。

采用 Dice 损失+ Focal 损失结合IoU监督进行优化。

Dice 是重叠度特化损失, 解决类别不平衡 问题

Focal loss 是难度权重特化损失，解决难样本挖掘问题
引入随机噪声（概率提供噪声点提示）、法向扰动(概率不提供法向量)、混合封闭性数据和非封闭性数据等数据增强提升鲁棒性。

4. 主要结果与结论

在 PartObj-Tiny、PartObj-Tiny-WT、PartNetE 等基准上，P3-SAM在三种任务 （全分割、有/无连接约束、交互式分割）中均取得SOTA性能：
- 平均 mIoU 达到 59.9%~81.1%（显著优于 Find3D、PartField、Point-SAM 等）。
实验验证：
- 对复杂几何结构（如动物、交通工具、植物等）表现稳定。
- 对 watertight 与非 watertight 模型均具备强泛化性。
支持多种下游应用：
- 自动/多提示点分割、层次化分割（Hierarchical Segmentation）、3D部件生成（Part Generation）。

结论： P3-SAM 实现了真正意义上的原生3D自动部件分割，在准确度、泛化性与实时性上均达到领先水平。

5. 创新点与贡献

首个原生3D点提示可分割模型（Point-Promptable 3D SAM），摆脱2D依赖。
两阶段多头掩膜结构 + IoU预测器，实现多尺度精细分割与自动掩膜选择。
全自动3D部件分割算法（FPS + NMS + Flood Fill）。
超大规模原生3D部件数据集（3.7M模型），具高质量掩膜标签。
可扩展、多任务能力：支持交互式、层次式、生成式任务。

6. 存在的不足或局限性

模型过度依赖几何表面信息，缺乏对三维空间体积的理解。
训练数据均为表面点云，无法捕获体积一致性（volumetric consistency）。
尚未充分结合语义信息或文本提示。
对极端复杂或纹理模糊的模型仍可能出现过分割或漏分割。
高精度训练需要大量GPU资源（训练约4天，64×H20 GPU）。

上一篇：iOS 26 UIKit和Swift上的更新

下一篇：云手机流畅运行

热门推荐

01GitHub 镜像站点 02安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）03Linux下V2Ray安装配置指南 04Labelme从安装到标注：零基础完整指南 05手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！06【踩坑笔记】50系显卡适配的 PyTorch 安装 07jdk21下载、安装（Windows、Linux、macOS）08GitLab 零基础入门指南：从安装到项目管理全流程 09UV安装并设置国内源 102025-04-03 Latex学习1——本地配置Latex + VScode环境