上海 AI Lab联合发布无需人工标注的TrackRef3D：全自动3D指代分割，mIoU达38.8领跑SOTA

导读

在3D场景中，让AI根据自然语言"把那个红色的马克杯"分割出对应物体，是具身智能的关键能力。然而现有方法需要昂贵的每场景人工标注，且不同视角生成的伪标签相互矛盾，导致模型训练不稳定。

本文提出的TrackRef3D首次实现全自动、无需人工标注的开放世界3D指代分割，通过轨迹感知语义共识模块（TSCM）将多视角预测聚合成一致的规范语义身份，并利用混合训练策略（HTS）联合优化粗粒度类别语义和细粒度指代线索。在Ref-LERF基准上，TrackRef3D以38.8 mIoU超越此前SOTA（29.2）达9.6个百分点；在LERF-OVS上达到63.2 mIoU，在3D-OVS上达到95.2 mIoU。该方法为零样本、跨视角一致的3D场景理解提供了全新范式。

文章信息

标题：TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting

作者：Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan
机构：华东师范大学、上海人工智能实验室、电子科技大学

一、背景与挑战：3D指代分割的"昂贵标注"与"视角矛盾"

**指代3D高斯泼溅（R3DGS）**旨在通过自然语言从3D场景中分割出目标物体，即使该物体在新视角下被遮挡或不可见。这对于机器人导航和自动驾驶至关重要。然而现有方法（如ReferSplat）存在三大瓶颈：

昂贵的人工标注：每个场景都需要人工标注类别标签和指代描述，无法规模化部署。
多视角不一致：利用2D基础模型逐视图生成伪掩码时，由于遮挡和领域特定词汇，同一物体在不同视角下可能得到互相矛盾的标签（例如一碗拉面在一张图中被标为"ramen"，另一张图中却被标为"bowl"）。
长查询过拟合：训练时过度依赖长描述，导致模型对用户常用的短查询泛化能力差。

本文提出的TrackRef3D 通过"追踪-标记"范式，将物体发现与语义对齐解耦，完全自动化地生成多视角一致的监督信号，并利用混合训练策略同时适应长短查询。

二、方法：全自动的追踪-标记管道

2.1 整体架构（原文图3）

TrackRef3D包含三个阶段：

初始物体发现：利用Florence-2进行开放词汇目标检测，再用SAM-2生成逐视图像素级掩码。保留所有预测，不提前过滤不一致。
轨迹感知语义共识模块（TSCM）：通过视频追踪将同一物体的掩码关联成轨迹，再通过同义词聚类和轨迹内投票确定该物体的规范语义身份，并基于可见性分数选择最佳关键帧生成指代描述。
混合训练策略（HTS）：将规范类别语义和生成的指代描述同时作为正样本，使用多正例对比损失训练语言嵌入的3D高斯场。

图片来源于原论文

2.2 轨迹感知语义共识模块（TSCM）

视频追踪：使用DEVA追踪器将逐视图掩码关联成轨迹，得到每个物体的跨视图轨迹 (T_i)。
同义词聚类：对轨迹内所有预测标签的文本嵌入进行层次聚类（余弦距离阈值 (\tau_{\text{rem}}=0.85)），将同义标签（如"ramen"和"bowl"如果语义相近）合并为一个簇，并选取最短表面形式作为簇身份。
轨迹内投票 ：对每个轨迹，统计各簇身份的出现频率，选取得票最多的作为该轨迹的规范语义身份(c_i^*)，并传播到轨迹内所有视图，确保跨视图标签完全一致。
描述生成 ：为避免从遮挡视图生成模糊描述，设计可见性得分，选择中等面积（不特别大也不特别小）的关键帧，再用CogVLM2生成指代描述。

2.3 混合训练策略（HTS）

将轨迹的规范语义标签和生成的指代描述都视为同一物体的正样本，使用多正例对比损失：

其中包含所有与该物体相关的正描述（类别名+指代描述），是批内所有描述（作为负样本）。此损失迫使同一物体的3D高斯嵌入与所有相关文本描述（无论长短）都保持高相似度，从而提升对短查询的泛化能力。

总损失，其中为渲染掩码与TSCM伪掩码的二元交叉熵。

三、实验结果

3.1 基准与指标

Ref-LERF：4个真实场景，人工标注指代描述，评估mIoU。
LERF-OVS / 3D-OVS：开放词汇基准，使用类别名查询。
自采实验室场景：1033视图训练，10视图测试，人工标注2D掩码作为真值。

图片来源于原论文

3.2 主要结果（Ref-LERF）

方法	Ramen	Figurines	Teaware	Kitchen	平均
SPIn-NeRF	7.3	9.7	11.7	10.3	9.8
LangSplat	12.0	17.9	7.6	17.9	13.9
GS-Grouping	27.9	8.6	14.8	6.3	14.4
Grounded SAM	14.1	16.0	16.9	16.2	15.8
GOI	27.1	16.5	22.9	15.7	20.5
ReferSplat	35.2	25.7	31.3	24.4	29.2
TrackRef3D	45.7	34.2	41.7	33.6	38.8

TrackRef3D平均提升9.6个百分点。

3.3 自采实验室场景

方法	指代查询	语义查询
GS-Grouping	28.9	36.1
LangSplat	13.6	41.2
ReferSplat	37.4	24.4
TrackRef3D	48.5	68.3

3.4 LERF-OVS 和 3D-OVS 基准

方法	LERF-OVS平均	3D-OVS平均
Feature-3DGS	45.7	87.8
GS-Grouping	46.3	87.7
GOI	50.6	90.6
LangSplat	51.4	93.4
ReferSplat	55.4	94.1
TrackRef3D	63.2	95.2

四、消融与深度分析

4.1 模块贡献消融（Ref-LERF）

配置	TSCM	HTS	Ramen	Kitchen
Baseline	×	×	35.2	24.4
+TSCM	✓	×	39.4	29.1
+HTS	×	✓	37.7	26.3
完整	✓	✓	45.7	33.6

4.2 TSCM各组件分解

配置	Ramen	Kitchen
Baseline	35.2	24.4
(A) Florence-2+SAM-2	23.1	13.7
(B) (A)+追踪	23.1	13.7
(C) (B)+仅聚类	31.7	22.8
(D) (B)+仅投票	39.3	27.1
完整TSCM	45.7	33.6

4.3 同义词聚类阈值敏感性

	Ramen	Kitchen
0.70	29.6	20.4
0.75	33.1	24.7
0.80	39.5	28.4
0.85	45.7	33.6
0.90	41.3	28.5

4.4 描述生成关键帧选择

策略	Ramen	Kitchen
最大面积	19.4	12.0
最小面积	23.1	16.3
随机	35.9	26.4
中位数	40.3	29.2
权重(σ=50)	39.8	29.4
权重(σ=100)	45.7	33.6
权重(σ=125)	43.6	31.3

五、总结与展望

核心贡献：

首个全自动开放世界3D指代分割管道：无需人工标注，仅需多视图RGB图像和重建的3D高斯场景。
轨迹感知语义共识模块（TSCM）：通过追踪、同义词聚类和轨迹内投票，彻底解决多视角伪标签不一致问题。
混合训练策略（HTS）：将类别语义和指代描述同时作为正样本，用多正例对比损失训练，显著提升对短查询的泛化能力。
SOTA性能：在Ref-LERF上平均mIoU 38.8（+9.6），实验室场景指代48.5、语义68.3，LERF-OVS 63.2，3D-OVS 95.2。

局限与未来方向：

描述生成质量受限于VLM在特定场景下的表现，极端小物体或罕见外观生成描述可能不准确。
当前仅在中等规模场景验证，更大规模、更动态的环境需进一步测试。

TrackRef3D为实现零标注、跨视角一致的3D场景理解提供了可落地的技术路径，有望推动具身智能在真实世界的部署。