NeurIPS 2025 | 港中文提出COS3D：多模态融合语言与分割，创造开放词汇3D分割新范式！

一、导读

近年来，随着辐射场（radiance field）与三维高斯泼溅（3D Gaussian Splatting, 3D-GS）等三维表示方法的发展，基于二维视觉-语言模型（VLM）的开放词汇三维分割方法逐渐成为研究热点。

现有方法主要分为两类：语言场方法与分割后选择方法。语言场方法如 LangSplat、LEGaussians 等，通过可微分渲染将 CLIP 特征蒸馏至三维语言场中，实现对语言查询的响应，但其语言特征表达能力有限，导致分割边界模糊。分割后选择方法如 OpenGaussian、InstanceGaussian，先进行类无关三维分割，再使用语言模型进行匹配，但分割误差会进一步累积，影响最终性能。

本文指出，现有方法的根本问题在于未能充分利用语言与分割信息之间的互补性：分割信息具有判别性强、边界清晰的特性，而语言信息则提供高层语义理解。

为此，COS3D 提出协同场（collaborative field）概念，将实例场与语言场有机结合，通过双向映射机制在训练与推理阶段实现两者的协同优化，从而在分割质量与训练效率上均取得显著提升。

二、论文基本信息

论文标题：COS3D: Collaborative Open-Vocabulary 3D Segmentation
作者：Runsong Zhu, Ka-Hei Hui, Zhengzhe Liu, Qianyi Wu, Weiliang Tang, Shi Qiu, Pheng-Ann Heng, Chi-Wing Fu
单位：香港中文大学、Autodesk AI Lab、岭南大学、莫纳什大学
会议/期刊：NeurIPS 2025
代码链接：https://github.com/Runsong123/COS3D

点击原文，查看更多NeurIPS 2025论文精读

三、主要贡献与创新

提出 COS3D 框架，首次在开放词汇三维分割任务中引入协同场结构，实现语言与分割信息的深度融合。
设计了一种两阶段训练策略，包括实例场学习与实例到语言（Ins2Lang）映射学习，有效构建语义一致的语言场。
提出自适应语言到实例（Lang2Ins）提示优化机制，在推理阶段利用语言场的三维相关性图引导实例场进行边界感知的分割优化。
在 LeRF 与 ScanNetv2 数据集上取得最优性能，mIoU 分别达到 50.76 与 44.32，显著优于现有方法。
展示了方法在图像引导分割、层次化查询与机器人抓取等实际任务中的广泛应用潜力。

四、研究方法与原理

COS3D 的核心思路是通过构建实例场与语言场之间的双向映射，实现语言与分割信息的协同优化。

在三维高斯泼溅表示基础上，每个高斯点包含位置、尺度、旋转、透明度与颜色。协同场由实例场与语言场组成，分别赋予每个高斯点实例特征与语言特征。

训练阶段采用两阶段策略：首先通过对比学习优化实例场，其损失函数为：

其中为余弦相似度，为实例的特征均值。随后，基于实例特征与 CLIP 语言特征构建映射函数，可采用浅层 MLP 或核回归实现。

推理阶段，给定文本查询，首先通过语言场生成三维相关性图，计算公式为：

随后，通过 Lang2Ins 提示优化机制，基于实例特征的相似性进行局部区域聚合与过滤，最终输出高质量的三维分割结果。

五、实验设计与结果分析

结果在 LeRF 数据集上

在 LeRF 数据集上，COS3D 在 mIoU 与 mAcc 上均显著优于 LangSplat、LEGaussians、OpenGaussian 等基线方法。具体而言，使用核回归版本的 COS3D 在整体 mIoU 上达到 50.76，优于最佳基线 Dr.Splat 的 43.58。在场景如 ficus 与 kitchen 中，mIoU 分别达到 60.03 与 42.10，显示出较强的场景适应能力。

结果在 ScanNetv2 数据集上

在 ScanNetv2 的 10 类查询任务中，COS3D 的 mIoU 达到 44.32，优于 OpenGaussian 的 38.29。在 19 类与 15 类设置下也分别取得 32.47 与 35.95 的 mIoU，进一步验证了其泛化能力。

消融研究

消融实验表明，两阶段训练策略在性能与效率上均优于联合训练与并行训练。Lang2Ins 推理机制相比仅使用语言场或实例场，在 mIoU 上提升约 2--6 个百分点，且仅增加 0.1 秒的推理时间。此外，使用 SAM2 与 SigLIP 等更先进的二维基础模型可进一步提升性能。

应用展示

COS3D 在图像引导分割、层次化查询与机器人抓取等任务中均表现出色。例如，在机器人抓取任务中，其准确的三维分割结果为机械臂提供了可靠的物体定位信息，成功完成抓取操作。

六、论文结论与评价

COS3D 通过构建实例场与语言场的协同机制，在开放词汇三维分割任务中实现了显著的性能提升。其在 LeRF 与 ScanNetv2 数据集上的实验结果表明，该方法在分割质量、训练效率与泛化能力方面均优于现有方法。此外，该方法在图像引导分割、层次化理解与机器人操作等实际任务中展现出广泛的应用前景。

然而，COS3D 仍存在一定局限性：其语言场在处理复杂关系查询或多物体组合语义时表现有限，且目前仅支持离线场景。未来可探索引入更强的关系推理机制，并研究在线学习策略以适用于动态环境。总体而言，COS3D 为三维场景理解提供了一种有效的协同建模范式，具有重要的理论价值与实际意义。

点击原文，查看更多NeurIPS 2025论文精读