LangSplat和3D language fields简略介绍

LangSplat: 3D Language Gaussian Splatting

相关技术拆分解释：
- 3dgs：伟大无需多言
- SAM：The Segment Anything Model，是图像分割领域的foundational model，已经用在很多视觉任务上（如图像修复、物体追踪、图像编辑等），以及用在3D领域中，后者相关工作如：
  - Seal：将包含SAM的VFMs用于点云分割
  - SA3D：将SAM泛化到3D物体
  - 本篇：使用SAM得到物体掩码以及3个hierarchical semantics，进而训练一个3D language field
- 3D Language Fields：能够使用语言与三维世界进行交互和查询的模型
LangSplat的framework图：

输入从不同角度获取的同一场景的图像集，SAM基于输入的多视角图像生成层次化语义（Hierarchical Semantics），然后这些分割的掩码图会输入CLIP（视觉语言模型），使得图像和文本特征对齐、输出图像对应的language embeddings。为了降低内存成本，先会将这些高维embeddings压缩到低维空间，然后三维语言高斯模型学习这些低维的language embeddings，并反复执行渲染、监督的迭代过程。训练完成后，模型中的每个高斯点都包含了与language embedding相关的特征，并能够支持三维场景语言查询
- SAM将图像分割成三个语义层次：Whole（整个玩具熊）、Part（玩具熊的头）、Subpart（玩具熊的鼻子）
- CLIP的原理：通过从图像块中提取language embeddings，将视觉信息转换为可以与语言描述对应的特征
- autoencoder：高维CLIP --encoder--> 低维latent space --decoder--> 高维CLIP

3D Language Fields

是什么：modeling a 3D language field allows users to interact with and query 3D worlds using open-ended language, which presents a promising avenue for human-computer interaction and understanding. 如用户输入"椅子"、"桌子"，系统能够在三维场景中识别、定位或分割出与查询相关的对象。将自然语言与三维场景联系起来，支持用户通过语言与三维世界进行交互和查询
应用场景：The field of open-ended language queries in 3D has attracted increasing attention due to its various applications such as:
- robotic navigation
- manipulation
- 3D semantic understanding
- editing
- autonomous driving
- augmented/virtual reality
原理：Feature distillation from off-the-shelf vision-language models into a 3D scene
- LERF：将CLIP（Contrastive Language-Image Pre-training）等模型中的语言嵌入到NeRF中，从而使得3D开放式语言查询成为可能。LERF将位置和物理尺度（尺度的作用：决定一个位于熊鼻子上的点是对应"熊的鼻子"、还是"熊的头"、还是"熊"）作为输入，输出单个CLIP向量
- LangSplat：首个基于3DGS的三维语言场方法