LangSplat和3D language fields简略介绍

LangSplat: 3D Language Gaussian Splatting

  1. 相关技术拆分解释:
    • 3dgs:伟大无需多言
    • SAM:The Segment Anything Model,是图像分割领域的foundational model,已经用在很多视觉任务上(如图像修复、物体追踪、图像编辑等),以及用在3D领域中,后者相关工作如:
      • Seal:将包含SAM的VFMs用于点云分割
      • SA3D:将SAM泛化到3D物体
      • 本篇:使用SAM得到物体掩码以及3个hierarchical semantics,进而训练一个3D language field
    • 3D Language Fields:能够使用语言与三维世界进行交互和查询的模型
  2. LangSplat的framework图:

    输入从不同角度获取的同一场景的图像集,SAM基于输入的多视角图像生成层次化语义(Hierarchical Semantics),然后这些分割的掩码图会输入CLIP(视觉语言模型),使得图像和文本特征对齐、输出图像对应的language embeddings。为了降低内存成本,先会将这些高维embeddings压缩到低维空间,然后三维语言高斯模型学习这些低维的language embeddings,并反复执行渲染、监督的迭代过程。训练完成后,模型中的每个高斯点都包含了与language embedding相关的特征,并能够支持三维场景语言查询
    • SAM将图像分割成三个语义层次:Whole(整个玩具熊)、Part(玩具熊的头)、Subpart(玩具熊的鼻子)
    • CLIP的原理:通过从图像块中提取language embeddings,将视觉信息转换为可以与语言描述对应的特征
    • autoencoder:高维CLIP --encoder--> 低维latent space --decoder--> 高维CLIP

3D Language Fields

  1. 是什么:modeling a 3D language field allows users to interact with and query 3D worlds using open-ended language, which presents a promising avenue for human-computer interaction and understanding. 如用户输入"椅子"、"桌子",系统能够在三维场景中识别、定位或分割出与查询相关的对象。将自然语言与三维场景联系起来,支持用户通过语言与三维世界进行交互和查询
  2. 应用场景:The field of open-ended language queries in 3D has attracted increasing attention due to its various applications such as:
    • robotic navigation
    • manipulation
    • 3D semantic understanding
    • editing
    • autonomous driving
    • augmented/virtual reality
  3. 原理:Feature distillation from off-the-shelf vision-language models into a 3D scene
    • LERF:将CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到NeRF中,从而使得3D开放式语言查询成为可能。LERF将位置和物理尺度(尺度的作用:决定一个位于熊鼻子上的点是对应"熊的鼻子"、还是"熊的头"、还是"熊")作为输入,输出单个CLIP向量
    • LangSplat:首个基于3DGS的三维语言场方法
相关推荐
陈小峰_iefreer2 小时前
stone 3d v3.3.0版本发布,含时间线和连接器等新功能
3d·webgl·metaverse·cadcg
子燕若水18 小时前
“Daz to Unreal”将 G8 角色(包括表情)从 daz3d 导入到 UE5。在 UE5 中,我发现使用某个表情并与闭眼混合后,上眼睑出现了问题
3d·ue5
zhu_zhu_xia1 天前
JS通过GetCapabilities获取wms服务元数据信息并在SuperMap iClient3D for WebGL进行叠加显示
javascript·3d·webgl
星空寻流年1 天前
css3新特性第七章(3D变换)
前端·css·3d
在下胡三汉1 天前
Google Store 如何利用 glTF 3D 模型改变产品教育
3d
Hali_Botebie1 天前
【激光雷达3D(6)】3D点云目标检测方法;CenterPoint、PV-RCNN和M3DETR的骨干网络选择存在差异
网络·目标检测·3d
whuzhang162 天前
3DGS之齐次坐标
人工智能·3d·自动驾驶
90后小陈老师2 天前
WebXR教学 05 项目3 太空飞船小游戏
windows·3d·web·js
艾恩小灰灰3 天前
CSS中的`transform-style`属性:3D变换的秘密武器
前端·css·3d·css3·html5·web开发·transform-style
工业3D_大熊3 天前
HOOPS Exchange 与HOOPS Communicator集成:打造工业3D可视化新标杆!
3d·hoops·3d数据格式转换·3d模型可视化·bim技术数字解决方案·3d模型桌面可视化