HaLo-NeRF：利用视觉和语言模型对场景的精准定位和细粒度语义理解

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而，先前的工作主要集中在几何重建和可视化上，忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目：HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

在受限的 3D 领域中，最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解，但由于缺乏建筑领域的专业知识，它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中，他们提出了一个定位系统，通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性，将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型，他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上：物理上基于空间的图像可以为本地化新概念提供强大的监督信号，其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解，为最终提升为体积场景表示的 3D 兼容分割提供指导。他们的结果表明，HaLo-NeRF 可以准确定位与建筑地标相关的各种语义概念，超越了其他 3D 模型以及强大的 2D 分割基线的结果。

实现方法

他们的目标是对互联网照片集捕获的地标场景执行文本驱动的神经 3D 定位。换句话说，给定这组图像和描述场景中语义概念的文本提示，他们想知道HaLo-NeRF在 3D 空间中的位置。这些图像是在野外拍摄的，这意味着它们可能是在不同季节、一天中的时间、视角和距地标的距离拍摄的，并且可能包括短暂的遮挡。

HaLo-NeRF为了在 3D 空间中定位独特的建筑特征地标，他们利用强大的现代基础模型进行视觉和文本理解。尽管在一般多模态理解方面取得了进展，但现代 VLM 仍难以在建筑地标上定位细粒度的语义概念，正如他们在结果中广泛展示的那样。建筑领域使用专门的词汇，术语在一般用法中很少见。

为了解决这些挑战，他们设计了一个三阶段系统：（a）他们使用大型语言模型（LLM）从嘈杂的互联网图像元数据中提取语义伪标签。 (b) 他们使用这些伪标签和场景视图之间的对应关系来学习图像级和像素级语义。特别是，他们使用多视图监督微调图像分割模型（CLIPSegFT），其中放大视图及其相关的伪标签（例如与术语"鼓室"相关的左侧图像）提供监督信号用于缩小视图。 (c) 然后，他们提升这种语义理解，以学习新的、看不见的地标（例如右侧描绘的圣保罗大教堂）的体积概率，从而允许使用受控的视点和照明设置渲染分段场景的视图。

此外，他们还显示了下面的可视化效果，将 HaLo-NeRF（左）与 Baseline 模型（右）进行比较，后者使用 CLIPSeg 模型而不进行微调。两个视频都显示了相同的 RGB 渲染时间序列，仅在所描述的概率上有所不同（取自他们的模型或基线）。请注意，一旦放大，他们就会关闭两个模型的概率，以便更好地查看目标语义区域。每个视频上方都写有目标文本提示，右侧是地标名称。如下图所示，他们的模型产生了明显更清晰的概率，可以更好地定位语义区域，特别是对于建筑地标领域之外不太常见的独特概念。他们还以多种外观可视化放大区域（对于他们的模型，保持基线模型的外观固定）。主论文中说明了来自 HolyScenes 基准的其他提示和地标的结果。

这项技术有几个重要的用途：

**导航和定位：**通过这项技术，用户可以更精确地找到地标场景中的特定区域或对象。这对于旅游导航、城市规划或者虚拟现实（VR）体验中的定位都非常重要。
**增强现实（AR）和虚拟现实（VR）应用：**通过提供详细的3D定位和语义信息，这项技术可以为AR和VR应用提供更加丰富和真实的场景渲染。用户可以在虚拟环境中更自然地与地标进行交互，获得更加沉浸式的体验。
**文化遗产保护和展示：**对于历史建筑和文化遗产，这项技术可以用于创建数字模型，进行保护和展示。通过精确的定位和语义理解，可以还原建筑的原始风貌，为学者和游客提供更加深入的了解和体验。
**智能图像检索：**用户可以通过输入文本描述来检索与特定地标相关的图像，或者找到图像中特定语义区域的详细信息。
**自动化地标识别：**这项技术可以应用于自动驾驶车辆、无人机或其他机器人设备，帮助它们更好地识别和理解地标场景，从而实现更精准的导航和任务执行。