具身导航如何利用取之不尽的网络视频资源！RoomTour3D：基于几何感知的视频-指令训练调优

作者：Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev
单位：穆罕默德·本·扎耶德人工智能大学计算机视觉系，中山大学深圳校区，悉尼科技大学ReLER实验室，中国科学技术大学
论文链接：RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation （https://arxiv.org/pdf/2412.08591）
项目主页：https://roomtour3d.github.io/
代码链接：https://github.com/roomtour3d/roomtour3d-NaviLLM

主要贡献

提出了RoomTour3D，从网络上的房间观游视频中提取的视频指令数据集，通过捕捉现实世界中的室内空间和人类行走演示，提供了大规模、多样化的训练数据。
设计了自动化的流程来从视频中提取几何感知的导航指令，结合3D重建技术来获取房间的几何信息，并使用大模型（如GPT-4）来生成详细的导航指令。
通过广泛的实验和消融研究，展示了RoomTour3D数据集在多个视觉语言导航任务中的有效性，特别是在CVDN、SOON、R2R和REVERIE任务中取得了新的最佳结果。
介绍了基于RoomTour3D数据集的zero-shot导航智能体，在开放世界导航中展示出潜力，展示了在复杂现实场景中实现通用导航能力的挑战和机遇。

研究背景

研究问题

现有的视觉语言导航（Vision-and-Language Navigation, VLN）数据集主要依赖于手动设计的模拟器和标注轨迹，缺乏场景多样性和真实世界的复杂性。

论文主要解决的问题是突破VLN模型在训练数据多样性和规模上的限制。

研究难点

该问题的研究难点包括：

如何利用在线视频的规模和多样性生成开放式的行走轨迹和导航指令；
如何在在线视频中补充导航数据；
如何在不依赖模板指令的情况下进行路径标注。

RoomTour3D

介绍了RoomTour3D数据集的自动化数据处理流程。

描述加持的轨迹

生成开放式的轨迹描述，通过从视频中均匀采样帧来生成人类行走轨迹。
使用专家模型（如BLIP-2、RAM、Grounding-DINO和Depth-Anything）来收集关于物体种类、空间位置和深度测量的信息。
将这些信息整合到GPT-4中，生成详细且连贯的轨迹描述，以增强对象多样性和空间感知。

动作加持的轨迹

使用COLMAP进行3D重建，以获取轨迹内的几何信息。
通过在视频中采样帧来增强导航动作的多样性，特别是在视点变化显著的点上进行采样。
识别不同的行走路径，并选择最近的帧作为正样本候选，以增强导航动作的多样性。

3D环境重建

通过COLMAP对视频片段进行结构从运动（SfM）和多视图立体视觉处理，以重建室内场景的3D布局。
使用深度优先搜索（DFS）合并相邻视频片段的重构模型，以创建统一的3D表示。

房间位置标注

使用BLIP-2来确定每个帧相对于房间类别的相机位置。
通过分析视频中的房间类型来增强轨迹描述的上下文信息。

VLN模型

NaviLLM回顾

NaviLLM是基于大模型（LLM）的SOTA具身导航智能体，在CVDN和SOON等测试基准上表现优异。详情请参考CVPR-2024 | 具身导航模型大一统！NaviLLM：学习迈向具身导航的通用模型。
NaviLLM通过编码环境视图并与导航指令结合来处理全景输入。模型在每个导航步骤中接收指令和候选视图，并选择合适的视图进行下一步导航。

基于Summarization的预训练

为了充分利用视频所具有的丰富信息和顺序特性，提升对未来规划的效能，论文预训练NaviLLM模型使其适应于基于RoomTour3D数据集描述加持轨迹的总结任务。
每个帧被视为候选视图，并使用GPT-4生成包含目标导航进度和房间位置的轨迹总结。

基于导航的微调

为了使模型能够从可扩展的场景中学习导航决策，论文微调NaviLLM使其适应于使用RoomTour3D的动作加持的轨迹。
每个视频序列中的帧被视为潜在的可导航动作，并使用GPT-4处理输入以预测下一步动作。
在微调过程中，模型使用历史观察和导航指令来迭代预测下一步动作，并在最后一步总结导航路径。

实验设置

数据集

在预训练阶段，使用RoomTour3D数据集与其他数据集（如CVDN、SOON、R2R、REVERIE和ScanQA）的组合进行teacher-forcing训练。
在多任务微调阶段，在RoomTour3D的动作指令数据集与其他数据集（如CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k）的组合上进行交替的teacher-forcing和student-forcing训练。

数据集与评估方法

实验在CVDN、SOON、R2R和REVERIE数据集上进行，
使用成功率（SR）、路径长度加权的成功率（SPL）和目标进度（GP）等指标进行评估。

结果与分析

监督任务比较

论文在四个任务上进行了单次微调，展示了多任务训练的优势。
使用RoomTour3D数据集进行预训练和微调后，模型在所有指标上均有所提升，特别是在CVDN的GP指标、SOON、R2R和REVERIE任务上达到了新的最佳结果。
在R2R和REVERIE任务中，模型在Val-U和Test数据集上均有显著提升，分别提高了约5.7%和6%。这主要是由于增强的空间感知和对象多样性。

zero-shot任务比较

移除所有动作和几何数据，重新训练NaviLLM以验证RoomTour3D数据集的效果。
结果显示，使用动作加持轨迹的模型在SR和SPL上表现优异，超过了其他开源模型，并接近商业闭源模型的表现。

消融实验

对象多样性：通过在描述中加入对象标签，发现这在某些任务（如REVERIE）中显著提高了性能，因为这些任务依赖于对象定位。对于仅依赖文本描述的任务（如SOON），对象多样性没有直接影响。
深度估计：引入了深度估计来帮助确定对象之间的相对距离。这有助于提高模型在SOON、R2R和REVERIE等任务中的性能，因为它增强了模型的空间感知能力。
房间位置：将房间位置信息纳入指令生成中，以捕捉轨迹中的场景语义。这种信息在所有VLN任务中都提供了一定的性能提升，因为它帮助模型更好地理解环境的整体布局。
动作指令数据：测试了将视频动作指令数据纳入训练数据集的效果。结果表明，这种数据增强了模型在SPL指标上的表现，因为它帮助模型更好地对齐动作和观察变化之间的关系。

数据正确性校验

论文手动评估了100个随机采样的轨迹描述，使用4点相关性量表进行评分：1表示"完全不相关"，2表示"部分相关"，3表示"大部分相关"，4表示"完美匹配"。
结果显示平均评分为3.08，其中74%的描述被评为"大部分相关"或"完美匹配"。
表明自动生成的描述在视觉上与实际场景高度一致，具有较高的相关性。

导航案例可视化

展示了RoomTour3D数据集在提高模型对动作指令的遵循能力方面的效果。
具体来说，模型能够正确选择左转，而基线方法错误地选择了右转，导致偏离预定路径。
突显了数据对齐在提高模型遵循动作指令方面的有效性。

总结

论文提出了RoomTour3D，从房间观游视频中自动生成的视频指令数据集。通过利用视频数据的丰富性和连续性，结合对象种类和空间感知，生成了20万条导航指令和1.7万条动作增强轨迹。

实验结果表明，RoomTour3D显著提高了多个VLN任务的表现，并实现了可训练的zero-shot导航智能体，展示了其在推进VLN研究方面的有效性和可扩展性。