IJCAI-2024 | 具身导航的花样Prompts！VLN-MP：利用多模态Prompts增强视觉语言导航能力

作者： Haodong Hong1,2 , Sen Wang1∗ , Zi Huang1 , Qi Wu3 and Jiajun Liu2,1
单位：昆士兰大学，澳大利亚科学与工业研究组织，阿德莱德大学
论文标题：Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts
论文链接：https://arxiv.org/pdf/2406.02208
代码链接：https://github.com/honghd16/VLN-MP

主要贡献

论文引入了VLN-MP任务，借助视觉与语言Prompts的融合来提升导航性能，弥补了现有VLN任务仅凭文本指令的不足。
在多模态Prompts设置方面，设计了三种不同的图像Prompts配置------Aligned、Related和Terminal，以契合多样化的导航场景，从而增强了模型的适应性和灵活性。
构建了一个全新的VLN-MP测试基准，涵盖数据生成流程、四个新数据集以及一个创新的MPF模块，有力推动了VLN-MP研究的深入发展。
利用ControlNet生成了新的多模态指令数据，增强了数据集的多样性和模型的泛化能力。
在R2R、RxR、REVERIE、CVDN四个VLN基准数据集上开展了广泛实验，充分证明了在多模态Prompts助力下导航性能的显著提升。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航（VLN）任务中结合自然语言和图像指令Prompts，以解决现有VLN任务主要依赖文本指令导致的歧义性和知识迁移限制问题。

研究难点：

该问题的研究难点包括：

如何处理不同数量的图像Prompts以及这些Prompts与文本的相关性；
如何在保持向后兼容性的同时，提升导航性能；
如何有效地将多模态指令与现有的VLN模型集成。

VLN-MP任务

该任务通过在导航指令中结合视觉信号和自然语言来增强传统的视觉语言导航（VLN）任务。

任务定义

在传统的VLN任务中，智能体需要根据自然语言指令导航至目标目的地，其中是指令中的单词数。
智能体在每个时间步通过全景表示观察其周围环境，包括36个视角，每个视角包含RGB图像和当前节点的方向细节（头部朝向角度和俯仰角度）。
智能体根据策略决定动作，选择与目标节点对齐的最佳视角进行导航。

多模态指令

在现实世界中，图像常作为指令的一部分，提供重要的补充信息。然而，当前的VLN任务忽略了这一点，并限制了智能体利用图像Prompts提高性能的能力。
为了克服这些问题，论文提出了VLN-MP任务，通过在指令中插入图像来考虑多模态指令。假设我们为指令中的每个短语提供张图像，每个短语表示为，其中表示从位置到的单词。
通过将图像插入对应的短语旁边，文本指令转换为多模态形式：
智能体接收作为导航指导，其他方面与传统的VLN相同。

图像Prompts设置

由于获取图像的难度不同，智能体可能接收到不同数量和质量的不同Prompts图像。为了使智能体适应这些变化，论文提出了三种不同的设置：Aligned、Related和Terminal。
Aligned：提供精确且丰富的Prompts，要求每张图像与短语描述的视图对齐，并且图像数量足够覆盖整个指令。
Related：放宽了对齐的要求，只要求图像与短语相关，以促进指令理解而不需要完美对齐。
Terminal：仅提供一个图像，描绘目标位置周围的视图，帮助智能体定位停止位置并完成以目标为中心的任务。

测试基准

包括数据生成流程、四个新数据集以及多模态Prompts融合（MPF）模块的设计和实现。

VLN-MP 数据生成流程

为了将文本指令转换为多模态形式，论文利用大型预训练模型，可以高效地应用于现有的VLN数据集，无需额外的训练。
提取（Extraction）：首先从指令中提取地标短语。论文使用GPT-4模型来执行这项任务，以提高提取的准确性。
检测（Detection）：使用地标短语检测环境中的潜在实体。根据指令类型，选择不同的模型（如GroundingDINO或GLIP）进行零样本检测。
对齐（Alignment）：从多个候选图像中选择最适合每个短语的图像。对于Aligned设置，使用Kendall秩相关系数来衡量序列对齐性，并结合检测分数和边界框大小来选择最佳图像。
增强（Augmentation）：使用ControlNet生成基于地标图像线段的新图像，以增加数据多样性并提高模型的泛化能力。

VLN-MP 数据集

论文将数据生成流程应用于四个典型的VLN数据集：R2R、RxR、REVERIE和CVDN，生成相应的多模态版数据集，分别标记为"-MP"。
R2R-MP：从R2R数据集中生成17,328条多模态指令，平均每个指令有4.15个地标。
RxR-MP：从RxR数据集中生成100,923条多模态指令，Aligned设置平均有7.17个地标。
REVERIE-MP：直接使用REVERIE的边界框注释生成15,410条多模态指令，每个指令包含一个视觉Prompts。
CVDN-MP：从CVDN中生成6,031条多模态指令，每个指令包含一个视觉Prompts和一个替代的扩展指令。

多模态Prompts融合模块（MPF）

为了有效利用多模态指令，论文提出了一种新的MPF模块。该模块包括一个视觉分支来单独处理视觉Prompts，并与处理语言Prompts的文本分支并行。
视觉Prompts首先通过图像编码器提取特征，然后与文本token合并，进一步整合多层Transformer以合成最终的多模态指令。
该模块的关键在于两次应用位置编码：第一次用于分别标记图像和文本的序列，第二次用于匹配这两种类型的token，确保模型能够识别短语及其对应图像之间的关系。

实验设置

数据集

实验在四个VLN-MP数据集上进行：R2R-MP、RxR-MP、REVERIE-MP和CVDN-MP。这些数据集是从原始VLN数据集中生成的，包含文本和视觉Prompts。
原始数据集分为四个部分：train、val-seen、val-unseen和test-unseen。
由于test-unseen的真实路径未发布，多模态版本只包含前三者用于训练和评估。

基线模型

使用HAMT和DUET作为基线模型，这两种模型是VLN任务中的主流架构。
HAMT使用Transformer网络编码指令、视觉观察和历史信息进行动作预测。
DUET在HAMT的基础上扩展，通过构建实时拓扑图实现全局动作决策。

评估指标

成功率（Success Rate, SR）：智能体在目标3米内停止的比例。
路径长度加权成功率（Success rate weighted by Path Length, SPL）：SR通过最短路径与预测路径长度的比率进行归一化。
归一化动态时间规整（normalized Dynamic Time Warping, nDTW）：通过计算参考路径与预测路径之间的相似性来衡量指令一致性。
目标进度（Goal Progress, GP）：用于CVDN，测量完成轨迹长度与到目标的剩余距离之间的平均差异。

实现细节

使用OpenAI的GPT-4和GLIP-L及GroundingDINO-T模型进行地标检测。
对于非英语语言，使用Google翻译服务将其翻译成英语。
每个视觉Prompts生成五个新图像进行数据增强。

结果与分析

数据集评估

短语评估：
- 论文比较了从R2R-MP提取的短语与Marky-mT5和GELR2R数据集的短语。
- 主要使用Fuzzy Matching和ROGUE-L评分方法来评估短语的相似性。
- 结果显示，R2R-MP的短语与GELR2R数据集的相似性很高，特别是在模糊匹配中达到了95%的精确率，表明其短语提取的有效性。
图像评估：
- 论文使用CLIP模型来评估RxR-MP数据集中的图像与地标短语的对齐情况。
- 结果显示，RxR-MP的平均得分高于Marky-mT5，表明其图像与地标短语的对齐更准确。
- 进一步分析表明，RxR-MP的图像在大多数情况下更受青睐，显示出更强的对齐效果。
视角匹配：
- 论文计算了R2R-MP中地标图像的视角匹配准确率，并与GELR2R的地面真实数据进行比较。
- 结果显示，R2R-MP中有近70%的地标短语正确识别了对应的视角，且91%的视角相邻，表明方法的优越性。

导航表现

RxR-MP数据集：
- 表格展示了不同模型在RxR-MP数据集上的导航性能。
- HAMT+MPF模型在引入多模态Prompts后，性能显著提升，尤其是在seen场景中。
- 结果表明，模型在适应不同的视觉Prompts方面表现良好，并且在增加视觉Prompts的数量和相关性时，性能有所提高。
CVDN-MP数据集：
- 论文研究了在提供必要信息的视觉Prompts情况下的导航情况。
- 结果显示，使用多模态Prompts的模型在目标进度（GP）指标上表现更好，表明视觉Prompts在目标导向任务中的重要性。
- 结果还显示，视觉Prompts比单一模态Prompts更直观有效。

消融实验

增强数据比例：
- 评估了ControlNet生成的增强数据与原始数据的比例对性能的影响。
- 结果显示，随着增强数据比例的增加，seen场景的性能逐渐下降，但在unseen场景中，性能先提高后下降。
- 这表明适量的增强数据可以减少过拟合并提高对新环境的适应性，但过多的增强数据可能导致Prompts与观察之间的差异，从而混淆智能体。
位置编码：
- 研究了不同位置编码对MPF模块性能的影响。结果显示，视觉位置编码（VPE）和多模态位置编码（MPE）都有助于处理多模态指令。
- 结合这两种位置编码可以获得最佳性能，支持它们在模型中的作用。

预探索设置

研究了在预探索设置下，智能体在熟悉环境后再进行导航的情况。
结果表明，VLN-MP允许现有模型在这种设置下应用，并且在不增加额外训练的情况下提高性能。
结果显示，预探索设置显著提高了RxR数据集中的导航性能，尤其是在seen和unseen场景中，成功率（SR）分别提高了6.9%和2.5%。

总结

本文提出了VLN-MP任务，通过将视觉Prompts集成到文本指令中，增强了智能体的导航能力。VLN-MP不仅保持了向后兼容性，还展示了在不同数量的视觉Prompts和相关性下的适应性。

建立了第一个VLN-MP基准，包括将文本指令转换为多模态形式的流程、四个不同下游任务的数据集和高效处理多模态指令的新颖MPF模块。