
-
作者: DongmingZhou, JinshengDeng, ZhengbinPang, WeiLi
-
单位:国防科技大学计算机学院,国防科技大学前沿交叉学院,广西大学计算机与电子信息学院
-
论文标题:Exploring Graph-aware Reasoning and Bidirectional Selection for Vision-Language Navigation
主要贡献

-
提出了图感知推理框架:通过将图网络和状态空间模型结合,有效地捕捉长序列依赖性和自适应上下文特征信息的传播与遗忘,在处理视觉-语言导航任务时,能够更好地理解和利用环境中的长期依赖关系。
-
设计了双向选择性状态空间模型:能够有效地保留视觉-文本的全局上下文信息,减少了内存需求,并通过重新计算中间状态的输出和激活函数来加速智能体的推理和导航能力。
-
实验结果表明性能提升:在R2R和REVERIE数据集上的定量实验结果显示,GAR在多个评估指标上达到了SOTA水平。
-
提高了计算效率和内存使用:与基于Transformer的方法相比,GAR设计了图感知推理,具有更快的计算效率和更高的内存利用率。
研究背景
研究问题
视觉语言导航(VLN)是指智能体基于文本指令和环境分析,在未知环境中动态生成一系列动作,从而从起始位置导航到目标位置的过程。
论文主要解决的问题是VLN中的内存利用效率和推理导航之间的平衡问题。
研究难点
该问题的研究难点包括:
-
处理长序列依赖关系、
-
跨模态匹配信息的捕捉、
-
以及计算复杂度与序列长度的平方成正比的问题。
方法

状态空间模型中的图感知推理
-
状态空间模型的定义:
-
状态空间模型使用参数 来定义其输入映射。输入序列 通过中间隐藏状态 转换为输出序列 。
-
连续时间形式的状态空间模型表示为: 其中, 是演化参数, 和 是投影参数。
-
-
离散化处理:
- 由于在深度学习环境中难以解决上述微分方程,论文通过时间尺度参数 和零阶保持技术(Zero-Order Hold, ZOH)将参数 和 转换为离散时间参数 和 :
-
递归离散化状态空间:
- 使用时间尺度参数 递归离散化状态空间:
-
结构化卷积核处理:
- 为了使模型能够并行化,论文通过状态转移矩阵处理结构化卷积核 : 其中, 是输入序列 的长度, 表示结构化卷积核。

- 引入图神经网络 :
-
引入图神经网络到导航结构中,允许模型从上下文中自适应地选择相关信息。
-
假设输入序列为 ,其中 是特征维度,图感知网络后的特征为 。
-
整体架构
-
视觉骨干网络:
-
将编码器的全景特征和图像感知特征融合作为视觉骨干网络。
-
输入特征 被分割成相同大小的补丁,然后拼接图像感知特征和全景特征作为输入标记序列。
-
-
多模态特征融合:
- 使用CLIP编码指令,并为每个词嵌入添加位置向量和文本类型向量。指令编码特征和视觉编码特征通过MLP映射到潜在状态空间,探索不同模态之间的信息相关性。
-
训练方法:
- 使用强化学习和模仿学习来训练整个模型。智能体通过与环境的交互获得奖励反馈。
实验
实验设置
数据集
-
论文在两个常见的视觉-语言导航任务数据集上评估GAR模型的性能:R2R(Room-to-Room)和REVERIE。
-
这些数据集被分为四个子集:训练集、测试集、验证可见集(validation-seen)和验证不可见集(validation-unseen)。
-
R2R数据集包含21,567条手动注释的指令,每条导航指令的平均长度为29个单词,总词汇量超过3100个单词,构成7189条路径。
评价指标
使用七个评价指标来全面评估模型性能:
-
轨迹长度(Trajectory Length, TL)
-
导航错误(Navigation Error, NE)
-
成功率(Success Rate, SR)
-
路径长度加权成功率(Success Rate Weighted by Path Length, SPL)
-
期望成功率的Oracle(Oracle Success Rate, OSR)
-
目标定位成功(Remote Grounding Success, RGS)
-
路径长度加权的RGS(RGS Weighted by Path Length, RGSPL)
超参数
-
批次大小设置为16,基础学习率设置为。
-
使用Adam优化器和余弦衰减学习率来更新网络参数,初始学习率设置为,衰减因子为0.1。
基线模型
- RCM, HOP, RecBERT, DUET, HAMT
定量分析

- REVERIE数据集上的比较 :
-
在验证可见集上,GAR与基线模型DUET进行比较,发现GAR在SR和SPL指标上分别提高了2.33%和3.67%。
-
这表明GAR能够有效捕捉图像和指令之间的长序列依赖性。
-
在验证不可见集上,GAR与HOP进行比较,发现GAR在OSR和RGS指标上分别提高了1.54%和1.91%。
-

- R2R数据集上的比较 :
-
在验证可见集上,GAR与HOP方法相比,SR和SPL分别提高了1.75%和2.47%。
-
这表明双向状态空间模型可以有效地提高模型的导航性能。
-
在验证不可见集上,GAR与HAMT模型相比,SR和SPL分别提高了2.83%和3.10%。
-

- FLOPs分析 :
-
选择FLOPs作为评价指标,比较GAR模型与其他基于Transformer的模型(如HAMT、DUET和VER)。
-
实验结果显示,GAR在RMSE和MAPE上显著优于DUET和HAMT,表明GAR在计算效率上有显著提升。
-
总结
-
本文提出了一种新的图感知推理框架模型,用于视觉语言导航。
-
通过集成图网络和状态空间模型,GAR模型有效地捕捉了长序列依赖关系和自适应的上下文特征信息传播与遗忘。
-
设计的双向选择性状态空间模型能够有效保留视觉文本中的全局上下文信息,提高了模型的导航性能。
-
与基于Transformer的方法相比,GAR模型具有更快的计算效率和更高的内存利用率。
