ICASSP-2025 | 国防科大具身导航高效记忆与推理!GAR:基于图感知推理与双向选择的视觉语言导航

  • 作者: DongmingZhou, JinshengDeng, ZhengbinPang, WeiLi

  • 单位:国防科技大学计算机学院,国防科技大学前沿交叉学院,广西大学计算机与电子信息学院

  • 论文标题:Exploring Graph-aware Reasoning and Bidirectional Selection for Vision-Language Navigation

  • 论文链接:https://ieeexplore.ieee.org/abstract/document/10888565

主要贡献

  • 提出了图感知推理框架:通过将图网络和状态空间模型结合,有效地捕捉长序列依赖性和自适应上下文特征信息的传播与遗忘,在处理视觉-语言导航任务时,能够更好地理解和利用环境中的长期依赖关系。

  • 设计了双向选择性状态空间模型:能够有效地保留视觉-文本的全局上下文信息,减少了内存需求,并通过重新计算中间状态的输出和激活函数来加速智能体的推理和导航能力。

  • 实验结果表明性能提升:在R2R和REVERIE数据集上的定量实验结果显示,GAR在多个评估指标上达到了SOTA水平。

  • 提高了计算效率和内存使用:与基于Transformer的方法相比,GAR设计了图感知推理,具有更快的计算效率和更高的内存利用率。

研究背景

研究问题

视觉语言导航(VLN)是指智能体基于文本指令和环境分析,在未知环境中动态生成一系列动作,从而从起始位置导航到目标位置的过程。

论文主要解决的问题是VLN中的内存利用效率和推理导航之间的平衡问题。

研究难点

该问题的研究难点包括:

  • 处理长序列依赖关系、

  • 跨模态匹配信息的捕捉、

  • 以及计算复杂度与序列长度的平方成正比的问题。

方法

状态空间模型中的图感知推理

  • 状态空间模型的定义

    • 状态空间模型使用参数 来定义其输入映射。输入序列 通过中间隐藏状态 转换为输出序列 。

    • 连续时间形式的状态空间模型表示为: 其中, 是演化参数, 和 是投影参数。

  • 离散化处理

    • 由于在深度学习环境中难以解决上述微分方程,论文通过时间尺度参数 和零阶保持技术(Zero-Order Hold, ZOH)将参数 和 转换为离散时间参数 和 :
  • 递归离散化状态空间

    • 使用时间尺度参数 递归离散化状态空间:
  • 结构化卷积核处理

    • 为了使模型能够并行化,论文通过状态转移矩阵处理结构化卷积核 : 其中, 是输入序列 的长度, 表示结构化卷积核。
  • 引入图神经网络
    • 引入图神经网络到导航结构中,允许模型从上下文中自适应地选择相关信息。

    • 假设输入序列为 ,其中 是特征维度,图感知网络后的特征为 。

整体架构

  • 视觉骨干网络

    • 将编码器的全景特征和图像感知特征融合作为视觉骨干网络。

    • 输入特征 被分割成相同大小的补丁,然后拼接图像感知特征和全景特征作为输入标记序列。

  • 多模态特征融合

    • 使用CLIP编码指令,并为每个词嵌入添加位置向量和文本类型向量。指令编码特征和视觉编码特征通过MLP映射到潜在状态空间,探索不同模态之间的信息相关性。
  • 训练方法

    • 使用强化学习和模仿学习来训练整个模型。智能体通过与环境的交互获得奖励反馈。

实验

实验设置

数据集
  • 论文在两个常见的视觉-语言导航任务数据集上评估GAR模型的性能:R2R(Room-to-Room)和REVERIE。

  • 这些数据集被分为四个子集:训练集、测试集、验证可见集(validation-seen)和验证不可见集(validation-unseen)。

  • R2R数据集包含21,567条手动注释的指令,每条导航指令的平均长度为29个单词,总词汇量超过3100个单词,构成7189条路径。

评价指标

使用七个评价指标来全面评估模型性能:

  • 轨迹长度(Trajectory Length, TL)

  • 导航错误(Navigation Error, NE)

  • 成功率(Success Rate, SR)

  • 路径长度加权成功率(Success Rate Weighted by Path Length, SPL)

  • 期望成功率的Oracle(Oracle Success Rate, OSR)

  • 目标定位成功(Remote Grounding Success, RGS)

  • 路径长度加权的RGS(RGS Weighted by Path Length, RGSPL)

超参数
  • 批次大小设置为16,基础学习率设置为。

  • 使用Adam优化器和余弦衰减学习率来更新网络参数,初始学习率设置为,衰减因子为0.1。

基线模型
  • RCM, HOP, RecBERT, DUET, HAMT

定量分析

  • REVERIE数据集上的比较
    • 在验证可见集上,GAR与基线模型DUET进行比较,发现GAR在SR和SPL指标上分别提高了2.33%和3.67%。

    • 这表明GAR能够有效捕捉图像和指令之间的长序列依赖性。

    • 在验证不可见集上,GAR与HOP进行比较,发现GAR在OSR和RGS指标上分别提高了1.54%和1.91%。

  • R2R数据集上的比较
    • 在验证可见集上,GAR与HOP方法相比,SR和SPL分别提高了1.75%和2.47%。

    • 这表明双向状态空间模型可以有效地提高模型的导航性能。

    • 在验证不可见集上,GAR与HAMT模型相比,SR和SPL分别提高了2.83%和3.10%。

  • FLOPs分析
    • 选择FLOPs作为评价指标,比较GAR模型与其他基于Transformer的模型(如HAMT、DUET和VER)。

    • 实验结果显示,GAR在RMSE和MAPE上显著优于DUET和HAMT,表明GAR在计算效率上有显著提升。

总结

  • 本文提出了一种新的图感知推理框架模型,用于视觉语言导航。

  • 通过集成图网络和状态空间模型,GAR模型有效地捕捉了长序列依赖关系和自适应的上下文特征信息传播与遗忘。

  • 设计的双向选择性状态空间模型能够有效保留视觉文本中的全局上下文信息,提高了模型的导航性能。

  • 与基于Transformer的方法相比,GAR模型具有更快的计算效率和更高的内存利用率。

相关推荐
ぃ灵彧が2 分钟前
MCP协议在纳米材料领域的深度应用:从跨尺度协同到智能研发范式重构
人工智能·ai·科学计算·材料·mcp·纳米·纳米材料
IT古董9 分钟前
【漫话机器学习系列】217.监督式深度学习的核心法则(Supervised Deep Learning Rule Of Thumb)
人工智能
易安说AI10 分钟前
字节的野心:Trae新增MCP功能,深度测评
人工智能
De_hamster10 分钟前
1Plane的AI模块
人工智能
IT古董15 分钟前
【漫话机器学习系列】215.处理高度不平衡数据策略(Strategies For Highly Imbalanced Classes)
人工智能
石榴花专场20 分钟前
分类算法中one-vs-rest策略和one-vs-one 策略的区别是什么?
人工智能·python·机器学习·数据挖掘
youcans_22 分钟前
【医学影像 AI】早产儿视网膜病变国际分类(第三版)
论文阅读·人工智能·计算机视觉·医学影像·rop
神经星星25 分钟前
多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务
人工智能·开源·强化学习
hello_ejb328 分钟前
聊聊Spring AI Alibaba的FeiShuDocumentReader
人工智能·python·spring
何双新29 分钟前
企业AI应用模式解析:从本地部署到混合架构
人工智能·架构