【第四十周】VLN

摘要

在过去的一周中，我围绕老师推荐的几篇文献，重点研读了与三维语义建图、可学习记忆机制、语义导航决策相关的核心论文，包括但不限于：M3-Spatial（导航Demo）、CUS-GS（紧凑语义3D高斯地图）、EPM（可学习文本记忆模块）、GSMem（基于VLM的语义导航与空间回忆）等。在此基础上，我结合自己的理解，提出了若干初步的研究思路与技术整合方案，试图在现有工作的基础上，探索更具动态适应能力、更高效、更智能的机器人语义导航系统。

一、对现有工作的系统理解

1、M3-Spatial：从建图到执行的完整导航流程

M3-Spatial 提供了一个完整的"语义建图-文本指令-目标定位-机器人执行"的闭环流程。其核心步骤包括：

建图阶段：通过LiDAR和相机采集多视角图像与深度信息，训练3D高斯泼溅模型，构建场景的三维结构。同时，利用CLIP、SigLIP、LLaMA等基础模型提取图像的高维语义特征，并通过相似度约简构建主场景分量（PSC）记忆库，为每个高斯基元训练"主查询"。

交互阶段：用户输入文本指令（如"找到黄色洗澡鸭并抓取"），系统将指令编码为文本嵌入，与PSC记忆库中的语义特征进行匹配，找到最相关的高斯点集合。

定位与执行：通过高斯点聚类生成物体级点云，计算抓取中心点与姿态，机器人规划无碰撞路径并完成抓取动作。

2、CUS-GS：轻量级语义3D高斯地图

CUS-GS 是对传统3D高斯泼溅模型的重要扩展，具备以下特点：

体素锚定结构：将场景划分为体素，每个体素作为锚点，控制其内部多个高斯基元。每个体素维护一个可学习的隐特征向量，后续通过共享MLP解码出几何、外观与多模态语义信息。

层次化适配机制：体素级查询与高斯级查询协同工作，访问PSC记忆库，实现语义特征的高效检索。

特征感知剪枝：通过体素特征统计量（特征范数、梯度范数）与高斯属性指标（贡献度）加权评分，剪除冗余体素，使得模型规模比传统方法小5倍以上。

3、EPM：可学习记忆模块

EPM 是一个可训练的VLM，能够执行四个基本操作：Add、Update、Remove、No Update。它通过数据驱动的方式学会如何动态更新场景中物体的状态、位置与描述，输出纯文本信息，与LLM天然兼容，规划速度快。

4、GSMem：基于VLM的语义导航与空间回忆

SMem 利用VLM进行高层语义推理，支持抽象的语义导航指令（如"找到下一个可能含有螺丝刀的抽屉"）。其亮点在于：

空间回忆：机器人可以从任意视角重新"审视"已探索区域，而不需要物理移动。

混合探索策略：用VLM对边界进行语义打分，引导探索方向。

TSDF地图辅助：用于路径规划与最优视角筛选。

二、想到的初步挖掘点与技术整合思路

挖掘点1：CUS-GS与EPM的结合------静态语义地图 + 动态文本记忆

我提出将CUS-GS与EPM进行有机结合，形成一个"静态语义结构 + 动态记忆更新"的双层记忆系统：

CUS-GS → EPM：提供体素级语义特征与空间坐标，作为EPM的输入。

EPM → CUS-GS：当物体状态或位置发生变化时，EPM执行Update/Remove操作，并将修改后的信息回传至CUS-GS，替换旧的高斯点或不透明度信息。

我还进一步扩展了EPM的角色，提出让它作为高层管理器，同时控制PSC库（特征记忆）与EPM文本记忆库（坐标+描述）。具体更新逻辑如下：

新增物体：生成新特征，加入PSC库，执行Add操作。

位置变化：PSC库不更新（No Update），EPM文本库执行Update。

形状变化：两者都更新。

物体移除：两者都移除，并将对应高斯点的不透明度置为0并重置。

挖掘点2：CUS-GS作为跨场景记忆的轻量级导航基础

CUS-GS 的场景地图仅需6M参数，这意味着可以存储几十上百个场景。我提出利用这一特性实现：

跨场景匹配与检索：机器人进入新场景时，快速构建轻量级场景特征（如CLIP全局特征），与记忆库中的CUS-GS地图进行匹配，加载最相似的场景地图，直接用于目标检索。

跨场景目标定位：例如在场景A见过"red cup"，在场景B中可直接检索语义相似度最高的场景地图，输出场景ID与3D坐标。

挖掘点3：GSMem + CUS-GS的增强语义导航

我提出将GSMem的VLM语义导航能力与CUS-GS的紧凑语义地图结合，形成更高效的导航系统：

语义查询增强：GSMem不再依赖预定义的物体场景图，而是直接查询CUS-GS中的多模态语义特征（CLIP、DINOv2、LLaMA等），支持更抽象的指令。

空间回忆增强：利用CUS-GS的高质量渲染能力，GSMem可以从任意最优视角"重新审视"目标区域，提升语义确认的准确性。

TSDF兼容性：CUS-GS可以提取几何信息并构建TSDF图层，兼容GSMem的规划流程（可行性过滤、可见性评估）。

挖掘点4：渲染 vs 物理移动的混合决策函数

GSMem提出了空间回忆，但未解决何时用渲染、何时物理移动的问题。我提出一个决策函数，综合考虑：

渲染置信度：基于GSMem的不透明度得分 + CUS-GS的锚点重要性得分。

移动代价：欧氏距离或路径规划距离。

当前观测质量：已有图像的目标识别置信度。

决策逻辑如下：

如果当前观测足够清晰 → 物理移动

如果渲染置信度高且移动代价大 → 渲染确认

否则 → 移动一段距离再观察

预期贡献：提出可量化的渲染置信度指标，证明混合策略可显著减少任务完成时间。

挖掘点5：基于CUS-GS多模态特征的语言引导探索

GSMem依赖VLM对边界打分，存在时间与费用成本。我提出无需VLM的语义探索评分方法：

用CLIP文本编码器获取目标embedding。

对每个候选边界，用CUS-GS渲染CLIP特征图，计算相似度得分。

若任务涉及纹理/材质（如"shiny object"），加入DINOv2特征。

可扩展至SEEM（定位）、SigLIP（开放词汇）等模型，融合得分。

最终选择得分最高的边界进行探索。整个探索过程无需调用VLM，仅依赖CUS-GS的多模态渲染能力。

挖掘点6：统一的导航流程抽象

我尝试将上述能力整合为一个统一的导航流程：

任务理解与目标定位：输入文本/图像，通过CUS-GS的多模态语义查询与体素检索，输出3D目标区域。

空间感知与路径规划：从CUS-GS的体素锚点构建3D占用地图，使用A*或RRT规划路径。

混合驱动的导航执行：VLM高层推理 + 信息增益驱动的探索模式（Fisher信息矩阵等）。

到达验证与闭环控制：在目标区域选择最优视角，用CUS-GS渲染高保真图像，由VLM或分类器确认目标是否存在。

三、对CUS-GS核心技术机制的深入理解

我还对CUS-GS中的两个关键机制进行了深入学习与复述：

多模态隐特征分配机制
该机制的核心是将CLIP、DINOv2、SEEM等异构模型的特征统一到同一个三维结构化表示中。具体步骤如下：

体素锚点维护可学习隐特征zv。

共享MLP解码出外观、几何与语义查询向量。

精细查询向量检索PSC记忆库，通过注意力聚合多模态特征。

线性适配层对齐不同模型的分布差异。

训练中引入L2损失与余弦相似度损失，保证语义一致性。

特征感知显著性评估策略
该策略用于剪枝冗余体素，实现轻量级部署。评估维度包括：

渲染贡献分数：基于高斯命中次数、不透明度、体积。

特征强度：隐特征的L2范数。

学习潜力：梯度范数。

最终通过加权和（2:8平衡）得到体素显著性分数，剪除最低0.1%的体素。