目录
摘要
在过去的一周中,我围绕老师推荐的几篇文献,重点研读了与三维语义建图、可学习记忆机制、语义导航决策相关的核心论文,包括但不限于:M3-Spatial(导航Demo)、CUS-GS(紧凑语义3D高斯地图)、EPM(可学习文本记忆模块)、GSMem(基于VLM的语义导航与空间回忆)等。在此基础上,我结合自己的理解,提出了若干初步的研究思路与技术整合方案,试图在现有工作的基础上,探索更具动态适应能力、更高效、更智能的机器人语义导航系统。
一、对现有工作的系统理解
1、M3-Spatial:从建图到执行的完整导航流程
M3-Spatial 提供了一个完整的"语义建图-文本指令-目标定位-机器人执行"的闭环流程。其核心步骤包括:
建图阶段:通过LiDAR和相机采集多视角图像与深度信息,训练3D高斯泼溅模型,构建场景的三维结构。同时,利用CLIP、SigLIP、LLaMA等基础模型提取图像的高维语义特征,并通过相似度约简构建主场景分量(PSC)记忆库,为每个高斯基元训练"主查询"。
交互阶段:用户输入文本指令(如"找到黄色洗澡鸭并抓取"),系统将指令编码为文本嵌入,与PSC记忆库中的语义特征进行匹配,找到最相关的高斯点集合。
定位与执行:通过高斯点聚类生成物体级点云,计算抓取中心点与姿态,机器人规划无碰撞路径并完成抓取动作。
2、CUS-GS:轻量级语义3D高斯地图
CUS-GS 是对传统3D高斯泼溅模型的重要扩展,具备以下特点:
体素锚定结构:将场景划分为体素,每个体素作为锚点,控制其内部多个高斯基元。每个体素维护一个可学习的隐特征向量,后续通过共享MLP解码出几何、外观与多模态语义信息。
层次化适配机制:体素级查询与高斯级查询协同工作,访问PSC记忆库,实现语义特征的高效检索。
特征感知剪枝:通过体素特征统计量(特征范数、梯度范数)与高斯属性指标(贡献度)加权评分,剪除冗余体素,使得模型规模比传统方法小5倍以上。
3、EPM:可学习记忆模块
EPM 是一个可训练的VLM,能够执行四个基本操作:Add、Update、Remove、No Update。它通过数据驱动的方式学会如何动态更新场景中物体的状态、位置与描述,输出纯文本信息,与LLM天然兼容,规划速度快。
4、GSMem:基于VLM的语义导航与空间回忆
SMem 利用VLM进行高层语义推理,支持抽象的语义导航指令(如"找到下一个可能含有螺丝刀的抽屉")。其亮点在于:
空间回忆:机器人可以从任意视角重新"审视"已探索区域,而不需要物理移动。
混合探索策略:用VLM对边界进行语义打分,引导探索方向。
TSDF地图辅助:用于路径规划与最优视角筛选。
二、想到的初步挖掘点与技术整合思路
挖掘点1:CUS-GS与EPM的结合------静态语义地图 + 动态文本记忆
我提出将CUS-GS与EPM进行有机结合,形成一个"静态语义结构 + 动态记忆更新"的双层记忆系统:
CUS-GS → EPM:提供体素级语义特征与空间坐标,作为EPM的输入。
EPM → CUS-GS:当物体状态或位置发生变化时,EPM执行Update/Remove操作,并将修改后的信息回传至CUS-GS,替换旧的高斯点或不透明度信息。
我还进一步扩展了EPM的角色,提出让它作为高层管理器,同时控制PSC库(特征记忆)与EPM文本记忆库(坐标+描述)。具体更新逻辑如下:
新增物体:生成新特征,加入PSC库,执行Add操作。
位置变化:PSC库不更新(No Update),EPM文本库执行Update。
形状变化:两者都更新。
物体移除:两者都移除,并将对应高斯点的不透明度置为0并重置。
挖掘点2:CUS-GS作为跨场景记忆的轻量级导航基础
CUS-GS 的场景地图仅需6M参数,这意味着可以存储几十上百个场景。我提出利用这一特性实现:
跨场景匹配与检索:机器人进入新场景时,快速构建轻量级场景特征(如CLIP全局特征),与记忆库中的CUS-GS地图进行匹配,加载最相似的场景地图,直接用于目标检索。
跨场景目标定位:例如在场景A见过"red cup",在场景B中可直接检索语义相似度最高的场景地图,输出场景ID与3D坐标。
挖掘点3:GSMem + CUS-GS的增强语义导航
我提出将GSMem的VLM语义导航能力与CUS-GS的紧凑语义地图结合,形成更高效的导航系统:
语义查询增强:GSMem不再依赖预定义的物体场景图,而是直接查询CUS-GS中的多模态语义特征(CLIP、DINOv2、LLaMA等),支持更抽象的指令。
空间回忆增强:利用CUS-GS的高质量渲染能力,GSMem可以从任意最优视角"重新审视"目标区域,提升语义确认的准确性。
TSDF兼容性:CUS-GS可以提取几何信息并构建TSDF图层,兼容GSMem的规划流程(可行性过滤、可见性评估)。
挖掘点4:渲染 vs 物理移动的混合决策函数
GSMem提出了空间回忆,但未解决何时用渲染、何时物理移动的问题。我提出一个决策函数,综合考虑:
渲染置信度:基于GSMem的不透明度得分 + CUS-GS的锚点重要性得分。
移动代价:欧氏距离或路径规划距离。
当前观测质量:已有图像的目标识别置信度。
决策逻辑如下:
如果当前观测足够清晰 → 物理移动
如果渲染置信度高且移动代价大 → 渲染确认
否则 → 移动一段距离再观察
预期贡献:提出可量化的渲染置信度指标,证明混合策略可显著减少任务完成时间。
挖掘点5:基于CUS-GS多模态特征的语言引导探索
GSMem依赖VLM对边界打分,存在时间与费用成本。我提出无需VLM的语义探索评分方法:
用CLIP文本编码器获取目标embedding。
对每个候选边界,用CUS-GS渲染CLIP特征图,计算相似度得分。
若任务涉及纹理/材质(如"shiny object"),加入DINOv2特征。
可扩展至SEEM(定位)、SigLIP(开放词汇)等模型,融合得分。
最终选择得分最高的边界进行探索。整个探索过程无需调用VLM,仅依赖CUS-GS的多模态渲染能力。
挖掘点6:统一的导航流程抽象
我尝试将上述能力整合为一个统一的导航流程:
任务理解与目标定位:输入文本/图像,通过CUS-GS的多模态语义查询与体素检索,输出3D目标区域。
空间感知与路径规划:从CUS-GS的体素锚点构建3D占用地图,使用A*或RRT规划路径。
混合驱动的导航执行:VLM高层推理 + 信息增益驱动的探索模式(Fisher信息矩阵等)。
到达验证与闭环控制:在目标区域选择最优视角,用CUS-GS渲染高保真图像,由VLM或分类器确认目标是否存在。
三、对CUS-GS核心技术机制的深入理解
我还对CUS-GS中的两个关键机制进行了深入学习与复述:
- 多模态隐特征分配机制
该机制的核心是将CLIP、DINOv2、SEEM等异构模型的特征统一到同一个三维结构化表示中。具体步骤如下:
体素锚点维护可学习隐特征zv。
共享MLP解码出外观、几何与语义查询向量。
精细查询向量检索PSC记忆库,通过注意力聚合多模态特征。
线性适配层对齐不同模型的分布差异。
训练中引入L2损失与余弦相似度损失,保证语义一致性。
- 特征感知显著性评估策略
该策略用于剪枝冗余体素,实现轻量级部署。评估维度包括:
渲染贡献分数:基于高斯命中次数、不透明度、体积。
特征强度:隐特征的L2范数。
学习潜力:梯度范数。
最终通过加权和(2:8平衡)得到体素显著性分数,剪除最低0.1%的体素。