【第四十周】VLN

目录

摘要

在过去的一周中,我围绕老师推荐的几篇文献,重点研读了与三维语义建图、可学习记忆机制、语义导航决策相关的核心论文,包括但不限于:M3-Spatial(导航Demo)、CUS-GS(紧凑语义3D高斯地图)、EPM(可学习文本记忆模块)、GSMem(基于VLM的语义导航与空间回忆)等。在此基础上,我结合自己的理解,提出了若干初步的研究思路与技术整合方案,试图在现有工作的基础上,探索更具动态适应能力、更高效、更智能的机器人语义导航系统。

一、对现有工作的系统理解

1、M3-Spatial:从建图到执行的完整导航流程

M3-Spatial 提供了一个完整的"语义建图-文本指令-目标定位-机器人执行"的闭环流程。其核心步骤包括:

建图阶段:通过LiDAR和相机采集多视角图像与深度信息,训练3D高斯泼溅模型,构建场景的三维结构。同时,利用CLIP、SigLIP、LLaMA等基础模型提取图像的高维语义特征,并通过相似度约简构建主场景分量(PSC)记忆库,为每个高斯基元训练"主查询"。

交互阶段:用户输入文本指令(如"找到黄色洗澡鸭并抓取"),系统将指令编码为文本嵌入,与PSC记忆库中的语义特征进行匹配,找到最相关的高斯点集合。

定位与执行:通过高斯点聚类生成物体级点云,计算抓取中心点与姿态,机器人规划无碰撞路径并完成抓取动作。

2、CUS-GS:轻量级语义3D高斯地图

CUS-GS 是对传统3D高斯泼溅模型的重要扩展,具备以下特点:

体素锚定结构:将场景划分为体素,每个体素作为锚点,控制其内部多个高斯基元。每个体素维护一个可学习的隐特征向量,后续通过共享MLP解码出几何、外观与多模态语义信息。

层次化适配机制:体素级查询与高斯级查询协同工作,访问PSC记忆库,实现语义特征的高效检索。

特征感知剪枝:通过体素特征统计量(特征范数、梯度范数)与高斯属性指标(贡献度)加权评分,剪除冗余体素,使得模型规模比传统方法小5倍以上。

3、EPM:可学习记忆模块

EPM 是一个可训练的VLM,能够执行四个基本操作:Add、Update、Remove、No Update。它通过数据驱动的方式学会如何动态更新场景中物体的状态、位置与描述,输出纯文本信息,与LLM天然兼容,规划速度快。

4、GSMem:基于VLM的语义导航与空间回忆

SMem 利用VLM进行高层语义推理,支持抽象的语义导航指令(如"找到下一个可能含有螺丝刀的抽屉")。其亮点在于:

空间回忆:机器人可以从任意视角重新"审视"已探索区域,而不需要物理移动。

混合探索策略:用VLM对边界进行语义打分,引导探索方向。

TSDF地图辅助:用于路径规划与最优视角筛选。

二、想到的初步挖掘点与技术整合思路

挖掘点1:CUS-GS与EPM的结合------静态语义地图 + 动态文本记忆

我提出将CUS-GS与EPM进行有机结合,形成一个"静态语义结构 + 动态记忆更新"的双层记忆系统:

CUS-GS → EPM:提供体素级语义特征与空间坐标,作为EPM的输入。

EPM → CUS-GS:当物体状态或位置发生变化时,EPM执行Update/Remove操作,并将修改后的信息回传至CUS-GS,替换旧的高斯点或不透明度信息。

我还进一步扩展了EPM的角色,提出让它作为高层管理器,同时控制PSC库(特征记忆)与EPM文本记忆库(坐标+描述)。具体更新逻辑如下:

新增物体:生成新特征,加入PSC库,执行Add操作。

位置变化:PSC库不更新(No Update),EPM文本库执行Update。

形状变化:两者都更新。

物体移除:两者都移除,并将对应高斯点的不透明度置为0并重置。

挖掘点2:CUS-GS作为跨场景记忆的轻量级导航基础

CUS-GS 的场景地图仅需6M参数,这意味着可以存储几十上百个场景。我提出利用这一特性实现:

跨场景匹配与检索:机器人进入新场景时,快速构建轻量级场景特征(如CLIP全局特征),与记忆库中的CUS-GS地图进行匹配,加载最相似的场景地图,直接用于目标检索。

跨场景目标定位:例如在场景A见过"red cup",在场景B中可直接检索语义相似度最高的场景地图,输出场景ID与3D坐标。

挖掘点3:GSMem + CUS-GS的增强语义导航

我提出将GSMem的VLM语义导航能力与CUS-GS的紧凑语义地图结合,形成更高效的导航系统:

语义查询增强:GSMem不再依赖预定义的物体场景图,而是直接查询CUS-GS中的多模态语义特征(CLIP、DINOv2、LLaMA等),支持更抽象的指令。

空间回忆增强:利用CUS-GS的高质量渲染能力,GSMem可以从任意最优视角"重新审视"目标区域,提升语义确认的准确性。

TSDF兼容性:CUS-GS可以提取几何信息并构建TSDF图层,兼容GSMem的规划流程(可行性过滤、可见性评估)。

挖掘点4:渲染 vs 物理移动的混合决策函数

GSMem提出了空间回忆,但未解决何时用渲染、何时物理移动的问题。我提出一个决策函数,综合考虑:

渲染置信度:基于GSMem的不透明度得分 + CUS-GS的锚点重要性得分。

移动代价:欧氏距离或路径规划距离。

当前观测质量:已有图像的目标识别置信度。

决策逻辑如下:

如果当前观测足够清晰 → 物理移动

如果渲染置信度高且移动代价大 → 渲染确认

否则 → 移动一段距离再观察

预期贡献:提出可量化的渲染置信度指标,证明混合策略可显著减少任务完成时间。

挖掘点5:基于CUS-GS多模态特征的语言引导探索

GSMem依赖VLM对边界打分,存在时间与费用成本。我提出无需VLM的语义探索评分方法:

用CLIP文本编码器获取目标embedding。

对每个候选边界,用CUS-GS渲染CLIP特征图,计算相似度得分。

若任务涉及纹理/材质(如"shiny object"),加入DINOv2特征。

可扩展至SEEM(定位)、SigLIP(开放词汇)等模型,融合得分。

最终选择得分最高的边界进行探索。整个探索过程无需调用VLM,仅依赖CUS-GS的多模态渲染能力。

挖掘点6:统一的导航流程抽象

我尝试将上述能力整合为一个统一的导航流程:

任务理解与目标定位:输入文本/图像,通过CUS-GS的多模态语义查询与体素检索,输出3D目标区域。

空间感知与路径规划:从CUS-GS的体素锚点构建3D占用地图,使用A*或RRT规划路径。

混合驱动的导航执行:VLM高层推理 + 信息增益驱动的探索模式(Fisher信息矩阵等)。

到达验证与闭环控制:在目标区域选择最优视角,用CUS-GS渲染高保真图像,由VLM或分类器确认目标是否存在。

三、对CUS-GS核心技术机制的深入理解

我还对CUS-GS中的两个关键机制进行了深入学习与复述:

  1. 多模态隐特征分配机制
    该机制的核心是将CLIP、DINOv2、SEEM等异构模型的特征统一到同一个三维结构化表示中。具体步骤如下:

体素锚点维护可学习隐特征zv。

共享MLP解码出外观、几何与语义查询向量。

精细查询向量检索PSC记忆库,通过注意力聚合多模态特征。

线性适配层对齐不同模型的分布差异。

训练中引入L2损失与余弦相似度损失,保证语义一致性。

  1. 特征感知显著性评估策略
    该策略用于剪枝冗余体素,实现轻量级部署。评估维度包括:

渲染贡献分数:基于高斯命中次数、不透明度、体积。

特征强度:隐特征的L2范数。

学习潜力:梯度范数。

最终通过加权和(2:8平衡)得到体素显著性分数,剪除最低0.1%的体素。

相关推荐
爱摸鱼的打工仔1 小时前
【VLLM启动大模型共享内存不足-AI知识点】
人工智能
初心未改HD1 小时前
深度学习之正则化技术详解
人工智能·深度学习
user29876982706541 小时前
三、Skills 进阶:Fork 模式与上下文控制
人工智能
闵孚龙1 小时前
Claude Code CLAUDE.md 用户指令覆盖层全解析:AI Agent 记忆系统、上下文工程、规则分层、团队协作与安全治理
人工智能·安全
X54先生(人文科技)1 小时前
《元创力》纪实录·卷宗2.1 观测续篇试纸:当“社会性死亡”的叙事进入审核队列
人工智能·开源·ai写作·零知识证明
Hector_zh1 小时前
逐浪 · 第七篇:Trae-SOLO 多端协同 —— 从安装到完成任务的完整流程
人工智能·trae
189228048611 小时前
NV301固态MT29F32T08GWLBHD6-QJES:B
大数据·服务器·人工智能·科技·缓存
木雷坞1 小时前
模型评测 Job 卡住:从 PodGroup 到镜像预检的排查记录
人工智能
大模型推理1 小时前
Nano-vLLM 源码解读 - 8. Chunked Prefill
人工智能