【RADIO-ViPE】动态环境下的在线开放词汇语义SLAM:视觉-语言-几何紧耦合BA与自适应鲁棒核深度解析RADIO-ViPE 是一个面向动态环境的在线语义 SLAM 系统,能够将任意自然语言查询与三维场景中的局部区域和物体关联起来(开放词汇语义定位)。与现有方法依赖标定好的 RGB-D 输入不同,RADIO-ViPE 直接处理原始单目 RGB 视频流,不需要相机内参、深度传感器或位姿初始化。其核心创新在于:将来自 RADIO 聚合基础模型的多模态嵌入(视觉+语言)与几何场景信息在初始化、优化和因子图连接三个层面进行紧耦合融合,并通过时序一致的自适应鲁棒核处理动态物体干扰。在 TUM-RGBD 动态基准测试上