InternNav 论文回看

1 解决什么问题:

InternVLA-N1 一个双系统(Dual-System)视觉-语言导航基础模型

旨在解决现有机器人导航模型在长程规划能力、实时动态避障以及Sim-to-Real泛化性方面的问题

核心问题定义:

传统的端到端或单阶段导航模型通常将任务简化为:从观测O_t 和指令 I 直接映射到离散动作A_t
At=πmono(Ot,I)A_t = \pi_{mono}(O_t,I)At=πmono(Ot,I)

这种形式存在以下局限性:

  1. 只能输出短视的离散动作,缺乏对长程目标的显式推理,导致在复杂环境中容易陷入局部最优
  2. 延迟与实时性矛盾:若采用大模型进行精细规划,推理延迟高,无法应对动态环境;若使用小模型,则缺乏常识推理能力
  3. Sim-to-real Gap: 在仿真中训练的模型难以直接迁移到真实世界,特别是在处理非结构化环境和动态障碍物时
    本文的目标是构建一个能够同时具备人类级认知推理(Sys2)和敏捷执行(Sys1)的导航框架,具体来说寻找一个策略 Π∗=arg⁡max⁡ΠEτ∼Π[∑t=0Tγtr(st,at)]\Pi^* = \arg\max_{\Pi} \mathbb{E}{\tau \sim \Pi} \left[ \sum{t=0}^{T} \gamma^t r(s_t, a_t) \right]Π∗=argmaxΠEτ∼Π[∑t=0Tγtr(st,at)]

其中 τ\tauτ为轨迹,需满足1. 长程可达性 2. 实时响应 3. 动态避障

解决方案架构:VLM规划+扩散轨迹生成 双系统

System 2: VLM 低频2Hz

负责高层语义理解与中长程路径规划

输入:历史图像序列 {O_{t−K},...,O_t} 和自然语言指令 III

输出:轨迹潜变量 traj latent 同时也输出预测导航点

这个 latent 本质上编码了 LLM 对当前导航场景的"理解",包含了指令、历史观测和预测导航点的综合信息,作为 System1 生成轨迹的条件。

System 1: 扩散轨迹生成策略 高频30Hz

负责低层实时控制与动态避障

输入:前高频观测 OtO_tOt 和 System 2 生成的轨迹潜变量traj latent

输出:连续轨迹序列 τlocal={xi,yi,θi}iN\tau_{local} = \{ x_i, y_i, \theta_i\}_i^Nτlocal={xi,yi,θi}iN

基于扩散模型 (Diffusion Model),利用多模态条件生成平滑、无碰撞的轨迹

异步协同机制:

为了解决 S2 推理延迟导致的实时性问题,系统采用时间解耦:

  • System 1 接收最新观测 Ot
  • System 2 设置规划间隔进行推理执行

2 训练方法:

Stage 1: 单系统预训练 (Single-System Pre-training)

System 2: 使用 Qwen-VL-2.5 作为骨干,在 VLN-CE 数据集上进行监督微调,学习将指令映射到像素坐标 g_pixel。

  • Loss: LS2=MSE(gpred,ggt)L_{S2}=MSE(g_{pred},g_{gt})LS2=MSE(gpred,ggt)
    System 1: 从零训练扩散策略,利用 VLN-N1 数据,学习以显式目标(点目标、图像目标、像素目标)为条件的轨迹生成。
  • Loss: LS1=αLact+βLcritic+γLgoalalignL_{S1}=αL_{act}+βL_{critic}+γL_{goal_align}LS1=αLact+βLcritic+γLgoalalign
  • 其中 Lgoal_align 强制不同形式的目标编码对齐到统一的点目标空间。

Stage 2: 联合微调 (Joint Fine-tuning)

引入轨迹潜变量: 引入 System 2 输出的traj latent

异步训练: 在训练过程中人为引入时间延迟 K ,使 System 1 适应非同步信息流

3 数据基础 (InternData-N1)

为支撑上述训练,构建了大规模导航数据集 InternData-N1:https://huggingface.co/datasets/InternRobotics/InternData-N1

  • 规模: 5300万张第一人称图像,80万条指令,4839公里导航经验,覆盖3000+场景。
  • 子集:
    • VLN-N1: 基于开源3D资产,强调长程指令和多样化场景。
    • VLN-CE: 基于Habitat仿真,提供精细的连续环境导航数据。
    • VLN-PE: 基于物理仿真平台 (InternUtopia),包含四足、人形、轮式机器人的运动控制器数据,用于Sim-to-Real迁移。

insight(洞见) & Inspiration(灵感来源)

Insight 1: 认知解耦是解决"长程规划"与"实时控制"矛盾的唯一路径

  • 方向:双系统架构设计
  • 传统痛点: 单一大模型要么太慢(无法实时避障),要么太浅(无法理解长指令)
  • 解决方案: 强制解耦,让 S2 负责"想",S1 负责"做" -> 类似人类的大脑+小脑

Insight 2: 像素坐标不是好的中间表示,隐式"traj latent"才是通用导航的语言

  • 方向: 表征学习
  • 传统痛点: 显式坐标表示导致模型在不同场景下泛化性差,且难以处理动态变化
  • 解决方案: 训练 S2 输出可学习的向量 traj latent,作为 S1 的条件输入

Insight 3: 异步执行是连接"思考"与"行动"的关键桥梁

  • 方向: 时序控制
  • 传统痛点: 同步架构导致 S2 一旦计算变慢,整个系统就停滞;或者 S2 输出滞后,S1 已经撞墙。
  • 解决方案: 引入随机时间延迟 K ,让 S1 在训练时就学会"带着旧地图走新路"。
相关推荐
kcuwu.2 小时前
Python文件操作零基础及进阶
android·服务器·python
傻啦嘿哟2 小时前
使用 Python 实现 Word 文档文本格式化全解析
开发语言·python·word
Aliex_git2 小时前
前端监控笔记(一)
前端·笔记·学习
2501_945424802 小时前
调试技巧与核心转储分析
开发语言·c++·算法
2501_921649492 小时前
外汇实时汇率 API | 24 小时 架构设计与实战指南
大数据·python·websocket·金融·restful
m0_579393662 小时前
单元测试在C++项目中的实践
开发语言·c++·算法
badhope2 小时前
Matplotlib实战30例:全类型图表代码库
人工智能·python·plotly·github·matplotlib