1 解决什么问题:
InternVLA-N1 一个双系统(Dual-System)视觉-语言导航基础模型
旨在解决现有机器人导航模型在长程规划能力、实时动态避障以及Sim-to-Real泛化性方面的问题
核心问题定义:
传统的端到端或单阶段导航模型通常将任务简化为:从观测O_t 和指令 I 直接映射到离散动作A_t
At=πmono(Ot,I)A_t = \pi_{mono}(O_t,I)At=πmono(Ot,I)
这种形式存在以下局限性:
- 只能输出短视的离散动作,缺乏对长程目标的显式推理,导致在复杂环境中容易陷入局部最优
- 延迟与实时性矛盾:若采用大模型进行精细规划,推理延迟高,无法应对动态环境;若使用小模型,则缺乏常识推理能力
- Sim-to-real Gap: 在仿真中训练的模型难以直接迁移到真实世界,特别是在处理非结构化环境和动态障碍物时
本文的目标是构建一个能够同时具备人类级认知推理(Sys2)和敏捷执行(Sys1)的导航框架,具体来说寻找一个策略 Π∗=argmaxΠEτ∼Π[∑t=0Tγtr(st,at)]\Pi^* = \arg\max_{\Pi} \mathbb{E}{\tau \sim \Pi} \left[ \sum{t=0}^{T} \gamma^t r(s_t, a_t) \right]Π∗=argmaxΠEτ∼Π[∑t=0Tγtr(st,at)]
其中 τ\tauτ为轨迹,需满足1. 长程可达性 2. 实时响应 3. 动态避障
解决方案架构:VLM规划+扩散轨迹生成 双系统
System 2: VLM 低频2Hz
负责高层语义理解与中长程路径规划
输入:历史图像序列 {O_{t−K},...,O_t} 和自然语言指令 III
输出:轨迹潜变量 traj latent 同时也输出预测导航点
这个 latent 本质上编码了 LLM 对当前导航场景的"理解",包含了指令、历史观测和预测导航点的综合信息,作为 System1 生成轨迹的条件。
System 1: 扩散轨迹生成策略 高频30Hz
负责低层实时控制与动态避障
输入:前高频观测 OtO_tOt 和 System 2 生成的轨迹潜变量traj latent
输出:连续轨迹序列 τlocal={xi,yi,θi}iN\tau_{local} = \{ x_i, y_i, \theta_i\}_i^Nτlocal={xi,yi,θi}iN
基于扩散模型 (Diffusion Model),利用多模态条件生成平滑、无碰撞的轨迹
异步协同机制:
为了解决 S2 推理延迟导致的实时性问题,系统采用时间解耦:
- System 1 接收最新观测 Ot
- System 2 设置规划间隔进行推理执行
2 训练方法:
Stage 1: 单系统预训练 (Single-System Pre-training)
System 2: 使用 Qwen-VL-2.5 作为骨干,在 VLN-CE 数据集上进行监督微调,学习将指令映射到像素坐标 g_pixel。
- Loss: LS2=MSE(gpred,ggt)L_{S2}=MSE(g_{pred},g_{gt})LS2=MSE(gpred,ggt)
System 1: 从零训练扩散策略,利用 VLN-N1 数据,学习以显式目标(点目标、图像目标、像素目标)为条件的轨迹生成。 - Loss: LS1=αLact+βLcritic+γLgoalalignL_{S1}=αL_{act}+βL_{critic}+γL_{goal_align}LS1=αLact+βLcritic+γLgoalalign
- 其中 Lgoal_align 强制不同形式的目标编码对齐到统一的点目标空间。
Stage 2: 联合微调 (Joint Fine-tuning)
引入轨迹潜变量: 引入 System 2 输出的traj latent
异步训练: 在训练过程中人为引入时间延迟 K ,使 System 1 适应非同步信息流
3 数据基础 (InternData-N1)
为支撑上述训练,构建了大规模导航数据集 InternData-N1:https://huggingface.co/datasets/InternRobotics/InternData-N1
- 规模: 5300万张第一人称图像,80万条指令,4839公里导航经验,覆盖3000+场景。
- 子集:
- VLN-N1: 基于开源3D资产,强调长程指令和多样化场景。
- VLN-CE: 基于Habitat仿真,提供精细的连续环境导航数据。
- VLN-PE: 基于物理仿真平台 (InternUtopia),包含四足、人形、轮式机器人的运动控制器数据,用于Sim-to-Real迁移。
insight(洞见) & Inspiration(灵感来源)
Insight 1: 认知解耦是解决"长程规划"与"实时控制"矛盾的唯一路径
- 方向:双系统架构设计
- 传统痛点: 单一大模型要么太慢(无法实时避障),要么太浅(无法理解长指令)
- 解决方案: 强制解耦,让 S2 负责"想",S1 负责"做" -> 类似人类的大脑+小脑
Insight 2: 像素坐标不是好的中间表示,隐式"traj latent"才是通用导航的语言
- 方向: 表征学习
- 传统痛点: 显式坐标表示导致模型在不同场景下泛化性差,且难以处理动态变化
- 解决方案: 训练 S2 输出可学习的向量 traj latent,作为 S1 的条件输入
Insight 3: 异步执行是连接"思考"与"行动"的关键桥梁
- 方向: 时序控制
- 传统痛点: 同步架构导致 S2 一旦计算变慢,整个系统就停滞;或者 S2 输出滞后,S1 已经撞墙。
- 解决方案: 引入随机时间延迟 K ,让 S1 在训练时就学会"带着旧地图走新路"。