InternNav 论文回看

1 解决什么问题：

InternVLA-N1 一个双系统（Dual-System）视觉-语言导航基础模型

旨在解决现有机器人导航模型在长程规划能力、实时动态避障以及Sim-to-Real泛化性方面的问题

核心问题定义：

传统的端到端或单阶段导航模型通常将任务简化为：从观测O_t 和指令 I 直接映射到离散动作A_t
At=πmono(Ot,I)A_t = \pi_{mono}(O_t,I)At=πmono(Ot,I)

这种形式存在以下局限性：

只能输出短视的离散动作，缺乏对长程目标的显式推理，导致在复杂环境中容易陷入局部最优
延迟与实时性矛盾：若采用大模型进行精细规划，推理延迟高，无法应对动态环境；若使用小模型，则缺乏常识推理能力
Sim-to-real Gap: 在仿真中训练的模型难以直接迁移到真实世界，特别是在处理非结构化环境和动态障碍物时
本文的目标是构建一个能够同时具备人类级认知推理（Sys2）和敏捷执行（Sys1）的导航框架，具体来说寻找一个策略 Π∗=arg⁡max⁡ΠEτ∼Π $\sumt=0Tγtr(st,at)$ \Pi^* = \arg\max_{\Pi} \mathbb{E}_{\tau \sim \Pi} \left $\\sum_{t=0}\^{T} \\gamma\^t r(s_t, a_t) \\right$ Π∗=argmaxΠEτ∼Π $\sumt=0Tγtr(st,at)$

其中 τ\tauτ为轨迹，需满足1. 长程可达性 2. 实时响应 3. 动态避障

解决方案架构：VLM规划+扩散轨迹生成双系统

System 2: VLM 低频2Hz

负责高层语义理解与中长程路径规划

输入：历史图像序列 ${O_{t−K},...,O_t}$ 和自然语言指令 III

输出：轨迹潜变量 traj latent 同时也输出预测导航点

这个 latent 本质上编码了 LLM 对当前导航场景的"理解"，包含了指令、历史观测和预测导航点的综合信息，作为 System1 生成轨迹的条件。

System 1: 扩散轨迹生成策略高频30Hz

负责低层实时控制与动态避障

输入：前高频观测 OtO_tOt 和 System 2 生成的轨迹潜变量traj latent

输出：连续轨迹序列 τlocal={xi,yi,θi}iN\tau_{local} = \{ x_i, y_i, \theta_i\}_i^Nτlocal={xi,yi,θi}iN

基于扩散模型 (Diffusion Model)，利用多模态条件生成平滑、无碰撞的轨迹

异步协同机制：

为了解决 S2 推理延迟导致的实时性问题，系统采用时间解耦：

System 1 接收最新观测 Ot
System 2 设置规划间隔进行推理执行

2 训练方法：

Stage 1: 单系统预训练 (Single-System Pre-training)

System 2: 使用 Qwen-VL-2.5 作为骨干，在 VLN-CE 数据集上进行监督微调，学习将指令映射到像素坐标 g_pixel。

Loss: LS2=MSE(gpred,ggt)L_{S2}=MSE(g_{pred},g_{gt})LS2=MSE(gpred,ggt)
System 1: 从零训练扩散策略，利用 VLN-N1 数据，学习以显式目标（点目标、图像目标、像素目标）为条件的轨迹生成。
Loss: LS1=αLact+βLcritic+γLgoalalignL_{S1}=αL_{act}+βL_{critic}+γL_{goal_align}LS1=αLact+βLcritic+γLgoalalign
其中 Lgoal_align 强制不同形式的目标编码对齐到统一的点目标空间。

Stage 2: 联合微调 (Joint Fine-tuning)

引入轨迹潜变量: 引入 System 2 输出的traj latent

异步训练: 在训练过程中人为引入时间延迟 K ，使 System 1 适应非同步信息流

3 数据基础 (InternData-N1)

为支撑上述训练，构建了大规模导航数据集 InternData-N1：https://huggingface.co/datasets/InternRobotics/InternData-N1

规模: 5300万张第一人称图像，80万条指令，4839公里导航经验，覆盖3000+场景。
子集:
- VLN-N1: 基于开源3D资产，强调长程指令和多样化场景。
- VLN-CE: 基于Habitat仿真，提供精细的连续环境导航数据。
- VLN-PE: 基于物理仿真平台 (InternUtopia)，包含四足、人形、轮式机器人的运动控制器数据，用于Sim-to-Real迁移。

insight(洞见) & Inspiration(灵感来源)

Insight 1: 认知解耦是解决"长程规划"与"实时控制"矛盾的唯一路径

方向：双系统架构设计
传统痛点: 单一大模型要么太慢（无法实时避障），要么太浅（无法理解长指令）
解决方案: 强制解耦，让 S2 负责"想"，S1 负责"做" -> 类似人类的大脑+小脑

Insight 2: 像素坐标不是好的中间表示，隐式"traj latent"才是通用导航的语言

方向: 表征学习
传统痛点: 显式坐标表示导致模型在不同场景下泛化性差，且难以处理动态变化
解决方案: 训练 S2 输出可学习的向量 traj latent，作为 S1 的条件输入

Insight 3: 异步执行是连接"思考"与"行动"的关键桥梁

方向: 时序控制
传统痛点: 同步架构导致 S2 一旦计算变慢，整个系统就停滞；或者 S2 输出滞后，S1 已经撞墙。
解决方案: 引入随机时间延迟 K ，让 S1 在训练时就学会"带着旧地图走新路"。