华东师范地面机器人融合空中无人机视角的具身导航！KiteRunner：语言驱动的户外环境合作式局部-全局导航策略

作者：Shibo Huang 1 ^{1} 1, Chenfan Shi 1 ^{1} 1, Jian Yang 2 ^{2} 2, Hanlin Dong 1 ^{1} 1, Jinpeng Mi 3 ^{3} 3, Ke Li 2 ^{2} 2, Jianfeng Zhang 1 ^{1} 1, Miao Ding 4 ^{4} 4, Peidong Liang 5 ^{5} 5, Xiong You 2 ^{2} 2, Xian Wei 1 ^{1} 1
单位： 1 ^{1} 1华东师范大学软件工程研究所， 2 ^{2} 2信息工程大学地理空间信息学院， 3 ^{3} 3上海理工大学机器智能研究所， 4 ^{4} 4辽宁工程技术大学软件学院； 5 ^{5} 5福建（泉州）先进制造技术研究所
论文标题：KiteRunner: Language-Driven Cooperative Local-Global Navigation Policy with UAV Mapping in Outdoor Environments
论文链接：https://arxiv.org/pdf/2503.08330

主要贡献

语言驱动的导航策略：提出了结合扩散模型和无人机正射影像的全局规划策略，以实现高效的长距离导航。
全局概率图生成：通过无人机正射影像生成实时全局概率图，提供高精度的环境可通行信息。
定位感知的局部规划器：开发了定位感知的局部规划器，能够在长距离导航中快速定位并优化路径。
实验验证：实验结果显示，KiteRunner在路径效率、干预次数和执行时间上优于现有方法，特别是在动态和不可预测的环境中表现出色。

研究背景

研究问题

论文主要解决的问题是自主导航在开放世界室外环境中面临的挑战，主要包括动态条件的整合、长距离空间推理和语义理解。
传统方法难以平衡局部规划、全局规划和语义任务执行，而现有的大型语言模型（LLMs）虽然增强了语义理解，但缺乏空间推理能力。
扩散模型在局部优化方面表现出色，但在大规模长距离导航方面存在不足。

研究难点

该问题的研究难点包括：

如何在开放世界环境中同时进行局部环境变化适应、长距离空间推理和全面的语义理解；
如何有效地结合语言驱动的导航和基于无人机的全局地图规划。

KiteRunner

视觉-语言处理器

VLP负责从自然语言指令中提取语义地标，并将其与存储在拓扑图中的视觉地标进行匹配，以生成最优路径。具体步骤包括：

地标提取：使用大型语言模型（如GPT-4o），通过设计的提示，将自由形式的文本指令解析为结构化的地标描述列表。
视觉-语义匹配 ：利用CLIP模型建立语义地标与拓扑图中视觉地标之间的关联。对于拓扑图中的每个节点 v i ∈ V v_i \in V vi∈V，计算其视角视图图像 I i \mathcal{I}i Ii 与地标文本之间的相似度。相似度矩阵 S ∈ R ∣ V ∣ × n S \in \mathbb{R}^{|V| \times n} S∈R∣V∣×n 的元素 S i , j S{i,j} Si,j 由以下公式计算：

S i , j = max ⁡ I ∈ I i ( ϕ vis ( I ) ⋅ ϕ txt ( l j ) ) S_{i,j} = \max_{I \in \mathcal{I}i} \left( \phi{\text{vis}}(I) \cdot \phi_{\text{txt}}(l_j) \right) Si,j=I∈Iimax(ϕvis(I)⋅ϕtxt(lj))

其中， ϕ vis ( I i ) \phi_{\text{vis}}(\mathcal{I}i) ϕvis(Ii) 是通过CLIP的视觉编码器提取的图像特征， ϕ txt ( l j ) \phi{\text{txt}}(l_j) ϕtxt(lj) 是通过文本编码器提取的地标描述特征。
最优路径生成 ：通过改进的Dijkstra算法进行路径规划，联合优化语言和视觉约束。节点的价值函数 Q ( v ) Q(v) Q(v) 定义如下：

Q ( v ) = ∑ j = 1 n S v , j − β ⋅ D ( v start , v ) Q(v) = \sum_{j=1}^{n} S_{v,j} - \beta \cdot D(v_{\text{start}}, v) Q(v)=j=1∑nSv,j−β⋅D(vstart,v)

其中， ∑ j = 1 n S v , j \sum_{j=1}^{n} S_{v,j} ∑j=1nSv,j 表示节点 v v v 对所有地标的总语义匹配得分， D ( v start , v ) D(v_{\text{start}}, v) D(vstart,v) 是从起始节点到当前节点 v v v 的路径成本， β \beta β 是路径成本项的权重系数，平衡语义匹配和路径效率之间的优先级。

局部规划器（LP）

LP作为实时决策引擎，负责在当前视觉输入和拓扑图存储的视觉信息的基础上生成多个候选局部路径。LP采用扩散模型生成多样化的运动候选路径，具体过程包括：

扩散模型：使用去噪扩散概率模型（DDPM）生成多样化的运动轨迹。扩散过程通过迭代去噪过程，将高斯噪声逐步转化为可行的轨迹。公式如下：

A t − 1 = 1 α t ( A t − β t 1 − α ˉ t ⋅ n pred ) + σ t z \mathcal{A}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \mathcal{A}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \cdot n{\text{pred}} \right) + \sigma_t z At−1=αt 1(At−1−αˉt βt⋅npred)+σtz

其中， A t \mathcal{A}_t At 是当前时间步 t t t 的噪声轨迹，初始化为高斯噪声 A T ∼ N ( 0 , I ) \mathcal{A}T \sim \mathcal{N}(0, I) AT∼N(0,I)； n pred n{\text{pred}} npred 是噪声预测网络预测的噪声， α t , β t , α ˉ t \alpha_t, \beta_t, \bar{\alpha}t αt,βt,αˉt 是由DDPM计算的调度参数； σ t z \sigma_t z σtz 是添加的随机噪声项，以保持多样性， z ∼ N ( 0 , I ) z \sim \mathcal{N}(0, I) z∼N(0,I)； A t − 1 \mathcal{A}{t-1} At−1 是去噪后的轨迹，经过 T T T 步迭代后收敛到最终轨迹 A 0 \mathcal{A}_0 A0。

全局规划器（GP）

GP负责从全局地图中解码生成全局可通行性概率图，指导LP选择最优路径。具体方法包括：

概率图生成：使用U-Net架构处理无人机数字正射影像图（DOM），输出表示环境各区域可通行性的像素概率图。
路径评分：将LP生成的候选路径离散化为路径点坐标，计算每条路径的可通行性得分。公式如下：

Score ( a ( k ) ) = ∑ i = 1 N P m ( x i , y i ) ⋅ P w ( x i , y i ) \text{Score}(a^{(k)}) = \sum_{i=1}^{N} P_m(x_i, y_i) \cdot P_w(x_i, y_i) Score(a(k))=i=1∑NPm(xi,yi)⋅Pw(xi,yi)

其中， ( x i , y i ) (x_i, y_i) (xi,yi) 是候选路径 a ( k ) a^{(k)} a(k) 中路径点的坐标， P m ( x i , y i ) P_m(x_i, y_i) Pm(xi,yi) 是概率图中每个路径点的概率值， P w ( x i , y i ) P_w(x_i, y_i) Pw(xi,yi) 是考虑路径点相对于目标的距离和方向的权重因子。
全局推理：GP提供全局视角的环境可通行性信息，确保机器人在复杂环境中避开不可通行的区域，选择安全且高效的路径。通过结合全局地图，GP确保机器人能够导航复杂的户外环境，避免不可通行区域。

实验

测试环境

实验在两个不同的户外环境中进行：

结构化公园：包含铺好的道路、树木、长椅和灯杆，用于评估方法在相对简单的环境中的导航能力。
非结构化公园：具有不平整的地形、自然障碍（如灌木丛）和较少可预测的条件，提供了一个更具挑战性的环境。
在这两种环境中，都引入了动态障碍物（如行人和车辆），以模拟真实世界的条件，要求机器人实时调整其路径规划和避障策略。

实验设计

传感器和设备：机器人使用RGB相机进行感知，GPS接收器获取地理数据。Jetson AGX Orin负责实时传感器处理、路径规划和运动控制，通过ROS进行高效通信。
任务设定：在每个环境中，机器人被要求完成一个导航任务，结构化环境中为405米，非结构化环境中为430米，以评估其路径规划和避障能力。
数据收集：在每个环境中收集数据以创建数据集。每种方法在20次试验中进行评估，以确保统计可靠性和潜在性能变异性。
基线方法：实验中比较了多种基线方法，包括ViNT、GNM和NoMaD。为了在相同条件下评估这些方法，每种方法都集成了一个语言驱动的导航模块。

评估指标

实验结果通过以下关键指标进行评估：

干预次数（IC） ：表示每次试验的平均干预次数，干预发生在机器人遇到困难时，需要手动协助或导致偏离预定路径。计算公式如下：
I C = Total Number of Interventions Number of Trials IC = \frac{\text{Total Number of Interventions}}{\text{Number of Trials}} IC=Number of TrialsTotal Number of Interventions
路径效率（PE） ：通过比较实际路径长度与最优路径长度来评估平均路径效率。公式如下：
P E = Actual Path Length Optimal Path Length PE = \frac{\text{Actual Path Length}}{\text{Optimal Path Length}} PE=Optimal Path LengthActual Path Length
执行时间（ET） ：测量机器人完成特定路径所需的平均时间，评估导航方法的时间效率。公式如下：
E T = Time to Complete Task (seconds) ET = \text{Time to Complete Task (seconds)} ET=Time to Complete Task (seconds)

统计分析

为了验证观察到的差异的显著性，进行了配对t检验。此外，计算了不同方法之间性能指标差异的95%置信区间。

实验结果

实验结果显示，KiteRunner在所有关键指标上优于基线方法。具体来说：

干预次数：KiteRunner在结构化环境中减少了约79.5%的干预次数，在非结构化环境中减少了约73.1%。
路径效率：在结构化环境中，KiteRunner的路径效率提高了5.6%，在非结构化环境中提高了12.8%。
执行时间：KiteRunner在结构化和非结构化环境中完成任务的时间分别为598.12秒和650.35秒，比基线方法更快。

统计显著性

统计分析表明，KiteRunner在所有指标上均有显著的性能提升（p ≤ 0.05）。与ViNT的比较显示在路径效率和执行时间上有显著差异（p ≤ 0.005）。

结果分析

实验结果表明，KiteRunner在动态和不可预测的场景中表现出色，显著提高了导航效率、鲁棒性和自主性。
通过去除局部或全局规划器进行的消融研究进一步证明了两者结合的重要性。

总结

论文提出了结合视觉-语言处理、基于无人机的全局地图规划和扩散模型驱动的局部轨迹优化自主导航方法，实现了在结构和无结构环境中的高效和鲁棒导航。
该方法在关键指标上显著优于基线方法，特别是在动态和不可预测的场景中。其鲁棒性源于全局规划的长距离目标导向导航和局部优化的实时响应的协同结合。
未来工作将集中在增强实时适应性，特别是通过无人机-地面协作，以提高在大规模复杂环境中的情境感知和可扩展性。