论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》

论文链接：https://arxiv.org/abs/2505.15725

项目主页：https://prince687028.github.io/UAV-Flow/

0. 简介

近年来，无人机技术蓬勃发展，但如何让无人机像智能助手一样理解并执行人类语言指令，仍是一个前沿挑战。现有研究主要关注基于语言指令的长距离导航和目标搜索等高层级任务，而对于语言引导的精细化、短距离控制------即无人机的"基本功"------却缺乏深入研究。

北航团队创新性地将研究重点从传统的"飞得远"转向"飞得好"，通过模仿学习框架使无人机能够精确执行短距离、反应式的飞行行为，首次在开放场景中实现了基于自然语言对话的无人机飞行控制。

图1：UAV-Flow基准概览。该基准包含一个大规模的真实世界数据集，用于基于语言条件的无人机模仿学习，具有以下特点：多个无人机平台、多样化的环境以及广泛的细粒度飞行技能任务。为了在Flow任务设置下进行系统性的实验分析，我们还提供了基于仿真的评估协议，并将VLA模型部署到真实无人机上。据我们所知，这是首次在开放环境中将VLA模型用于语言引导的无人机控制的真实世界部署。

1. 主要贡献

首创"Flying-on-a-Word"任务范式：研究团队将语言引导的无人机控制问题正式化为短距离、反应式飞行行为的精细轨迹控制任务。这一创新范式填补了现有研究在无人机低层次语言交互控制方面的空白，为无人机智能化发展开辟了新方向。

构建真实世界大规模数据集：团队创建了首个真实世界的UAV-Flow数据集，包含超过3万条真实飞行轨迹，覆盖多种运动类型和环境条件。数据采集工作在三所高校校园内展开，总覆盖面积达5.02平方公里，为模型训练和评估提供了坚实基础。

提出地面-无人机协作部署框架：针对无人机机载计算资源受限的实际挑战，研究团队设计了创新的地面-无人机协作策略。通过在地面站进行推理并实时反馈控制指令，成功实现了大模型在真实无人机平台的部署。

开发完整评估体系：设计了用于Flow任务性能评估的闭环仿真测试环境和评估指标，包括成功率（SR）和归一化动态时间规整（NDTW），为系统比较不同模型性能提供了标准化工具。

图2：传统无人机VLN与我们的Flow分析。左图：VLN任务旨在通过规划长时间跨度的路径，根据指令到达远距离目标。右图：Flow专注于在当前场景中，执行短距离的、基于语言引导的轨迹，朝向视觉锚定的目标。

图3：Flow任务的可视化。在相同的指令下，人类飞行员执行了多样化的真实世界飞行轨迹。我们展示了航拍场景中的二维飞行路径以及重建的三维轨迹。

2. 相关工作分析

2.1 传统视觉语言导航的局限性

现有的无人机语言控制研究主要借鉴地面机器人的视觉语言导航（VLN）技术。这些方法通常关注长距离路径规划和目标搜索等高层级推理任务，采用离散化的动作空间和简化的控制模式。然而，这种方法存在明显局限：

控制粒度粗糙：传统VLN方法通常采用离散的动作指令（如"前进"、"左转"），无法满足无人机精细化控制的需求。无人机作为六自由度的空中平台，需要连续、平滑的控制输入来实现稳定飞行。

缺乏动力学约束：地面机器人的运动相对简单，而无人机必须在三维空间中保持稳定，需要考虑空气动力学特性和飞行动力学约束。

任务场景单一：现有研究多聚焦于长距离导航任务，对于日常使用中更常见的短距离、精细化操作缺乏关注。

2.2 模仿学习在机器人控制中的应用

模仿学习作为一种重要的机器学习范式，在机器人控制领域展现出巨大潜力。通过学习专家行为模式，模仿学习能够：

捕获复杂策略：专家飞行员的操作包含丰富的隐式知识，如对环境的感知、风险评估和轨迹优化等，这些都难以用传统规则明确表达。

适应动态环境：真实飞行环境复杂多变，模仿学习能够帮助模型学会在不确定环境中做出合理决策。

提高安全性 ：通过学习专家的安全飞行策略，可以有效降低无人机操作风险。

图4：真实世界无人机数据采集流程

2.3 多模态感知技术的发展

随着深度学习技术的进步，多模态感知在机器人领域取得显著发展：

视觉-语言理解：大型视觉语言模型的出现为实现真正的视觉-语言-动作（VLA）系统奠定了基础。

跨模态对齐 ：如何有效地将语言指令、视觉观测和运动控制进行对齐，是实现智能无人机控制的关键挑战。

图5：UAV-Flow和UAV-Flow-Sim的数据集统计。我们展示了两个数据集中任务类型的分布（按百分比）以及轨迹距离的分布情况。

3. 核心算法深度解析

3.1 Flow任务的数学建模

研究团队将Flying-on-a-Word任务形式化为一个多模态决策问题。在每个时间步，无人机代理需要整合三种输入模态：

自然语言指令：描述期望的飞行行为，如"绕着建筑物飞行"或"向左平移5米"。

六自由度状态信息：包括位置坐标（x, y, z）和姿态角度（roll, pitch, yaw），提供无人机当前的精确空间状态。

第一视角视觉观测：来自无人机前置摄像头的实时图像，提供环境感知信息。

策略函数的设计需要将这三种异构信息有效融合，生成符合动力学约束的连续控制动作。

3.2 指令类型分类与处理策略

3.2.1 原始运动指令

这类指令涉及基础的飞行动作，包括：

起降控制：垂直起飞、降落、悬停等
平移运动：前后左右的位移控制
旋转动作：偏航、俯仰、翻滚调整
高度变化：上升、下降、保持高度

对于原始运动指令，算法主要关注运动意图理解，将语言描述映射到对应的控制参数。

3.2.2 目标交互指令

这类指令要求无人机与环境中的特定对象进行交互：

接近行为：飞向指定目标
环绕动作：围绕目标做圆周或椭圆轨迹
穿越行为：从目标的特定方向通过
跟随模式：保持与移动目标的相对位置

目标交互指令的处理更加复杂，需要结合视觉感知进行空间推理，实现感知驱动的轨迹规划。

3.3 多模态数据融合架构

3.3.1 语言编码模块

采用预训练的语言模型对自然语言指令进行编码，提取语义特征。为了处理指令的多样性，研究团队构建了固定命令集和开放词汇命令集两套标准：

固定命令集：标准化的指令表达，如所有"侧向穿越"任务统一标记为"从物体右侧飞过"。

开放词汇命令集：利用大语言模型生成多样化的表达方式，增强模型对自然语言变化的适应能力。

3.3.2 视觉感知模块

基于卷积神经网络或视觉Transformer的视觉编码器，从第一视角图像中提取环境特征。视觉模块需要识别关键的环境元素，如建筑物、车辆、行人等，为空间推理提供支持。

3.3.3 状态融合与动作生成

将语言特征、视觉特征和状态信息进行深度融合，通过注意力机制实现跨模态对齐。最终的动作生成器输出连续的控制指令，包括速度、角速度等底层控制参数。

3.4 地面-无人机协作框架

3.4.1 通信延迟处理策略

实际部署中，地面站与无人机之间的通信存在不可避免的延迟。传统的处理方法包括：

停止推理模式：无人机在推理期间暂停飞行，但这会破坏任务的连续性。

连续运动模式：无人机持续飞行，但可能因延迟响应导致控制失配。

研究团队创新性地提出了全局对齐连续运动方案，具有前瞻机制的分块动作预测能力。

3.4.2 前瞻预测机制

该机制的核心思想是提前预测多个时间步的目标点，形成一个目标轨迹序列。在每次推理时：

批量预测：一次性预测未来多个时间步的目标位置
全局融合：将预测目标点与当前无人机状态进行融合，生成全局坐标系下的目标姿态
延迟过滤：根据无人机运动延迟，过滤掉已经经过的目标点
平滑插值：对剩余目标点进行插值，生成平滑的控制轨迹

这种设计有效缓解了通信延迟对控制精度的影响，确保了飞行动作的连续性和稳定性。

3.5 轨迹质量评估算法

3.5.1 成功率评估

成功率（SR）评估基于人工检查预测轨迹是否在语义上满足指令要求。评估过程包括：

轨迹记录：完整记录预测轨迹和目标点
可视化渲染：生成2D和3D轨迹可视化
语义匹配：人工判断轨迹是否符合指令语义

3.5.2 归一化动态时间规整

针对某些轨迹虽然语义正确但路径次优的情况，引入归一化动态时间规整（NDTW）评估轨迹质量。

NDTW能够评估预测轨迹与参考轨迹之间的相似性，考虑了位置和方向的综合影响。在实现中，每个轨迹点被表示为6维向量，包含位置坐标（x, y, z）和方向余弦值（roll, yaw, pitch），全面捕获飞行状态的影响。

图6：大规模模型的真实世界无人机部署。无人机将视觉输入和状态数据流传输到地面站进行推理，并接收控制指令以实现实时飞行执行。

4. 实验结果与分析

4.1 仿真环境评估

研究团队构建了基于UnrealEngine的UAV-Flow-Sim仿真数据集，包含10,109条轨迹数据。仿真环境高度还原真实校园场景，支持多种可交互对象的部署。

数据分布特征：

轨迹长度主要集中在20米以内，符合短距离精细控制的任务特点
覆盖8种主要运动类型，包括平移、旋转、环绕、穿越等
包含原地旋转等近零位移轨迹，体现了任务的多样性

基准模型对比 ：

实验对比了多个基线模型在Flow任务上的表现，包括传统的强化学习方法、模仿学习方法以及最新的视觉语言模型。结果显示：

成功率方面：基于模仿学习的方法显著优于传统强化学习方法，证明了专家演示的重要性
轨迹质量方面：多模态融合模型在NDTW指标上表现最佳，验证了综合考虑语言、视觉和状态信息的必要性
泛化能力方面 ：在开放词汇指令上训练的模型展现出更强的泛化能力

图7：UAV-Flow-Sim数据集的综合评估我们在10种Flow任务类型上对代表性的VLN方法和来自机器人操作领域的VLA方法进行了基准测试，并使用成功率（SR）指标报告了性能表现。

4.2 真实世界部署验证

部署环境：在北京航空航天大学国际学院的开放场景中进行真机测试，环境包含建筑物、车辆、行人等多样化元素。

技术验证：

成功实现了视觉语言动作（VLA）系统的真机部署
验证了地面-无人机协作框架的有效性
实现了基于自然语言对话的实时无人机控制

性能表现：

控制延迟控制在可接受范围内（<500ms）
飞行轨迹与指令语义高度一致
系统运行稳定，未出现安全事故

挑战与解决：

通信稳定性：通过多重备份通信链路确保连接可靠性
环境适应性：利用真实世界数据训练的模型展现出良好的环境适应能力
安全保障 ：集成多层安全机制，包括紧急停止、自动返航等功能

图8：基于NDTW指标的UAV-FlowSim数据集综合评估。雷达图中外侧的浅绿色区域表示与物体交互的任务，而橙色区域表示基本运动任务。

5. 结论与展望

北航团队的UAV-Flow研究为无人机智能控制领域带来了革命性突破。通过提出Flying-on-a-Word任务范式，该工作成功将无人机控制从传统的"飞得远"升级为"飞得好"，实现了语言指令与精细飞行控制的深度融合。