导读
本文提出并验证了一种基于变分自编码器(VAE)和模仿学习的无人机自主导航方案,旨在解决果园环境中因障碍物复杂和GPS信号缺失导致的导航难题。
近年来,无人机(UAV)技术取得了显著进展,特别是在农业应用方面。在果园行内导航的能力使无人机能够执行作物检测和产量估算等任务。在之前的工作中,提出了一个基于变分自编码器(VAE)的控制器,通过模仿学习进行训练,并在使用Unreal Engine的模拟河流环境中对其进行了评估。与几种基于视觉的导航算法相比,该控制器展示了有竞争力的结果。然而,先前的实验完全在模拟中进行,其中的条件(如障碍物结构、光照和车辆动力学)是理想且严格控制的。在本文中,扩展了这项工作,首次展示了基于反应的模仿学习控制策略在复杂果园环境中用于无人机导航的真实世界部署,如图1所示。

该控制策略使用交互式模仿学习框架进行训练,使用的图像数据和专家演示完全在野外收集。这消除了许多依赖模拟预训练的基于学习的方法中常见的模拟到现实转移的问题。与模拟相比,真实世界的果园环境带来了巨大的挑战,包括非结构化的障碍物(如突出的树枝和树叶)、变化的光照条件和不可预测的风扰。实际的无人机系统也带来了动力学、控制以及传感器噪声方面的不确定性。尽管存在这些挑战,控制器使得无人机能够在果园行内完全自主飞行,而不依赖于预先配置的地图或航路点。它以更少的人力干预实现了更长的飞行距离,并在新环境和不同速度下展示了强大的泛化能力。本文的贡献总结如下:
- 提出了一种反应式策略 ,使无人机能够仅使用视觉输入在果园行内导航。开发了一个基于变分自编码器的控制器 ,并通过基于干预的学习框架,使用完全真实的飞行数据进行训练。在真实的果园条件下,在一个定制开发的无人机平台上演示了该控制器的实际部署。与现有算法相比,我们基于VAE的控制器需要的人力干预显著减少,并且仅经过几次训练迭代即可实现自主导航。
- 在新环境和不同速度下评估了控制器的泛化性能。结果表明,我们基于VAE的控制策略在未见过的环境中表现良好,并且对速度变化具有鲁棒性。它使无人机能够以更少的人力辅助需求飞行更长的距离,性能优于现有的基线算法。

论文标题:
Vision-based Navigation of Unmanned Aerial Vehicles in Orchards: An Imitation Learning Approach
论文 链接 :
材料与方法
- 无人机平台
为这项研究开发了一个定制的四旋翼飞行器平台。主框架的轴距为450毫米。一个RealSense D435i摄像头(英特尔公司,美国加利福尼亚州圣克拉拉)前置安装,并以70◦的视场角流式传输RGB图像。视觉里程计由一个RealSense T265追踪摄像头(英特尔公司,美国加利福尼亚州圣克拉拉)提供。我们发现追踪摄像头的高度测量不够准确。因此,集成了一个SF11/C激光测距仪来测量离地高度。选择PixRacer R15作为飞行单元,并使用PX4 Autopilot堆栈作为底层控制器。机载计算单元是一个Nvidia Jetson Xavier NX板,并安装了一个外部固态硬盘来存储数据。还添加了一个无线电来接收来自无人机的实时遥测状态。使用一块4S锂聚合物电池为整个系统供电,在1.8公斤的起飞重量下可支持13分钟的飞行时间。平台图片见图2。

- 基于干预的模仿学习
在这项工作中,使用模仿学习来训练一个基于视觉的策略。如上所述,模仿学习相比强化学习具有若干优势,例如降低采样复杂性和无需手动设计奖励函数。
- 基于变分自编码器(VAE)的控制器
基于视觉的导航策略由两个组件组成:一个变分自编码器网络 和一个策略网络,统称为基于VAE的控制器。

- 系统架构
在图4中展示了系统架构。RGB图像以30 Hz的频率从D435i摄像头流式传输。选择T265摄像头是因为其内部的视觉惯性里程计(VIO)流水线,尽管其他VIO方法也可以使用,但代价是增加机载计算机的计算负载。

- 数据收集与训练
训练数据于2022-2023年期间在美国加利福尼亚州戴维斯附近的一个果园收集。该果园是一个研究设施,包含杏仁、核桃、李子、开心果和桃树的混合树种,平均树龄为三年。在本文中,称此为混合树种果园。树木成行种植,行距20英尺(6.10米),株距15英尺(4.57米)。每行长度约为240英尺(73.15米)。具体来说,从这个果园中选择了六行来收集图像数据,以训练的VAE网络。每个选定的行包含混合树种,提供了一个视觉上多样化的环境。为了进一步增强数据集的变异性,在不同季节(夏季、秋季、冬季)、天气条件(晴天、多云)和一天中的不同时间(早晨、中午、下午)收集了图像。收集的图像样本显示在图5中。VAE训练数据集总共包含110,551张分辨率为640 x 480像素的图像。

实验结果
- 定性结果
首先展示了我们提出的基于VAE的控制器的定性结果。无人机在前面提到的选定的六行果园中飞行,基于VAE的控制器通过第3.2节描述的基于干预的学习方法进行训练。为了可视化智能体策略性能在训练迭代中的演变,使用了一个开源SLAM库在离线状态下在重建的3D地图中绘制了无人机的轨迹。由于D435i摄像头具有能够生成深度图像的立体设置,将深度图像和RGB图像与无人机的定位结果融合到SLAM库中,创建了环境的点云地图。原始点云经过过滤以去除异常值和不相关的点,例如天空。使用RANSAC算法识别地面并重新着色以便更好地可视化。过滤后的点云的样本图像见图6。图7显示了经过一次训练迭代后,无人机在过滤后的点云地图内的轨迹的俯视图。由智能体策略控制的轨迹用蓝色绘制,而人类干预用红色显示。正如观察到的,智能体策略在一次迭代后学习到了一些基本技能,但有时仍然需要人类辅助来避开障碍物并在田间导航。根据实验,发现经过三次训练迭代后,性能显著提高。图8显示了经过三次训练迭代后地图中的一个样本飞行轨迹,其中智能体成功学会了避开障碍物,并在没有人类干预的情况下实现了完全自主飞行。


- 定量结果
为了提供定量结果并突出我们基于VAE的控制器的优势,将其与文献中的两种基线算法进行了比较。
-
第一种是基于非神经网络的控制器,其中控制策略使用人工选择的视觉特征进行训练,并通过线性回归计算。我们称之为基线1。
-
第二种基线是基于神经网络的控制器,它采用紧凑的卷积神经网络(CNN)来推断控制命令,称为基线2。
两种控制器都提供与我们类似的反应行为,并在现实场景中展示了有效的性能。为了公平比较,修改了两种原始实现,使得所有控制器都使用128 × 128 × 3的输入图像尺寸并输出偏航速率命令。所有三个控制器都使用基于干预的学习方法,与人类飞行员进行相同次数的迭代训练。为了最小化人类意识带来的潜在偏差,控制器执行的顺序在实验过程中是随机的,确保飞行员不知道正在训练哪个控制器。
评估了完全训练的模型(经过三次DAgger迭代后)在训练环境和泛化环境中的飞行性能。在这个实验中,包含了基线2的预训练版本,并对其输出进行了轻微修改,称为基线2(预训练)。
使用无人机在发生故障(即人类干预)前飞行的平均距离作为评估指标。实验在训练环境中选定的两行和混合树种果园中先前未见的两新行中进行。每个控制器在训练和泛化环境中都进行了十次飞行测试,测试条件包括不同的天气(晴天、多云、有风)和一天中的不同时间(早晨、下午)。
记录了飞行数据,并计算了故障前的平均距离,结果显示在图13中。从结果可以看出,当控制器部署在未见过的环境中时,性能会下降。尽管如此,基于VAE的控制器 consistently 优于基线,在训练和泛化环境中都需要人类干预前实现了更长的飞行距离。
在飞行实验期间,观察到基于VAE的控制器大部分时间可以自主导航无人机,而基线需要更多的人类辅助。有趣的是,基线2在我们的实验中表现不佳,可能是因为它依赖于果园环境中不存在的线状特征。

在2025年春末,在新的杏仁园和核桃园进行了额外的实验,以进一步评估我们控制器的泛化性能。这两个果园的描述在前一节提供。对于每个果园,选择了两行,并在早晨和下午进行了实验以捕捉一系列光照条件。鉴于这些行比先前评估的混合树种果园的行更长,每行进行了三次飞行以确保稳健的性能评估。
考虑到环境复杂性的增加以及基线2(预训练)控制器先前较差的性能,在这个实验中我们只将我们的基于VAE的控制器与基线1和基线2控制器进行了比较。我们计算了每个控制器在两种环境中实现的平均行驶距离,结果呈现在图14中。
总体而言,核桃园相对更容易导航,而杏仁园由于其更茂密的树叶和更窄的行距带来了更多挑战。因此,所有三个控制器在杏仁环境中的行驶距离都减少了。尽管难度增加,基于VAE的控制器 consistently 优于基线方法,在复杂且先前未见的果园环境中展示了强大的鲁棒性和泛化能力。

记录了每个算法在Jetson Xavier NX上运行的处理时间,并呈现在表2中。

其可视化训练,允许研究者快速发起并行训练任务,清晰对比不同模型(如VAE、CNN等)或不同参数在同一数据集上的表现,从而高效地筛选出最佳性能的模型架构,大幅节省文中所述的对比实验时间。
讨论
人类演示与智能体预测的直方图绘制在图16中。横轴代表归一化的控制命令,而纵轴显示了人类飞行员命令的概率密度与训练数据集中模型预测命令的概率密度。
关于基线2控制器,我们观察到其分布与人类分布非常匹配,表明对训练数据过拟合。这解释了为什么当分布不同时,基线2控制器难以泛化到新环境。相反,基线1控制器使用线性回归方法计算权重,产生了一个更保守的分布,预测集中在控制空间的中间范围。这阻碍了基线1控制器在需要时产生大偏航命令的能力。然而,基于VAE的控制器平衡了分布方差和拟合性能,使其能够优于其他两种方法。

基于VAE的控制器在田间展示了强大的自主导航能力,正确地避开了障碍物。然而,它确实在特定情况下遇到了挑战。我们观察到,当行的一侧有些树木缺失时(图17(a)),控制器更容易失败,导致路径的方向对无人机变得模糊。在这些情况下,需要人类干预来重新定向无人机。第二次失败发生在行的末端附近(图17(b)),那里用于导航的视觉特征变得稀疏,使得策略输出不可靠。当无人机飞过最后一对树木时,我们必须切换到手动控制。
这些失败案例将在未来工作中解决。可能的解决方案包括为智能体添加记忆以在缺失树木的场景中稳定航向命令,以及在行末端切换到基于GPS的规划器来引导智能体并在行间平滑过渡。

结论与未来工作
在这项工作中,我们提出了一种基于视觉的导航策略,使无人机能够在果园行内自主飞行。该策略利用变分自编码器神经网络从前置摄像头捕获的图像数据中提取潜在信息,生成反应式的偏航速率命令以实现精确导航。我们基于干预的学习方法利用人类专业知识来指导学习过程,飞行员在执行过程中提供实时纠正性干预。这种方法有效地演示了安全行为并促进了增量学习。我们在真实果园中验证了我们导航策略的性能,结果表明,与现有基线相比,我们的基于VAE的控制器使无人机能够以更少的人力辅助覆盖更长的距离。此外,该控制器展示了强大的泛化能力,能很好地适应新环境和速度变化。这些结果凸显了我们方法通过实现复杂果园环境中更高效和自主的无人机操作来增强精准农业实践的潜力。