RTO-LLI：低重叠大尺寸无人机影像的鲁棒实时定向方法

一、引言

1.1 研究背景与意义

无人机实时摄影测量技术作为地理空间信息获取的核心手段之一，能够在无人机飞行过程中同步处理影像数据，实现 4D 产品（数字高程模型 DEM、数字正射影像图 DOM、数字线划图 DLG、数字栅格地图 DRG）的实时 / 准实时生成、智能信息提取及大规模三维建模，在应急测绘、精准农业、城市规划等领域具有不可替代的价值。

大尺寸无人机影像在相同飞行高度下可覆盖更大区域，相同飞行速度下能获取更高分辨率数据；低重叠影像则可通过延长基线提升飞行效率，二者结合对高效测绘具有重要实践意义。然而，低重叠大尺寸无人机影像的实时处理面临两大核心挑战：

数据量与计算负荷激增：大尺寸影像（单幅 2000 万像素以上）导致传统算法在普通性能计算单元（如笔记本电脑）上难以满足实时性要求；
匹配与定向难度大：低重叠特性使得实时匹配点难以覆盖完整重叠区域，分布不均且精度有限，严重影响相对定向的鲁棒性与实时性。

目前，传统运动恢复结构（SfM）方法、同步定位与地图构建（SLAM）技术及现有实时测绘算法均无法在无高精度 POS（定位定向系统）支持下，实现低重叠大尺寸无人机影像的实时鲁棒定向。为此，武汉理工大学团队提出了一种基于快速多级匹配与三次优化的鲁棒实时定向方法（RTO-LLI），填补了该领域的技术空白。

1.2 核心贡献

论文的核心贡献可概括为四大技术创新，共同支撑低重叠大尺寸无人机影像的实时、鲁棒、高精度处理：

低重叠大尺寸影像序列的鲁棒初始化方法：基于影像尺寸与重叠度动态确定匹配搜索范围，通过本质矩阵与单应性矩阵优化选择，实现高成功率的 SLAM 初始化；
多级匹配与粗精优化的实时位姿估计：通过两级匹配提升对应点数量与精度，结合粗到精的位姿求解策略，适配飞行姿态突变场景；
低重叠影像并行实时建模：采用并行处理策略，实现三维点云实时生成与下一帧特征提取的同步执行，保障后续定位的地图点充足性；
三次位姿优化机制：基于迭代重加权最小二乘（IRLS）算法，通过三级优化逐步提升位姿精度，最终满足实时测绘的精度要求。

原文链接：(PDF) RTO-LLI: Robust Real-Time Image Orientation Method With Rapid Multilevel Matching and Third-Times Optimizations for Low-Overlap Large-Format UAV Images

代码链接：暂无

沐小含持续分享前沿算法论文，欢迎关注...

二、相关工作综述

2.1 运动恢复结构（SfM）方法

SfM 方法基于多视图几何理论，分为增量式与全局式两类：

增量式 SfM（如 Colmap、OpenMVG）：从少量影像初始化，逐步添加新影像并通过 PnP 算法估计位姿，每次添加后执行光束法平差（BA）优化。虽支持数据采集过程中的增量处理，但 BA 算法计算复杂度随影像数量增长呈二次上升，无法满足实时性要求；
全局式 SfM（如 PhotoScan、Altizure）：通过旋转平均与平移平均一次性求解所有影像位姿，仅需一次 BA 优化，效率优于增量式方法，但需等待所有数据采集完成后批量处理，且对计算资源要求极高，难以适配机载或移动设备。

2.2 SLAM 技术

SLAM 技术分为直接法、半直接法、特征法及深度学习方法：

直接法与半直接法（如 DSO、SVO）：通过最小化光度误差求解位姿，无需特征描述子匹配，速度较快，但对帧间重叠度要求高，低重叠场景下鲁棒性差；
特征法（如 ORB-SLAM3）：基于 ORB 等特征描述子实现匹配，支持长基线数据处理，但在大尺寸影像的大量相似特征中难以找到足够正确匹配，且对低重叠导致的姿态突变适应性不足；
深度学习方法（如 SuperPoint SLAM）：通过深度特征提升匹配鲁棒性，但在大规模户外场景中性能受限，实时性难以保障。

2.3 无人机实时测绘相关算法

现有无人机实时测绘技术主要分为三类：

基于 SLAM 的影像拼接：依赖单应性矩阵投影融合，缺乏绝对坐标与定向信息，存在畸变与错位问题；
基于高精度 POS 的实时测绘：需依赖昂贵的高精度 POS 设备，应用成本高；
无控制点实时测绘（如 DirectMap 项目）：无需高精度 POS，但仅适用于小尺寸、高重叠影像或视频数据，无法处理低重叠大尺寸影像。

此外，现有相关算法如 ClusterFusion 依赖 GNSS 与 GPU 加速，RTSfM 虽支持低重叠大尺寸影像处理，但仅适用于近地面平面场景，且对重复纹理区域的误匹配敏感，计算复杂度高。

三、RTO-LLI 核心技术原理（精细化解读）

RTO-LLI 的核心框架如图 1 所示，以 "初始化 - 位姿跟踪 - 多级匹配与粗精优化 - 三次优化 - 并行建模" 的闭环流程为核心，针对低重叠大尺寸影像的技术痛点，在每个模块设计了针对性的数学模型与执行逻辑，以下对核心技术原理进行逐模块精细化解读。

3.1 低重叠大尺寸影像的鲁棒初始化方法

初始化的核心目标是在低重叠、大数据量的约束下，建立初始两帧间的可靠对应关系与地图点，为 SLAM 后续流程提供稳定起点。其技术原理与执行步骤如下：

3.1.1 动态搜索范围确定

针对低重叠影像对应点分布稀疏的问题，设计基于影像尺寸与重叠度的动态搜索半径机制：

搜索半径的计算逻辑：若已知航向重叠与横向重叠，则；若重叠度未知，通过暴力匹配获取初始对应点，计算其平均距离作为。该设计确保在低重叠场景下不遗漏潜在对应点，同时避免无效搜索导致的计算冗余；
匹配参数配置：ORB 特征的显著性检验比与距离阈值均设为较大值，降低匹配筛选门槛，最大化初始对应点数量。

3.1.2 双矩阵求解与最优选择模型

为适配不同场景（如平面场景与非平面场景）的初始化需求，同时求解本质矩阵（矩阵）与单应性矩阵（矩阵），并通过评分机制选择最优模型：

矩阵求解：采用八点法，利用两帧间的 2D-2D 对应点计算基础矩阵，描述影像间的极线约束关系；
矩阵求解：通过直接线性变换法，求解描述两帧间投影变换的单应性矩阵，适用于平面场景或低视差场景；
模型评分与选择：对每个对应点，计算其到矩阵与矩阵所确定极线的距离与。若 < 阈值，累积 "阈值 - " 作为矩阵得分；若 ≥ 阈值，该对应点被剔除。选择得分更高的矩阵用于相对位姿恢复，确保初始化在复杂场景下的鲁棒性。

3.1.3 相对位姿恢复与三角化

位姿恢复：对最优矩阵进行分解，本质矩阵分解可得到 4 组可能的位姿组合，单应性矩阵分解可得到 8 组可能的位姿组合，通过三角化验证（确保地图点深度为正）筛选出唯一有效的相对位姿；
初始地图点生成：对筛选后的有效对应点执行三角化计算，得到初始三维地图点。若地图点数量满足预设阈值（确保后续定位的有效性），则初始化完成；否则，采用后续两帧重新执行初始化流程。

3.2 恒速假设跟踪原理

利用无人机在单航带飞行时的近似恒速运动特性，设计快速位姿跟踪模块，降低常规场景下的计算复杂度：

3.2.1 运动假设模型

假设当前帧与前一帧的运动关系，等同于前一帧与前前帧的运动关系，即：

其中表示位姿（旋转矩阵与平移向量），通过该假设可快速得到当前帧的初始位姿估计，无需复杂匹配与优化。

3.2.2 投影匹配与 IRLS 优化

地图点投影：将前一帧的地图点，通过初始位姿估计投影到当前帧，得到投影坐标；
邻域匹配：在投影坐标周围的小范围邻域内搜索当前帧的特征点，建立 3D-2D 对应关系；
加权重投影误差最小化：在李代数流形空间中，以 IRLS 算法最小化加权重投影误差，目标函数为：

其中，为单应性误差，为 Huber 鲁棒加权函数（降低大残差对应点的影响），为信息矩阵（由特征点尺度决定，尺度越大权重越高）。

3.2.3 跟踪成功判定条件

当匹配的 3D-2D 对应点数量≥预设阈值，且优化后的重投影误差 RMSE＜1.5 像素时，判定跟踪成功，直接进入三次优化阶段；否则，启动多级匹配与粗精优化流程。

3.3 多级匹配与粗精优化的实时位姿估计（核心模块）

该模块是 RTO-LLI 处理飞行姿态突变、低重叠、弱纹理等复杂场景的核心，通过 "两级匹配 + 三级位姿求解" 的递进式架构，实现对应点数量与位姿精度的逐步提升，流程如图 2 所示。

3.3.1 一级匹配：BoW + 左右一致性约束的高精度匹配

针对大尺寸影像特征数量庞大（单帧可达数万特征点）导致的匹配效率与精度矛盾，设计基于预训练 BoW 树与左右一致性约束的一级匹配：

BoW 树的快速匹配机制：将 ORB 描述子空间划分为若干子空间，匹配仅在子空间内进行，时间复杂度从暴力匹配的降至。预训练 BoW 树的词典规模根据大尺寸影像特征分布特性优化，确保子空间划分的合理性；
左右一致性验证：要求参考关键帧的地图点与当前帧的特征点互为子空间内的最优匹配（即的最优匹配是，且的最优匹配是）。该约束可有效剔除单向误匹配，使一级匹配的对应点准确率超 97%；
输出结果：得到高精度的 2D-3D 对应点集，为后续粗位姿估计提供可靠数据基础。

3.3.2 一级位姿估计：适配姿态突变的粗位姿求解

针对无人机飞行过程中可能出现的姿态突变（如急转弯、快速升降），设计基于本质矩阵分解与 EPnP 算法的粗位姿估计：

异常值剔除：对一级匹配的对应点集，采用 RANSAC - 五点法求解本质矩阵，剔除误匹配异常值。五点法仅需 5 个对应点即可求解，适用于对应点数量有限的场景；
姿态突变检测：分解本质矩阵得到当前帧相对前一帧的姿态变化量与，若的欧拉角变化量＞预设阈值（如 30°），判定为姿态突变；
粗位姿求解：姿态突变场景下，采用 EPnP 算法（高效透视点算法）求解初始位姿，该算法通过将 3D 点投影到相机坐标系的重心，降低求解复杂度，适用于初始值不准确的场景；非姿态突变场景下，以前一帧位姿作为初始值，通过 IRLS 优化得到粗位姿。

3.3.3 前航带最优共视帧选择：扩展对应点分布范围

为解决低重叠影像对应点覆盖范围小、分布不均的问题，利用无人机航带的横向重叠特性，引入前航带共视帧参与匹配：

候选帧筛选：遍历前航带的关键帧，选择视锥与当前帧相交的关键帧作为候选帧（确保存在潜在重叠区域）；
最优帧选择准则：计算候选帧与当前帧航向的夹角，选择 >阈值且最接近 90° 的候选帧作为最优共视帧。该设计确保共视帧提供的对应点与当前帧的航向方向垂直，最大化对应点覆盖范围（如图 3 所示）；
数据融合：将最优共视帧的地图点加入匹配池，与参考关键帧的地图点共同参与后续匹配，使对应点分布更均匀。

3.3.4 二级匹配：投影初始化 + 金字塔光流的高精度匹配

针对一级匹配对应点数量不足的问题，设计基于投影初始化与金字塔光流的二级匹配，进一步补充高精度对应点：

初始坐标投影：基于一级粗位姿，将参考关键帧与前航带最优共视帧的地图点，投影到当前帧的金字塔顶层，得到对应点的初始坐标；
金字塔光流跟踪：构建当前帧的图像金字塔（通常为 4-6 层），从顶层到底层逐层级最小化光流残差，目标函数为：

其中，为金字塔层级，与分别为参考帧与当前帧在第层的灰度图像，为上一层光流的初始值（顶层初始值为 0），为当前层光流误差，为灰度差异计算窗口尺寸；
优势：该方法不受特征冗余不足的限制，通过多尺度光流跟踪实现亚像素级别的对应点定位，二级匹配后对应点数量达到传统 BoW 匹配的 4.29 倍。

3.3.5 二级位姿优化：RANSAC + 预扩展点云的鲁棒求解

为应对低重叠场景下对应点数量仍不足的问题，设计融合 RANSAC 异常值剔除与预扩展点云的二级优化策略：

RANSAC 迭代优化：
1. 随机采样 4 组 2D-3D 对应点，求解当前帧位姿；
2. 计算所有对应点的重投影误差，统计内点数量（重投影误差＜阈值）；
3. 若当前内点数量超过历史最大值，更新最优位姿与内点集，并根据公式：
  
  更新迭代上限（为置信度，通常设为 0.99；为内点率估计值）；
4. 迭代至达到次，得到基于内点集的优化位姿。
预扩展点云生成（内点不足时触发）：
1. 选择与参考关键帧共视地图点充足的关键帧作为共视关键帧；
2. 采用宽松匹配条件（降低 BoW 匹配的距离阈值），在参考关键帧与共视关键帧间进行 2D-2D 匹配，生成密集对应点；
3. 对密集对应点执行三角化，得到预扩展点云，临时补充至参考关键帧的地图点集中；
4. 重新执行一级与二级匹配，获取更多 2D-3D 对应点。
极线几何约束增强：针对低重叠场景下 3D-2D 对应点仅分布于三帧及以上重叠区域的问题，引入 2D-2D 约束扩展控制区域（如图 4 所示）：
1. 通过 BoW 匹配得到参考关键帧与当前帧的 2D-2D 对应点，利用五点法求解本质矩阵，分解得到相对旋转与平移方向（与真实平移仅相差尺度因子）；
2. 将与作为约束加入位姿优化目标函数：
  
  其中，为尺度优化变量，为经验权重（平衡重投影误差与约束项），为参考关键帧的旋转矩阵。该设计将控制区域从 "三帧重叠区" 扩展至 "两帧重叠区"，显著提升低重叠场景下的位姿估计鲁棒性。

在二级优化位姿的基础上，利用更大范围的局部地图点进行最终优化，进一步提升位姿精度：

共视关键帧选择：统计当前帧与地图中所有关键帧的共视地图点数量，选择共视点最多的前个关键帧（根据计算资源动态调整）作为共视关键帧；
自适应搜索范围匹配：将共视关键帧的地图点通过二级优化位姿投影到当前帧，采用小搜索半径（确保匹配精度）搜索对应特征点；若对应点数量不足，将搜索半径扩大至 1.5 倍，补充匹配；
IRLS 精优化：以二级优化位姿为初始值，通过 IRLS 算法最小化重投影误差，得到最终高精度位姿。该阶段的优化目标函数与恒速跟踪阶段一致，但纳入了更多共视地图点，确保位姿估计的稳定性与精度。

3.5 并行实时建模：低重叠场景下的地图点保障机制

针对低重叠影像后续帧定位地图点不足的问题，设计基于并行处理的实时建模模块，实现 "定位 - 建模" 的协同高效执行：

全帧三角化策略：将每帧均视为关键帧，参与三角化生成新地图点，确保低重叠场景下地图点的密度；
并行匹配与三角化：采用多线程机制，当前帧与多个共视关键帧的 2D-2D 匹配在不同线程中并行执行，匹配基于 BoW 树加速；匹配完成后，并行执行三角化计算，生成新地图点；
特征提取并行化：当系统接收新输入影像时，启动独立线程执行特征提取与金字塔构建，与当前帧的建模过程并行进行；但下一帧的定位需等待当前帧建模完成，确保新地图点已生成，避免因地图点不足导致的定位失败。

四、实验验证与分析

4.1 实验设置

4.1.1 硬件与软件环境

硬件：Intel i5-13490F 处理器、32GB 内存（仅使用 CPU，无 GPU 加速）；
软件环境：PhotoScan 运行于 Windows 10，RTO-LLI、OpenMVG、Colmap、ORB-SLAM3 运行于 Ubuntu 22.04。

4.1.2 实验数据集

选取 6 组低重叠大尺寸无人机影像数据集，覆盖城市、校园、农田、科技园区等多种场景，详细信息如表 1 所示：

4.1.3 评价指标

效率：单帧平均处理时间；
鲁棒性：轨迹覆盖率（成功定位帧数 / 总帧数）；
精度：绝对轨迹误差（ATE）的均方根误差（RMSE）、平均重投影误差。

4.2 效率对比实验

将 RTO-LLI 与传统离线 SfM 方法（PhotoScan、OpenMVG、Colmap）进行单帧处理时间对比，结果如图 5 所示：

实验结果表明：

RTO-LLI 的单帧处理时间小于 1 秒，处理速度达 1.5 帧 / 秒，远超 PhotoScan（2.81 倍）、OpenMVG（11.08 倍）、Colmap（7.37 倍）；
传统 SfM 方法需 3 秒以上处理单帧，且需等待所有数据采集完成后批量处理，无法满足实时性要求；
RTO-LLI 是唯一能在普通 CPU 上实现 2000 万像素低重叠大尺寸影像实时处理的方法。

4.3 鲁棒性对比实验

将 RTO-LLI 与改进后的 ORB-SLAM3（初始化方法与 RTO-LLI 一致，每帧设为关键帧）进行 50 次重复实验，轨迹覆盖率对比如图 6 所示：

实验结果表明：

RTO-LLI 在所有 4 类场景的 50 次重复实验中均实现 100% 轨迹覆盖，鲁棒性远超 ORB-SLAM3；
ORB-SLAM3 仅能处理 jiangxia-urban 序列，在 Whu-campus（航向多变）、Rural1-2（弱纹理、重复纹理）序列中频繁定位失败，核心原因是其匹配模块难以应对低重叠大尺寸影像的大量相似特征，且位姿估计对姿态突变敏感；
RTO-LLI 的多级匹配与粗精优化策略有效解决了上述问题，即使在姿态突变与弱纹理场景下仍能稳定获取足够数量的高精度对应点。

4.4 精度对比实验

将 RTO-LLI 与 Colmap、GLOMAP、PhotoScan 进行精度对比，以机载 GNSS 数据为真值，通过 Sim (3) 变换对齐轨迹，结果如表 2、表 3 所示：

精度分析结论：

RTO-LLI 的位姿估计位移误差小于轨迹长度的 1/2000，平均重投影误差小于 1.5 像素，精度接近传统离线方法；
离线方法（如 Colmap）通过全局 BA 优化获得更高精度，但牺牲了实时性；RTO-LLI 作为在线方法，仅利用当前帧之前的序列数据，在低重叠场景下仍能保持可接受的精度；
在 Rural1-2 等弱纹理场景中，RTO-LLI 的重投影误差优于 PhotoScan，体现了其匹配策略的鲁棒性。

4.5 消融实验

为验证各核心模块的有效性，设计三组消融实验：

4.5.1 多级匹配 vs 传统 BoW 匹配

对比 RTO-LLI 的多级 3D-2D 匹配与传统 BoW 匹配，结果如表 4 所示：

结果表明：多级匹配的对应点数量是传统 BoW 匹配的 4.29 倍，平均准确率提升 16.1%，且无明显误匹配，为位姿估计提供了可靠的数据基础。

4.5.2 前航带最优共视帧选择的影响

对比是否使用前航带最优共视帧的定位效果，结果如表 5 所示：

结果表明：引入前航带最优共视帧后，ATE 降低 20.53%，匹配点覆盖范围扩大，分布更均匀，有效提升了位姿估计精度。

4.5.3 极线几何约束的有效性

在航向重叠度 55% 的 Technology Park 数据集上，对比是否引入极线几何约束的定位效果：

移除极线几何约束：第一航带定位失败，因低重叠导致 3D-2D 对应点不足且分布不均；
保留极线几何约束：成功完成全序列定位，ATE-RMSE 小于 1m，验证了该约束对低重叠场景的适配性。

进一步测试表明，RTO-LLI 可稳定处理航向重叠度≥50% 的数据集，局部重叠度略低于 50% 时，若当前帧仍能观测到部分地图点，仍可完成定位，满足实际测绘作业中≥60% 重叠度的要求。

五、讨论与展望

5.1 关键技术优势分析

5.1.1 效率提升关键

高效特征与匹配策略：采用 ORB 特征描述子，结合 BoW 树与位姿约束缩小搜索范围，降低匹配复杂度；
并行处理：建模与特征提取并行执行，避免单线程瓶颈；
避免全局 BA：通过三次优化替代计算密集的全局 BA，在精度与效率间取得平衡。

5.1.2 鲁棒性提升关键

动态初始化参数：适配不同重叠度与尺寸的影像；
多级匹配与异常值剔除：通过 BoW 约束、左右一致性、RANSAC 等多重机制降低误匹配影响；
多源约束融合：融合恒速假设、极线几何、前航带共视帧等多源信息，提升复杂场景适应性。

5.1.3 精度提升关键

对应点质量保障：多级匹配提升对应点数量与精度，优化匹配点分布；
粗精优化策略：从恒速跟踪到三次 IRLS 优化，逐步细化位姿估计；
地图点充足性：并行建模确保后续定位的地图点密度。

5.2 局限性与未来工作

5.2.1 现有局限

依赖局部地图点：当前仅利用局部地图点进行定位定向，缺乏全局优化，长期运行可能存在累积误差；
未支持密集点云实时生成：仅实现稀疏点云实时建模，尚未支持密集点云与 DEM/DOM 的实时生成；
最小重叠度限制：无法处理航向重叠度低于 50% 的极端场景。

5.2.2 未来方向

设计低计算成本的全局 BA 方法：在不影响实时性的前提下，通过全局优化修正累积误差；
密集重建与产品生成：开发低重叠大尺寸影像的实时密集点云生成算法，实现 DEM/DOM 等产品的实时输出；
扩展传感器适配：融合 IMU 等多传感器数据，进一步提升低重叠、弱纹理场景的鲁棒性。

六、结论

RTO-LLI 方法通过鲁棒初始化、多级匹配与三次优化、并行实时建模四大核心模块，首次实现了低重叠大尺寸无人机影像的实时、鲁棒、高精度定向。实验验证表明：

效率：处理速度达 1.5 帧 / 秒，远超传统离线方法，满足实时测绘要求；
鲁棒性：在 4 类场景的 50 次重复实验中均实现 100% 轨迹覆盖，鲁棒性优于主流 SLAM 方法；
精度：位姿位移误差小于轨迹长度的 1/2000，平均重投影误差小于 1.5 像素，接近传统离线方法。

该方法填补了低重叠大尺寸无人机影像实时处理的技术空白，为无人机高效测绘、应急响应、三维建模等应用提供了可靠的技术支撑，具有重要的工程价值与学术意义。