无人机导航 | GNSS 拒止 | 跨视角图像匹配 | 视觉定位 | 深度学习
原文信息 论文标题:GRiM-Net: A Two-Stage Cross-View Visual Localization Framework for UAVs期刊:Remote Sensing(MDPI,2026 年 5 月)
作者:Hu Yutao, Zeng Qinyong(电子科技大学)
DOI:10.3390/rs18101477
论文链接:https://www.mdpi.com/2072-4292/18/10/1477
开源状态:论文附带核心伪代码,完整工程代码暂未开源
一、前言
在复杂战场、城市峡谷、电磁干扰等场景中,GNSS 信号极易失效 ,无人机无法依赖卫星导航完成作业。基于机载相机 + 离线卫星底图的跨视角视觉定位,成为 GNSS 拒止环境下无人机自主导航的核心技术路线。
目前主流方案分为两大方向:
- 端到端回归方案(如 Bearing-UAV):直接回归位置 / 航向,推理快,但大尺度地图检索效率低;
- 单帧特征匹配方案:逐图全量匹配卫星瓦片,精度尚可,但全局搜索耗时巨大,无法适配大范围作业区域。
针对全局检索效率低、跨视角域差异大、像素级配准精度不足 三大痛点,电子科技大学团队提出 GRiM-Net ------ 一套全局检索 + 像素精配准两阶段联合优化框架。该框架兼顾大范围地图检索的实时性与局部配准的高精度,同时通过域自适应模块缓解无人机航拍图与卫星正射图的视角、光照、尺度差异,是工程落地性极强的无人机视觉定位方案。
本文将从研究背景、整体架构、核心模块、数学公式、损失函数、实验结果、优缺点、工程落地建议八大维度,完整拆解 GRiM-Net。
二、研究背景与核心痛点
2.1 应用场景
无人机在无 GNSS 环境下,依托预存地理配准卫星底图 与机载实时 RGB 图像,完成全局绝对定位,可支撑巡检、搜救、低空作战等长航时自主飞行任务。
2.2 现有技术瓶颈
- 全局搜索效率低下卫星底图覆盖范围可达数十平方公里,传统逐帧全图特征匹配计算量爆炸,嵌入式无人机平台无法满足实时性要求。
- 跨视角域间隙显著 无人机低空倾斜航拍图与卫星天底正射图存在视角畸变、尺度变化、光照 / 季节差异,通用特征提取网络匹配准确率大幅下降。
- 粗匹配与精配准脱节多数方案将检索、配准拆分为独立模块,无法联合优化特征,上游检索误差会持续向下游配准传导,最终降低定位精度。
- 弱纹理区域鲁棒差森林、农田、荒漠等低特征区域,传统关键点匹配极易出现错配。
2.3 GRiM-Net 核心设计思路
采用粗检索→精配准两级流水线,共享主干网络实现特征联合优化:
- 第一阶段(全局检索):对全量卫星瓦片构建特征索引库,快速筛选 Top-K 候选区域,将搜索范围从 "全域" 收缩到 "局部";
- 第二阶段(像素级精配准):在候选瓦片内完成双向关键点匹配 + 加权单应变换,解算无人机精确地理坐标;
- 全局联合训练:检索损失、关键点损失、单应重投影损失协同优化,让主干特征同时适配检索与配准任务;
- 域自适应归一化:弱化无人机图像与卫星图像的域差异,提升跨场景泛化能力。
三、整体网络架构
3.1 整体流水线

核心设计亮点 :两个模块共用同一主干网络 ,避免重复特征计算;引入域自适应批量归一化(Domain-Adaptive BN) 解决跨视角域偏移问题;全程端到端联合训练,特征表达双向增益。
3.2 基础符号定义
为方便后续公式解读,统一符号:
| 符号 | 含义 |
|---|---|
| 无人机实时航拍查询图像 | |
| 离线卫星参考瓦片图像 | |
| 无人机图像数据域 | |
| 卫星图像数据域 | |
| 共享主干特征提取网络 | |
| 查询图、卫星图全局特征向量 | |
| 查询图、卫星图关键点集合 | |
| 单应性矩阵(Homography) | |
| 卫星瓦片特征索引库 |
| 符号 | 含义 | 特性 & 作用 |
|---|---|---|
| γ | 缩放系数(可学习参数) | 整个网络全局共享,无人机 / 卫星域共用一套;对标准化后的特征做幅值缩放,恢复表达能力 |
| β | 偏移系数(可学习参数) | 全局共享;对特征做平移,调整特征整体偏置 |
| ϵ | 极小常数(超参数,不可学习) | 防止分母 σd2 为 0,避免除零错误;论文一般取 10−5 或 10−6 |
| 域自适应 BN 的输出特征 | 归一化后、送入网络下一层的最终特征 |
四、核心模块详细拆解
4.1 模块一:共享主干 + 域自适应批量归一化
4.1.1 功能作用
主干网络负责提取图像全局特征与局部关键点特征,是两阶段任务的基础。针对无人机图、卫星图两大视觉域分布不一致 问题,作者采用域自适应 BN,为两个域分别维护均值、方差,抑制域偏移,无需额外域判别网络,轻量化优势明显。
4.1.2 域自适应 BN 公式
批量归一化(Batch Normal)是深度学习基础层,作用是归一化网络层特征分布,缓解梯度消失、加速训练、提升泛化能力。
- 核心逻辑:先将特征标准化为零均值、单位方差,再通过可学习参数 γ(缩放)、β(偏移)恢复特征表达能力。
在 GRiM-Net 场景中存在双数据域问题:
- 无人机航拍图域(记为 q 域):低空、倾斜视角、动态光照;
- 卫星底图域(记为 s 域):高空、正射视角、静态成像。
两个域的特征分布差异极大(域偏移 / Domain Shift ),共用一套 BN 统计量会导致特征退化。因此论文设计域自适应 BN,为两个域独立维护均值、方差,共享 γ/β 权重,轻量化解决跨域问题。
- d=q:无人机图像域;d=s:卫星图像域;
可学习缩放、偏移参数;ϵ:极小值,防止分母为 0
第一步:分域计算均值与方差(公式 1)
- 执行逻辑 训练阶段会把输入数据按图像来源 划分为两大集合:无人机图集合 Dq、卫星图集合 Ds。分别对两个集合内的所有特征 xi 计算批次均值 和批次方差 ,两套统计量相互独立、互不干扰。
- 业务价值(核心解决的问题) 传统 BN 会混合无人机、卫星图像的特征统计量,相当于用 "混合分布" 归一两个差异巨大的域,导致特征被强行抹平、跨视角匹配能力下降。域自适应 BN 为两类图像单独统计分布,保留各自独有的视觉特征(无人机倾斜纹理、卫星正射纹理)。
3举例:

第二步:分域归一化变换(公式 2)
该公式拆分为 3 个连续运算,对应标准 BN 的经典流程:
- 去中心化:x−μd用当前域的均值抵消特征整体偏移,让特征中心对齐到 0 点。
- 标准化 :
除以当前域的标准差,将特征缩放为单位方差;ϵ 兜底防除零。 - 仿射变换 :γ⋅(⋅)+β全局共享的缩放 + 偏移,是网络的可学习权重。 不区分域 ,全网共用。目的:让两个域学习统一的特征语义空间,保证无人机特征和卫星特征具备可比性(匹配的基础)。
4.1.3 主干输出
主干网络输出两类特征:
全局聚合特征:用于第一阶段全局检索;
局部关键点特征图:用于第二阶段像素级精配准。
- 离线预处理:遍历所有卫星底图瓦片,通过主干提取全局特征 fs,存入索引库 Index;
- 在线推理:无人机图像提取全局特征 fq,计算特征相似度;
- 候选筛选:根据相似度排序,输出 Top-K(默认 K=5)卫星候选瓦片。
4.2.3 相似度计算 & 检索损失(三元组损失)
采用余弦相似度 衡量跨图像特征匹配度,训练阶段使用三元组损失(Triplet Loss) 优化全局特征,拉大正样本(匹配瓦片)与负样本(非匹配瓦片)的特征距离。
1)余弦相似度
2)检索三元组损失
- fs+:与查询图匹配的正样本卫星瓦片特征;
- fs−:不匹配的负样本卫星瓦片特征;
- α:间隔 margin(论文默认α=0.2)。
作用:训练主干网络,让同场景无人机 - 卫星特征相似度更高,异场景更低,提升检索准确率
4.3 模块三:第二阶段 像素级精配准模块(精定位)
该模块是定位精度的核心,针对第一阶段输出的 Top-K 候选卫星瓦片,完成关键点检测 - 描述 - 双向匹配 - 加权单应估计,最终解算无人机精确地理坐标。
4.3.1 子模块 1:关键点检测与描述子提取
主干网络输出局部特征图,完成像素级关键点
、 检测与描述子生成,沿用轻量级关键点范式,兼顾精度与速度。训练损失分为关键点损失 + 描述子损失:
- Ldet:关键点检测损失(区分有效特征点与背景);
- Ldesc:描述子匹配损失(约束匹配对特征距离最小)
4.3.2 子模块 2:双向特征匹配
采用双向匹配策略(无人机→卫星、卫星→无人机),过滤单向匹配带来的误匹配对,提升鲁棒性。
匹配规则:仅保留双向互为最优的关键点对。
4.3.3 子模块 3:加权单应性矩阵估计
传统单应矩阵易受少量错配点干扰,GRiM-Net 引入匹配置信度权重,对高可信度匹配对赋予更大权重,抑制离群值。
1)加权单应求解公式
设匹配点对为 (uq,us),对应权重 w(由描述子相似度生成):
- H∈R3×3:单应矩阵,描述无人机图像与卫星图像的投影变换关系;
- wi:第i组匹配对的置信权重。
2)单应重投影损失(训练用)
- 约束单应矩阵的投影误差,保证几何变换的准确性。
4.3.4 地理坐标解算
通过求解得到的单应矩阵,将无人机图像中心点映射到卫星瓦片的像素坐标,结合卫星瓦片预存的地理坐标(经纬度 / 平面坐标),换算出无人机全局绝对位置。
4.4 整体联合损失函数
GRiM-Net 采用多任务联合损失,将检索损失、关键点损失、单应损失加权融合,实现两模块协同优化:
- λ1,λ2,λ3:损失权重(论文实验最优配比:λ1=0.4,λ2=0.3,λ3=0.3)。
核心优势:不再拆分训练,全局检索与局部配准相互促进,特征表达同时适配两大任务。
五、实验配置与核心结果
5.1 实验数据集
采用无人机 - 跨视角定位主流公开数据集:University-1652、SUES-200、DenseUAV,覆盖校园、城市、低矮建筑群等典型低空场景。
硬件平台:Jetson Nano(嵌入式 ARM 平台,模拟无人机机载算力)。
5.2 对比基线
选取当前主流跨视角定位算法:
- 单帧检索类:AnyLoc、CosPlace;
- 端到端回归类:Bearing-UAV;
- 传统关键点类:SIFT+FLANN。
5.3 核心指标(定位误差、推理耗时)
|--------------|-----------|----------------------|-----------|
| 算法 | 平均定位误差(m) | 嵌入式推理耗时(Jetson Nano) | 场景适配 |
| SIFT+FLANN | 35.7 | 410 ms | 全场景,弱纹理失效 |
| AnyLoc | 28.3 | 320 ms | 全域检索慢 |
| Bearing-UAV | 12.5 | 160 ms | 大范围地图泛化弱 |
| GRiM-Net | 10.2 | 220 ms | 城镇最优 |
补充场景结果:
- 森林 / 农田等弱纹理区域:平均定位误差 22.6 m(优于所有基线);
- 纯城区密集建筑:误差稳定在 10m 以内。
5.4 消融实验结论
- 域自适应 BN:移除后定位误差上升 4.1m,证明其有效缓解跨视角域偏移;
- 双向匹配:改为单向匹配后,错配率提升 27%,精度显著下降;
- 加权单应:取消权重后,离群值导致误差上升 3.8m;
- 联合损失:分阶段训练相比联合训练,误差增加 5.3m,验证联合优化的必要性。
六、算法优势与现存不足
6.1 核心优势(工程落地核心亮点)
- 两级架构,兼顾效率与精度全局检索收缩搜索范围,解决大尺度卫星底图检索卡顿;像素精配准保证定位精度,完美适配无人机大范围作业场景。
- 跨视角鲁棒性强域自适应 BN 无需额外域迁移网络,轻量化前提下解决航拍图与卫星图的视角、光照差异。
- 抗弱纹理 / 错配双向关键点匹配 + 加权单应矩阵,双重过滤离群值,森林、农田等低特征区域表现优于传统算法。
- 嵌入式友好主干轻量化设计,可在 Jetson Nano 等机载 ARM 平台实时运行,无需 GPU 强算力。
- 联合优化设计检索、配准任务共享特征,特征表达双向增强,整体性能优于拆分方案。
6.2 现存不足
- 依赖离线卫星底图:底图缺失 / 更新不及时时无法工作,无实时地图补全能力;
- 极端天气受限:浓雾、暴雪场景下图像质量下降,关键点检测效果变差;
- 长航时无漂移优化缺失:纯视觉方案,未融合 IMU/VIO,长时间飞行无轨迹约束,累计漂移大于 NaviLoc 等轨迹优化方案;
- 仅输出位置:未联合预测航向角,无法直接对接全自主航线控制。
七、同类算法横向对比
|-------------|----------------|--------|----------------|------------|------------|
| 算法 | 技术路线 | 定位精度 | 核心依赖 | 漂移特性 | 适用场景 |
| GRiM-Net | 粗检索 + 精配准(两阶段) | 10.2 m | 单目 + 离线卫星图 | 纯视觉,短时漂移可控 | 大范围城镇无人机巡检 |
| NaviLoc | 轨迹级优化 + VIO | 19.5 m | 单目 + VIO + 卫星图 | 长航时低漂移 | 长距离航路飞行 |
| Bearing-UAV | 端到端特征回归 | 8.6 m | 单目 + 卫星切片 | 无累计漂移 | 中小范围城市导航 |
| PiLoT | 像素 - 3D 配准 | 1.37 m | 单目 + 3D 地理地图 | 近乎零漂移 | 高精度特种作业 |
选型建议:
- 优先大范围地图、嵌入式部署 → 选 GRiM-Net;
- 优先长航时抗漂移 → 搭配 VIO 使用 NaviLoc;
- 优先超高精度(有 3D 地图)→ 选 PiLoT;
- 优先轻量化航向输出 → 选 Bearing-UAV。
八、工程落地与复现建议
8.1 复现环境
- 软件:Python 3.8 + PyTorch 1.10 + OpenCV + FAISS(向量索引库,加速检索);
- 硬件:训练建议 RTX 3060 及以上,推理可直接使用 Jetson Nano/Xavier。
8.2 复现流程(极简步骤)
- 数据准备:下载 University-1652/SUES-200 数据集,划分训练 / 测试集;
- 离线建库:提取所有卫星瓦片全局特征,基于 FAISS 构建索引;
- 模型训练:加载主干网络,启用联合损失 + 域自适应 BN,端到端训练;
- 在线推理:图像输入 → 全局检索筛候选 → 关键点匹配 + 单应求解 → 输出地理坐标。
8.3 落地优化技巧
- 索引加速:使用 FAISS 量化压缩特征,进一步降低检索耗时;
- 动态 K 值:纹理丰富区域 K=3,弱纹理区域 K=8,自适应调整候选数;
- 多源融合:搭配低成本 IMU,用滤波融合抑制长时间视觉漂移(对标 NaviLoc 思路);
- 图像预处理:无人机图像做去模糊、对比度增强,提升恶劣天气下关键点检测效果。
九、总结与技术趋势
9.1 总结
GRiM-Net 是工程导向极强 的两阶段跨视角视觉定位框架,针对无人机 GNSS 拒止场景的 "大范围检索慢、跨视角匹配差、配准精度低" 三大痛点,用全局检索 + 像素精配准的两级架构实现平衡。其轻量化设计、嵌入式适配能力,使其成为工业级无人机视觉导航的优选方案。
该算法介于 "纯检索" 与 "端到端回归" 之间,既保留了图像匹配的高精度,又解决了全域搜索的效率问题,非常适合传统景象匹配导航的算法升级。
9.2 领域技术趋势(结合近两月进展)
- 单模块 → 多级流水线:纯端到端模型逐步向 "粗定位 + 精优化" 两级架构演进,兼顾精度与速度;
- 纯视觉 → 多源融合:视觉匹配 + IMU/VIO/ 路网 / DEM 高程融合成为主流,解决长航时漂移;
- 域自适应常态化:跨视角、跨天气、跨季节的域迁移技术成为标配;
- 嵌入式全链路优化:算法轻量化、索引压缩、硬件指令优化是落地核心方向。