GRiM-Net 深度解析 | 无人机 GNSS 拒止场景下两阶段跨视角视觉定位框架

无人机导航 | GNSS 拒止 | 跨视角图像匹配 | 视觉定位 | 深度学习

原文信息 论文标题：GRiM-Net: A Two-Stage Cross-View Visual Localization Framework for UAVs期刊：Remote Sensing（MDPI，2026 年 5 月）

作者：Hu Yutao, Zeng Qinyong（电子科技大学）

DOI：10.3390/rs18101477

论文链接：https://www.mdpi.com/2072-4292/18/10/1477

开源状态：论文附带核心伪代码，完整工程代码暂未开源

一、前言

在复杂战场、城市峡谷、电磁干扰等场景中，GNSS 信号极易失效 ，无人机无法依赖卫星导航完成作业。基于机载相机 + 离线卫星底图的跨视角视觉定位，成为 GNSS 拒止环境下无人机自主导航的核心技术路线。

目前主流方案分为两大方向：

端到端回归方案（如 Bearing-UAV）：直接回归位置 / 航向，推理快，但大尺度地图检索效率低；
单帧特征匹配方案：逐图全量匹配卫星瓦片，精度尚可，但全局搜索耗时巨大，无法适配大范围作业区域。

针对全局检索效率低、跨视角域差异大、像素级配准精度不足 三大痛点，电子科技大学团队提出 GRiM-Net ------ 一套全局检索 + 像素精配准两阶段联合优化框架。该框架兼顾大范围地图检索的实时性与局部配准的高精度，同时通过域自适应模块缓解无人机航拍图与卫星正射图的视角、光照、尺度差异，是工程落地性极强的无人机视觉定位方案。

本文将从研究背景、整体架构、核心模块、数学公式、损失函数、实验结果、优缺点、工程落地建议八大维度，完整拆解 GRiM-Net。

二、研究背景与核心痛点

2.1 应用场景

无人机在无 GNSS 环境下，依托预存地理配准卫星底图 与机载实时 RGB 图像，完成全局绝对定位，可支撑巡检、搜救、低空作战等长航时自主飞行任务。

2.2 现有技术瓶颈

全局搜索效率低下卫星底图覆盖范围可达数十平方公里，传统逐帧全图特征匹配计算量爆炸，嵌入式无人机平台无法满足实时性要求。
跨视角域间隙显著 无人机低空倾斜航拍图与卫星天底正射图存在视角畸变、尺度变化、光照 / 季节差异，通用特征提取网络匹配准确率大幅下降。
粗匹配与精配准脱节多数方案将检索、配准拆分为独立模块，无法联合优化特征，上游检索误差会持续向下游配准传导，最终降低定位精度。
弱纹理区域鲁棒差森林、农田、荒漠等低特征区域，传统关键点匹配极易出现错配。

2.3 GRiM-Net 核心设计思路

采用粗检索→精配准两级流水线，共享主干网络实现特征联合优化：

第一阶段（全局检索）：对全量卫星瓦片构建特征索引库，快速筛选 Top-K 候选区域，将搜索范围从 "全域" 收缩到 "局部"；
第二阶段（像素级精配准）：在候选瓦片内完成双向关键点匹配 + 加权单应变换，解算无人机精确地理坐标；
全局联合训练：检索损失、关键点损失、单应重投影损失协同优化，让主干特征同时适配检索与配准任务；
域自适应归一化：弱化无人机图像与卫星图像的域差异，提升跨场景泛化能力。

三、整体网络架构

3.1 整体流水线

核心设计亮点 ：两个模块共用同一主干网络 ，避免重复特征计算；引入域自适应批量归一化（Domain-Adaptive BN） 解决跨视角域偏移问题；全程端到端联合训练，特征表达双向增益。

3.2 基础符号定义

为方便后续公式解读，统一符号：

符号	含义
	无人机实时航拍查询图像
	离线卫星参考瓦片图像
	无人机图像数据域
	卫星图像数据域
	共享主干特征提取网络
	查询图、卫星图全局特征向量
	查询图、卫星图关键点集合
	单应性矩阵（Homography）
	卫星瓦片特征索引库

符号	含义	特性 & 作用
γ	缩放系数（可学习参数）	整个网络全局共享，无人机 / 卫星域共用一套；对标准化后的特征做幅值缩放，恢复表达能力
β	偏移系数（可学习参数）	全局共享；对特征做平移，调整特征整体偏置
ϵ	极小常数（超参数，不可学习）	防止分母 σd2 为 0，避免除零错误；论文一般取 10−5 或 10−6
	域自适应 BN 的输出特征	归一化后、送入网络下一层的最终特征

四、核心模块详细拆解

4.1 模块一：共享主干 + 域自适应批量归一化

4.1.1 功能作用

主干网络负责提取图像全局特征与局部关键点特征，是两阶段任务的基础。针对无人机图、卫星图两大视觉域分布不一致 问题，作者采用域自适应 BN，为两个域分别维护均值、方差，抑制域偏移，无需额外域判别网络，轻量化优势明显。

4.1.2 域自适应 BN 公式

批量归一化（Batch Normal）是深度学习基础层，作用是归一化网络层特征分布，缓解梯度消失、加速训练、提升泛化能力。

核心逻辑：先将特征标准化为零均值、单位方差，再通过可学习参数 γ（缩放）、β（偏移）恢复特征表达能力。

在 GRiM-Net 场景中存在双数据域问题：

无人机航拍图域（记为 q 域）：低空、倾斜视角、动态光照；
卫星底图域（记为 s 域）：高空、正射视角、静态成像。

两个域的特征分布差异极大（域偏移 / Domain Shift ），共用一套 BN 统计量会导致特征退化。因此论文设计域自适应 BN，为两个域独立维护均值、方差，共享 γ/β 权重，轻量化解决跨域问题。

d=q：无人机图像域；d=s：卫星图像域；
可学习缩放、偏移参数；ϵ：极小值，防止分母为 0

第一步：分域计算均值与方差（公式 1）

执行逻辑 训练阶段会把输入数据按图像来源 划分为两大集合：无人机图集合 Dq、卫星图集合 Ds。分别对两个集合内的所有特征 xi 计算批次均值 和批次方差 ，两套统计量相互独立、互不干扰。
业务价值（核心解决的问题） 传统 BN 会混合无人机、卫星图像的特征统计量，相当于用 "混合分布" 归一两个差异巨大的域，导致特征被强行抹平、跨视角匹配能力下降。域自适应 BN 为两类图像单独统计分布，保留各自独有的视觉特征（无人机倾斜纹理、卫星正射纹理）。

3举例：

第二步：分域归一化变换（公式 2）

该公式拆分为 3 个连续运算，对应标准 BN 的经典流程：

去中心化：x−μd用当前域的均值抵消特征整体偏移，让特征中心对齐到 0 点。
标准化 ：除以当前域的标准差，将特征缩放为单位方差；ϵ 兜底防除零。
仿射变换 ：γ⋅(⋅)+β全局共享的缩放 + 偏移，是网络的可学习权重。 不区分域 ，全网共用。目的：让两个域学习统一的特征语义空间，保证无人机特征和卫星特征具备可比性（匹配的基础）。

4.1.3 主干输出

主干网络输出两类特征：

全局聚合特征：用于第一阶段全局检索；

局部关键点特征图：用于第二阶段像素级精配准。

离线预处理：遍历所有卫星底图瓦片，通过主干提取全局特征 fs，存入索引库 Index；
在线推理：无人机图像提取全局特征 fq，计算特征相似度；
候选筛选：根据相似度排序，输出 Top-K（默认 K=5）卫星候选瓦片。

4.2.3 相似度计算 & 检索损失（三元组损失）

采用余弦相似度 衡量跨图像特征匹配度，训练阶段使用三元组损失（Triplet Loss） 优化全局特征，拉大正样本（匹配瓦片）与负样本（非匹配瓦片）的特征距离。

1）余弦相似度

2）检索三元组损失

fs+：与查询图匹配的正样本卫星瓦片特征；
fs−：不匹配的负样本卫星瓦片特征；
α：间隔 margin（论文默认α=0.2）。

作用：训练主干网络，让同场景无人机 - 卫星特征相似度更高，异场景更低，提升检索准确率

4.3 模块三：第二阶段像素级精配准模块（精定位）

该模块是定位精度的核心，针对第一阶段输出的 Top-K 候选卫星瓦片，完成关键点检测 - 描述 - 双向匹配 - 加权单应估计，最终解算无人机精确地理坐标。

4.3.1 子模块 1：关键点检测与描述子提取

主干网络输出局部特征图，完成像素级关键点

、检测与描述子生成，沿用轻量级关键点范式，兼顾精度与速度。训练损失分为关键点损失 + 描述子损失：

Ldet：关键点检测损失（区分有效特征点与背景）；
Ldesc：描述子匹配损失（约束匹配对特征距离最小）

4.3.2 子模块 2：双向特征匹配

采用双向匹配策略（无人机→卫星、卫星→无人机），过滤单向匹配带来的误匹配对，提升鲁棒性。

匹配规则：仅保留双向互为最优的关键点对。

4.3.3 子模块 3：加权单应性矩阵估计

传统单应矩阵易受少量错配点干扰，GRiM-Net 引入匹配置信度权重，对高可信度匹配对赋予更大权重，抑制离群值。

1）加权单应求解公式

设匹配点对为 (uq,us)，对应权重 w（由描述子相似度生成）：

H∈R3×3：单应矩阵，描述无人机图像与卫星图像的投影变换关系；
wi：第i组匹配对的置信权重。

2）单应重投影损失（训练用）

约束单应矩阵的投影误差，保证几何变换的准确性。

4.3.4 地理坐标解算

通过求解得到的单应矩阵，将无人机图像中心点映射到卫星瓦片的像素坐标，结合卫星瓦片预存的地理坐标（经纬度 / 平面坐标），换算出无人机全局绝对位置。

4.4 整体联合损失函数

GRiM-Net 采用多任务联合损失，将检索损失、关键点损失、单应损失加权融合，实现两模块协同优化：

λ1,λ2,λ3：损失权重（论文实验最优配比：λ1=0.4,λ2=0.3,λ3=0.3）。

核心优势：不再拆分训练，全局检索与局部配准相互促进，特征表达同时适配两大任务。

五、实验配置与核心结果

5.1 实验数据集

采用无人机 - 跨视角定位主流公开数据集：University-1652、SUES-200、DenseUAV，覆盖校园、城市、低矮建筑群等典型低空场景。

硬件平台：Jetson Nano（嵌入式 ARM 平台，模拟无人机机载算力）。

5.2 对比基线

选取当前主流跨视角定位算法：

单帧检索类：AnyLoc、CosPlace；
端到端回归类：Bearing-UAV；
传统关键点类：SIFT+FLANN。

5.3 核心指标（定位误差、推理耗时）

|--------------|-----------|----------------------|-----------|
| 算法 | 平均定位误差（m） | 嵌入式推理耗时（Jetson Nano） | 场景适配 |
| SIFT+FLANN | 35.7 | 410 ms | 全场景，弱纹理失效 |
| AnyLoc | 28.3 | 320 ms | 全域检索慢 |
| Bearing-UAV | 12.5 | 160 ms | 大范围地图泛化弱 |
| GRiM-Net | 10.2 | 220 ms | 城镇最优 |

补充场景结果：

森林 / 农田等弱纹理区域：平均定位误差 22.6 m（优于所有基线）；
纯城区密集建筑：误差稳定在 10m 以内。

5.4 消融实验结论

域自适应 BN：移除后定位误差上升 4.1m，证明其有效缓解跨视角域偏移；
双向匹配：改为单向匹配后，错配率提升 27%，精度显著下降；
加权单应：取消权重后，离群值导致误差上升 3.8m；
联合损失：分阶段训练相比联合训练，误差增加 5.3m，验证联合优化的必要性。

六、算法优势与现存不足

6.1 核心优势（工程落地核心亮点）

两级架构，兼顾效率与精度全局检索收缩搜索范围，解决大尺度卫星底图检索卡顿；像素精配准保证定位精度，完美适配无人机大范围作业场景。
跨视角鲁棒性强域自适应 BN 无需额外域迁移网络，轻量化前提下解决航拍图与卫星图的视角、光照差异。
抗弱纹理 / 错配双向关键点匹配 + 加权单应矩阵，双重过滤离群值，森林、农田等低特征区域表现优于传统算法。
嵌入式友好主干轻量化设计，可在 Jetson Nano 等机载 ARM 平台实时运行，无需 GPU 强算力。
联合优化设计检索、配准任务共享特征，特征表达双向增强，整体性能优于拆分方案。

6.2 现存不足

依赖离线卫星底图：底图缺失 / 更新不及时时无法工作，无实时地图补全能力；
极端天气受限：浓雾、暴雪场景下图像质量下降，关键点检测效果变差；
长航时无漂移优化缺失：纯视觉方案，未融合 IMU/VIO，长时间飞行无轨迹约束，累计漂移大于 NaviLoc 等轨迹优化方案；
仅输出位置：未联合预测航向角，无法直接对接全自主航线控制。

七、同类算法横向对比

|-------------|----------------|--------|----------------|------------|------------|
| 算法 | 技术路线 | 定位精度 | 核心依赖 | 漂移特性 | 适用场景 |
| GRiM-Net | 粗检索 + 精配准（两阶段） | 10.2 m | 单目 + 离线卫星图 | 纯视觉，短时漂移可控 | 大范围城镇无人机巡检 |
| NaviLoc | 轨迹级优化 + VIO | 19.5 m | 单目 + VIO + 卫星图 | 长航时低漂移 | 长距离航路飞行 |
| Bearing-UAV | 端到端特征回归 | 8.6 m | 单目 + 卫星切片 | 无累计漂移 | 中小范围城市导航 |
| PiLoT | 像素 - 3D 配准 | 1.37 m | 单目 + 3D 地理地图 | 近乎零漂移 | 高精度特种作业 |

选型建议：

优先大范围地图、嵌入式部署 → 选 GRiM-Net；
优先长航时抗漂移 → 搭配 VIO 使用 NaviLoc；
优先超高精度（有 3D 地图）→ 选 PiLoT；
优先轻量化航向输出 → 选 Bearing-UAV。

八、工程落地与复现建议

8.1 复现环境

软件：Python 3.8 + PyTorch 1.10 + OpenCV + FAISS（向量索引库，加速检索）；
硬件：训练建议 RTX 3060 及以上，推理可直接使用 Jetson Nano/Xavier。

8.2 复现流程（极简步骤）

数据准备：下载 University-1652/SUES-200 数据集，划分训练 / 测试集；
离线建库：提取所有卫星瓦片全局特征，基于 FAISS 构建索引；
模型训练：加载主干网络，启用联合损失 + 域自适应 BN，端到端训练；
在线推理：图像输入 → 全局检索筛候选 → 关键点匹配 + 单应求解 → 输出地理坐标。

8.3 落地优化技巧

索引加速：使用 FAISS 量化压缩特征，进一步降低检索耗时；
动态 K 值：纹理丰富区域 K=3，弱纹理区域 K=8，自适应调整候选数；
多源融合：搭配低成本 IMU，用滤波融合抑制长时间视觉漂移（对标 NaviLoc 思路）；
图像预处理：无人机图像做去模糊、对比度增强，提升恶劣天气下关键点检测效果。

九、总结与技术趋势

9.1 总结

GRiM-Net 是工程导向极强 的两阶段跨视角视觉定位框架，针对无人机 GNSS 拒止场景的 "大范围检索慢、跨视角匹配差、配准精度低" 三大痛点，用全局检索 + 像素精配准的两级架构实现平衡。其轻量化设计、嵌入式适配能力，使其成为工业级无人机视觉导航的优选方案。

该算法介于 "纯检索" 与 "端到端回归" 之间，既保留了图像匹配的高精度，又解决了全域搜索的效率问题，非常适合传统景象匹配导航的算法升级。

9.2 领域技术趋势（结合近两月进展）

单模块 → 多级流水线：纯端到端模型逐步向 "粗定位 + 精优化" 两级架构演进，兼顾精度与速度；
纯视觉 → 多源融合：视觉匹配 + IMU/VIO/ 路网 / DEM 高程融合成为主流，解决长航时漂移；
域自适应常态化：跨视角、跨天气、跨季节的域迁移技术成为标配；
嵌入式全链路优化：算法轻量化、索引压缩、硬件指令优化是落地核心方向。