论文链接:https://arxiv.org/pdf/2603.20778
开源仓库:https://nudt-sawlab.github.io/PiLoT/
PiLoT 是一套单目视觉 + 离线卫星 / 三维地图 的无人机定位方案,不靠 GPS、不靠 IMU 累计递推,直接 "看图认地图" 实现超长航程无漂移定位,同时支持画面里任意目标的实时地理锁位。
一、论文核心信息
- 标题:PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
- 会议:CVPR 2026(Highlight)
- 单位:国防科技大学 SAWLab、浙江大学、西湖大学等
- 核心定位 :纯单目 RGB + 离线地理参考 3D 地图 ,完全无 GNSS/IMU ,同时输出:
- 无人机 6-DoF 全局位姿(自定位)
- 图像任意像素点对应的 3D 地理坐标(目标定位)
- 关键指标
- 轨迹长度:10 km 无漂移
- 中位定位误差:1.37 m
- 推理延迟:30--40 ms / 帧
- 帧率:25 FPS(Jetson Orin)
- 鲁棒性:昼夜 / 跨季节 / 强机动稳定
二、核心思想
把实时航拍帧与全局地理 3D 地图做端到端神经配准,直接建立 "图像像素 ↔ 世界 3D 点" 的映射,一次性解出自定位 + 目标定位,不依赖 GNSS、不依赖 IMU、不依赖帧间跟踪、不产生漂移。
三、整体架构(四模块)
输入:单目 RGB 帧 + 地理参考 3D 地图(可来自卫星 / 正射 / DEM / 三维模型)
输出:6-DoF 位姿 T + 任意像素 3D 坐标 Xgeo
- 神经特征提取:提取对光照 / 视角鲁棒的像素级特征
- 可微渲染引擎:将 3D 地图投影到虚拟相机视图,生成监督
- 神经引导优化器(JNGO):旋转感知、各向异性采样,粗到精收敛
- 像素 - 3D 映射:由优化位姿直接反投影得到目标地理坐标
四、算法与公式(纯 LaTeX 可复制)
符号定义
% 位姿与变换
T % 6-DoF相机位姿 R|t
R % 旋转矩阵 SO(3)
t % 平移向量
π(·) % 针孔投影函数
π^{-1}(·) % 反投影函数
I % 实时航拍帧
M_3D % 地理参考3D地图
F % 2D图像特征图
X % 3D点云/地图点
X_geo % 目标点的全局地理坐标
u % 图像像素坐标 (u,v)
1. 像素 - 3D 配准目标函数
核心:最小化图像特征与渲染特征的一致性
2. 针孔投影与反投影(自定位→目标定位)
(1)3D 点投影到像素
latex
(2)像素反投影到 3D 地理坐标(目标定位)
latex
无需深度估计:由 3D 地图直接给出深度 Z
3. 神经引导优化器 JNGO(关键创新)
(1)各向异性采样(应对高机动)
- 对偏航 / 俯仰设置更大方差,适应无人机剧烈机动
(2)由粗到精多尺度优化
4. 统一自定位 + 目标定位
自定位
目标地理定位
五、关键创新(写综述 / 开题直接用)
- 统一自定位 + 目标定位一次配准同时输出无人机 6-DoF 与任意像素地理坐标,一套系统完成两项任务。
- 纯视觉、无 GNSS、无 IMU、无漂移 直接绑定全局 3D 地理地图,不依赖帧间递推,10km 无漂移。
- 神经 + 渲染 + 优化端到端可微可微渲染提供精确几何监督,不用匹配、不用检索、不用闭环。
- 旋转感知、各向异性采样优化专门适配无人机大姿态变化,不易陷入局部最优。
- 零样本泛化仿真训练 → 真实场景直接部署,无需实地数据。
- 嵌入式实时30--40 ms / 帧,25 FPS@Jetson Orin。
六、现有其他课题的对比
表格
| 方法 | 定位模式 | 依赖 | 漂移 | 精度 | 输出 |
|---|---|---|---|---|---|
| NaviLoc | 2D 轨迹级优化 + VIO | 卫星图 + VIO | 依赖 VIO | 19.5 m | 位置 |
| Bearing-UAV | 跨视角回归 | 卫星切片 | 无 | 8.6 m | 位置 + 航向 |
| PiLoT | 像素 - 3D 配准 | 3D 地理地图 | 0 漂移 | 1.37 m | 6-DoF + 目标 3D 坐标 |