Localisation using the Appearance of Prior Structure 论文阅读

Localisation using the Appearance of Prior Structure

第三章 Localisation using the Appearance of Prior Structure

文章目录

[Localisation using the Appearance of Prior Structure](#Localisation using the Appearance of Prior Structure)
前言
[3 Localisation using the Appearance of Prior Structure](#3 Localisation using the Appearance of Prior Structure)
- [3.1 问题公式化（定义）](#3.1 问题公式化（定义）)
- - [3.1.1 假设](#3.1.1 假设)
  - [3.1.2 优化目标](#3.1.2 优化目标)
  - [3.1.3 f d i s t a n c e 的性质 f_{distance}的性质 fdistance的性质](#3.1.3 f d i s t a n c e 的性质 f_{distance}的性质 fdistance的性质)
- [3.2 相关工作](#3.2 相关工作)
- [3.3 结论](#3.3 结论)
参考文献

前言

近期工作中有雷达相机联合标定的需求，搜集到可以通过度量归一化信息距离（NID）来对点云和图像进行跨模态配准的方法。其中《Localisation using the Appearance of Prior Structure》这篇论文有相关问题的全面阐述，特此记录。

3 Localisation using the Appearance of Prior Structure

在本章中，我们首先介绍了基于外观的单目相机定位的一般形式，即通过与彩色3D点云先验(地图)进行配准的方法，阐述其背后的核心思路，并明确我们的核心假设。接着，我们回顾了视觉定位领域的相关工作，重点关注利用先验地图的方法，并讨论与之相关的、基于互信息的3D物体对齐（配准）与跟踪技术。

3.1 问题公式化（定义）

考虑一下情况：一个搭载相机的机器人，其在如图 3.1 所示的任意已知3D场景 S S S中移动并采集图像。我们的目标是估计机器人在 S S S中的位姿 S E ( 3 ) \mathbb{SE}(3) SE(3),该位姿通过 G R , W G_{R,W} GR,W参数化：即从定义场景 S S S的先验坐标系 W W W到机器人坐标系 R R R的变化。

图3.1：一个搭载相机的机器人在预先测绘的场景 S S S中移动时采集图像 I I I，该场景包含定义在坐标系 W W W下的3D点集 q i q_i qi。对于任意的将 W W W坐标系的点映射到机器人坐标系 R R R的变换矩阵 G R , W G_{R,W} GR,W，点集 q i q_i qi的子集（一部分）会被重投影到图像 I I I的坐标 x i x_i xi。

由于场景结构已知，对于任意的 G R , W G_{R,W} GR,W,均可计算出场景中哪些点会重投影至相机，以及这些点在图像平面的上重投影坐标。通过在捕获图像 I I I中对重投影坐标 x x x进行差值，我们可以为投影到图像中的3D点获取其在 G R , W G_{R,W} GR,W下的外观观测。假设先验地图不仅存储了每个点的3D位姿还存储了其示例外观，则对于在 G R , W G_{R,W} GR,W在被重投影至图像 I I I的每个点，我们将用于两个组外观观测：一组来自先验，另一组来自图像。

我们方法的假设是，相机位姿的准确估计能融合（对齐）来自先验地图与实时图像的场景外观信息。这一直观思路在图3.2以可视化形式呈现。

图3.2 问题直觉。机器人开始于位姿A，此时（在该点时）其位姿由 G A , W G_{A,W} GA,W参数化，且该位姿已知。随后，经历一次顺时针横滚运动后，在位姿B时捕获到第二帧图像。当机器人从A到B的运动 G B , A G_{B,A} GB,A估计准确时， S S S中的点重投影到图像 I B \mathcal{I}B IB的点与图像对齐，并且它们的外观保持一致。当估计是错误的时( G ^ B , A ≠ G B , A \hat{G}{B,A}\ne G_{B,A} G^B,A=GB,A)，重投影点不能与 I B \mathcal{I}_B IB对齐，因此它们的外观不一致。

图3.3基于【106】的真实数据，通过重投影点强度直方图论证了图3.2的思想。当相机的位姿被正确的估计时，位置B处重投影点的外观直方图与从A处观测高度一致；反之，当位姿估计存在偏差，由此产生的强度统计特性与先验数据几乎没有共同点（低相似性）。

图3.3 图3.2的示例使用了文献【106】的真实数据为。从初始机器人位置A（其位姿 G A , W G_{A,W} GA,W是准确的）观测到先验场景重投影点在图里用蓝色显示。相机随后向右平移在位置B捕获图像。此运动被正确估计且机器人位姿在B处位姿准确的情况以绿色显示，而运动被错误估计的相反情况用红色显示。对于每一帧图像，还展示了重投影点的强度（外观）直方图。数据来源于EPFL Multi-View Stereo Herz-Jesu-P8 基准数据集【106】。

在地面车辆运行于繁忙多样的环境的背景下，场景的集合结构通常是复杂的。此外，网格(计算机图形学中的核心基础表示)作为场景表示备受青睐，因其能充分利用GPU硬件对此类图元进行优化。然而，虽然纯虚拟构建的3D环境可以以这种形式原生构建，但用于捕获真实室外场景3D结构的系统却不输出原生网格，相反，3D激光雷达系统如（【97,113】）输出从环境中采样的点云。如何从采样的点云构建网格的问题仍然是一个活跃的研究领域。且与网格相关的纹理的存储需求可以会显著超过原始点云。因此我们定义 S S S为从环境中采样的彩色点云，并将其视为数据的基础表示。

3.1.1 假设

根据前面讨论的理论框架，我们开发（寻求）一种新的单目视觉定位系统，用于在预先测绘的环境中定位机器人。其设计基于以下假设：

A1.运行环境已被装备3D雷达、相机和INS的测绘车辆完成了事先采集。
A2.针对该环境已构建彩色点云先验 S S S，其捕获了场景的3D几何结构与示例外观------即在理想条件下捕获的场景外观典型样本。
A3.先验点云 S S S已通过离线预处理（如移除动态物体）优化其定位适用性。
A4.待定位机器人装备一台或多台已校准的单目相机，且各相机视场互补并同步采集图像。
A5.待定位机器人配备纯相对里程计源（如轮式里程计），可为连续图像帧间的机器人运动提供估计值，作为定位算法的初始估计。

我们无需假设机器人运行时的外部环境条件（例如天气或光照）与测绘载具执行测绘时的情况一致，也无需假设机器人采用的传感器配置需与测绘载具的配置保持相同。

作为假设A4的隐含推论（在大多数基于视觉的度量定位研究及本论文中均默认成立），相机需采用全局快门而非卷帘快门，以确保图像的所有部分均在同一时刻被捕获。尽管当前全局相机更加昂贵，但是我们强调，本文提出的方法不会对卷帘快门相机有理论限制。然而，这将使世界坐标系的点投影到图像变得复杂，此问题将在第九章中的未来工作中进一步讨论。

3.1.2 优化目标

S S S中的点 q q q的外观在图像 I \mathcal{I} I体现为： I ( x ) \mathcal{I}(x) I(x)是点 q q q重投影到图像平面对应亚像素坐标 x x x的图像（颜色）值，其中 x x x是相机内参标定和位姿的函数。基于针孔相机模型，并记相机参数为 κ \kappa κ,我们可以定义如公式3.1重投影算子 P \mathcal{P} P:
x = P ( q , G R , W , κ ) (3.1) x=\mathcal{P}(q,G_{R,W},\kappa)\tag{3.1} x=P(q,GR,W,κ)(3.1)

该算子将定义在 W W W下的点集 q ∈ R 3 q\in\mathbb{R}^3 q∈R3映射到图像平面的图像坐标值 x ∈ R 2 x\in\mathbb{R}^2 x∈R2。对具有 m m m通道的图像，我们以 L ( x ) ∈ R m \mathcal{L}(x)\in\mathbb{R}^m L(x)∈Rm表示坐标 x x x处的图像（颜色）值。

对于任意给定的相机和位姿，仅有场景 S S S的一部分被重投影到相机下。我么表示S的子集为： S ˉ ⊆ S \bar{S}\subseteq S Sˉ⊆S。

根据图3.1可视化展示，我们可以将单目相机的（定位）问题转化为对变换矩阵 G R , W G_{R,W} GR,W的优化问题，其目标是最小化目标函数 f d i s t a n c e : R 2 ( ∣ S ˉ ∣ × m ) ↦ R 1 f_{distance}:\mathbb{R}^{2(\left|\bar{S}\right|\times m)}\mapsto\mathbb{R}^1 fdistance:R2(∣Sˉ∣×m)↦R1。该函数通过公式3.3度量可见点子子集视觉外观之间的差异。

其中我们用 I S ( q ) \mathcal{I}S(q) IS(q)表示先验中存储的点 q q q的外观。假设 I S q \mathcal{I}S{q} ISq与实时图像中点 q q q的颜色值具有相同维度，尽管颜色空间不必保持一样。需特别注意， f d i s t a n c e f{distance} fdistance基于外观元组集合 ⟨ I ( P ( S ˉ , G R , W , κ ) ) , I S ( S ˉ ) ⟩ \left \langle\mathcal{I}(\mathcal{P}(\bar{S},G{R,W},\kappa)),\mathcal{I}S(\bar{S}) \ \right \rangle ⟨I(P(Sˉ,GR,W,κ)),IS(Sˉ) ⟩计算的（如公式3.2所示），而非逐元组独立计算的。为了清楚强调每个点所需的信息（每个元组的组成），我们在等式3.3中采用了等效的表示形式，其中每个点的元组成分以及 f d i s t a n c e f{distance} fdistance计算所基于的集合定义，均被显式的写入函数签名中。

显然，从公式3.3可知， L ( x ) \mathcal{L}(x) L(x)依赖于位姿 G R , W G_{R,W} GR,W,但需注意的是可见点集 S v i s S_{vis} Svis同样依赖于相机的位姿。因此 S v i s S_{vis} Svis在优化过程中应针对每个候选 G R , W G_{R,W} GR,W重新计算。

尽管公式3.3针对的是一个单独的相机，但是正如假设A4所述，我们假设待定位的车辆有多个同步且视场互补的单目相机。这是因为一个相机无法在现实场景 S S S中对变换矩阵 G R , W G_{R,W} GR,W的所有参数提供良好的约束，当然也不可能为所有可能的 S S S提供约束。因此，我们将公式扩展为公式3.4，

即对所有相机的目标函数 f d i s t a n c e f_{distance} fdistance求和。需注意，这需要满足 f d i s t a n c e f_{distance} fdistance的求和概念存在且理论有效。

此方法与基于特征的定位技术（如文献[98, 43]）存在两大核心差异：特征选择与对应关系的处理方式。在基于特征的方法中，需在每一帧图像中显式地检测特征并建立对应关系，且需谨慎确保数据关联的正确性。而在公式(3.4)中，对应关系通过 S S S隐式确定，点选择仅需根据当前相机位置筛选可见点子集，这一操作通常为低计算开销的，且可通过点云的离线预处理进一步加速。

3.1.3 f d i s t a n c e 的性质 f_{distance}的性质 fdistance的性质

公式3.4中的 f d i s t a n c e f_{distance} fdistance存在多种潜在的选择。我们期望该函数对不同相机、不同光照条件以及场景中未建模的动态物体的外观差异具有鲁棒性。我们也想 f d i s t a n c e f_{distance} fdistance是可微的，并且有一个宽广的收敛域以收敛到清晰（理想情况下唯一）的极小值，从而可以通过标准数值优化方法优化。最后我们也要求 f d i s t a n c e f_{distance} fdistance加法操作存在,从而能对所有相机进行有意义的求和（如公式3.4所示），形式上这意味我们希望 f d i s t a n c e f_{distance} fdistance是一个度量[119]。

在本研究中，我们选择将 f d i s t a n c e f_{distance} fdistance定义为归一化信息距离（Normalised Information Distance, NID）[50,51]。该距离是互信息[95]的度量空间类比，我们将在第4章对其进行详细讨论。使用一个严格的信息度量是有吸引力的，因为它允许一个直观和简洁的公式，具有强大的理论基础。此外，它是鲁棒的，并且允许对来自不同模态的数据进行对齐，在本工作中，我们使用它来解释(应对)场景的外观随时间的变化，不同的相机配置和不同的颜色空间之间的差异。

3.2 相关工作

基于本地观测的传感器数据对地图进行度量定位的问题，是同步定位与建图（SLAM）问题的本质特征，且在过去二十年中一直是机器人领域的研究热点。二维平面激光雷达的使用，过去是且现在依然是 S E ( 2 ) \mathbb{SE}(2) SE(2)SLAM的中受欢迎的传感器选择。从历史上看，这主要是由于移动机器人受限于对实时自主探索的需求，其所能搭载的计算资源有限。最近，由于（随着）便携式计算机能力的稳步增长，使用单目或立体相机的视觉SLAM变得普遍（得到广的应用）。

直到最近，视觉导航主要的焦点还是基于特征的方法。这些方法首先从密集输入图像中提取稀疏特征点和图像特征，然后仅利用这些点进行定位和建图，舍弃图像中的其余信息。这些方法具有显著优势，且在技术发展历程中是必要的，因为其高效性体现在：既缩小了问题规模，又能保持解的鲁棒性。对于一幅典型图像，可能包含数百万像素，但仅有200-300个稀疏特征点被提取。此方法还将实时图像与地图间的数据关联问题从系统其他部分解耦出来。目前存在多种图像特征描述子，且新变体不断涌现；主流选择包括SIFT（尺度不变特征变换）[54]、SURF（加速鲁棒特征）[4]，以及近年流行的BRIEF（二进制鲁棒独立基本特征）。

尽管开发新型、更鲁棒的图像特征仍是活跃的研究领域，但这些特征普遍存在脆弱性问题------它们对视角变化、光照变化及相机型号差异的鲁棒性极其有限[29]。然而，尽管存在这些缺陷，视觉SLAM实时系统及其简化问题（视觉里程计）仍在大规模挑战性环境中被成功验证[98, 43, 11, 29, 124, 15]。在视觉里程计中，特征"地图"仅通过逐帧跟踪临时存在。

基于特征方法的替代方案是所谓的"直接法"（Direct Methods）。这类方法无需提取任何稀疏图像特征，而是直接在整幅图像的原始像素强度上操作，从而充分利用所有可用信息（尽管该领域的早期研究曾使用图像块[99]）。此类方法的流行，很大程度上得益于图形处理器（GPU）在通用计算任务中的崛起（GPGPU），因为GPU本身的大规模并行硬件设计使得实时评估稠密目标函数成为可能。该领域首个完整的实时系统是文献[77]提出的DTAM（密集跟踪与建图）。该方法使用单目RGB相机，并行迭代构建小尺度工作空间的密集三维纹理网格并实现实时定位。其中，建图部分采用正则化 L 1 L_1 L1变分目标函数，而定位部分则基于实时图像与当前稠密工作空间估计生成的合成图像之间的光度误差 L 2 L_2 L2范数。实验结果表明，其性能优于文献[39]中基于特征的PTAM方法，且对动态遮挡和虚焦表现出极强的鲁棒性。

光度像素误差的 L 2 L_2 L2范数已被证明是密集定位方法中非常流行的选择。例如：文献[52]中，利用汽车标准倒车摄像头实现了大规模 S E ( 2 ) \mathbb{SE}(2) SE(2)视觉里程计；文献[27]近期将其用于单目SLAM的半稠密场景。此外，在RGB-D场景中结合深度信息（文献[101]）及立体视觉（文献[13]）的视觉里程计也采用了此方法。

尽管 L 2 L_2 L2范数的使用隐含了"场景外观近似恒定"的假设，但像DTAM这样的SLAM系统仍可通过迭代更新模型纹理来应对渐变光照。然而，剧烈或突发的光照变化仍会导致系统失效（尽管在小规模室内工作环境中此类问题并不突出）。而对于[52, 13]等视觉里程计系统，光度一致性假设仅作用于相邻帧之间，因此即使在室外非受控光照条件下，该假设仍具合理性。

尽管从定义上看，SLAM（同步定位与地图构建）包含基于地图的定位，但通常假设地图是由待定位的机器人自身构建的，且传感器配置在构建地图时与后续定位使用期间未发生变化。因此，系统隐含地假设：待定位的机器人能够利用自身传感器实时构建并更新地图。这一假设简化了数据关联问题，因为无需额外考虑传感器配置差异带来的鲁棒性要求。但必须强调的是，这绝不意味着在传感器配置固定的情况下数据关联问题变得容易------事实远非如此。精确的数据关联可以说是任何鲁棒性大型系统面临的最大挑战。

与传统方法不同，当前研究趋势正逐步将建图与定位任务解耦，并专注于在待定位的机器人上采用比测绘车（用于构建先验地图）更低成本、功能更受限的传感器配置。如第1.1节所述，我们认为这一方法极具吸引力，且是本章所述问题阐述的核心基础。

文献[80]中，研究团队提出了一种基于广角摄像头的户外机器人定位方法，其依赖于通过人工测绘获取的稀疏线框式3D边缘先验地图（仅含几何信息）。该方法基于文献[40]的小规模室内物体追踪思路：对于每幅待定位图像，首先将线框边缘地图按候选机器人位姿重投影至图像平面；随后，沿每个重投影边缘方向，在图像中搜索与之垂直的最近实际边缘点；通过高斯加权计算这些距离的似然值，并基于候选位姿将所有重投影边缘的似然值聚合，最终采用粒子滤波器（结合轮式里程计运动模型）估计机器人位姿。实验结果表明，在结合智能自动曝光技术（保持定位所用边缘区域清晰）后，该系统在强光眩光、图像过曝等恶劣户外条件下的鲁棒性可与激光雷达系统媲美。

在道路车辆定位领域，文献[124]描述了一套在超过100公里自动驾驶测试中验证的系统。该系统结合了在立体构建先验地图上使用单目相机匹配特征点的系统和车道线特征定位的双重技术。后者（车道线定位系统）从以下来源匹配车道标记：基于立体视觉技术构建并经人工验证的、从正射影像中提取的先验地图，以及OpenStreetMap数据。在定位过程中，先验车道地图被重投影至通过立体视觉识别出的图像自由空间区域，并采用卡尔曼滤波器估计 S E ( 2 ) \mathbb{SE}(2) SE(2)位姿，以使重投影地图与实时图像中提取的车道特征对齐。在文献[74, 73]中，作者提出了一种基于正射道路影像地图的 S E ( 2 ) \mathbb{SE}(2) SE(2)位姿校正方法，用于修正立体视觉里程计的（源）累积误差。使用文献[74]中的ESM和文献[73]的互信息去匹配实时图像，在驾驶超过数公里的测试中有效，但方法并不是实时的。

在文献[61]中，研究团队利用 Riegl高精度扫描仪离线构建了一个中等规模室内办公环境的高分辨率彩色三维点云。基于此点云，进一步生成粗糙体素八叉树地图------该地图通过体素化捕获三维结构，并以体素内所有扫描点颜色的平均值作为纹理。线定位阶段，采用粒子滤波器进行位姿估计：对于每个粒子，首先使用OpenGL在候选位姿下从带纹理的先验地图生成合成图像，随后将合成图像与实时图像分别重归一化为零均值和单位标准差，最终计算两幅图像间的逐像素 L 2 L_2 L2范数误差作为粒子的似然权重。这种重归一化操作提供了一定程度的光照变化鲁棒性（先验地图与实时图像间光照差异），实验证明该方法在先验地图采集3个月后仍能成功定位；由于测试环境为室内，光照变化未受季节显著影响。

尽 L 2 L_2 L2范数是一种广泛使用的图像对齐度量，但其本质上不适用于跨模态数据对齐，因其假设目标与参考数据嵌入同一空间。在医学影像领域，常需将 fMRI（功能磁共振成像）、X射线及其他模态数据融合至患者的统一表征中。然而，这些模态间不存在简单变换关系：患者的某些特征（如骨骼）可能在多模态中均有呈现，但其他特征（如软组织）则不然。如第4章将详述，互信息[95] 已成为此类跨模态对齐任务中流行且鲁棒的目标函数[59, 89, 24]。对于任意给定对齐方式，两模态的对应样本可构建联合直方图近似（估计两源的联合分布），进而计算互信息。真实对齐即为使两源间互信息最大化的对齐方式。

将互信息（Mutual Information作为目标函数用于带纹理的3D模型与图像的对齐，最早由文献[115]提出，随后在文献[58, 108, 60]中得到进一步发展。其核心区别在于联合直方图的构建方式与优化方法的具体实现（该问题将在第5章详细探讨）。基于此研究，文献[86]将文献[108]的技术应用于 D物体追踪（本质上是一种序列对齐问题）。实验表明，该系统在小规模室内场景中以每秒1-2帧的速度运行时，性能优于基于特征的系统。

文献[17]阐述了如何将前述互信息对齐研究的核心概念应用于视觉伺服控制（Visual Servoing），其目标是通过计算控制指令使实时摄像头视图与静态参考图像对齐。特别地，该研究还引入了完整牛顿法进行优化：在收敛时通过解析计算海森矩阵（Hessian）（假设参考图像与目标图像一致），并在整个优化过程中固定该矩阵。实验表明，该系统可实现实时运行，且在目标图像与参考图像存在遮挡和光照差异时仍保持良好鲁棒性。此外，作者在文献[21]中将该视觉伺服技术应用于室外小型车辆的示教与重复导航（基于图像序列），并在文献[16]中扩展至平面物体跟踪。

在文献[84, 85]中，互信息被用于实现无目标的激光雷达-摄像头外参校准。该方法通过计算激光雷达强度回波与候选外参变换下摄像头重投影灰度强度的互信息，优化校准参数。实验表明，在室内外自然场景采集的扫描数据与图像中，该方法性能优于文献[48]提出的另一种先进方法。互信息对室外非受控多变光照（在摄像头图像中显著存在）具有鲁棒性，但对激光雷达强度数据无明显提升。

尽管本研究的焦点是度量定位，但在与之相关的拓扑定位（Topological Localisation）领域，针对光照与场景外观变化鲁棒性系统已取得显著进展，并能够支持大规模场景下的应用。

在文献[15]中，基于 FABMAP 框架，在 1000公里数据集上验证了拓扑定位系统的可行性。

在文献[70, 69]中，提出 SeqSLAM 方法，通过对大幅降采样的图像进行图像块归一化和整图匹配，首次在文献[36]中证明其能通过图像序列特征匹配在大范围外观变化下保持高精度。在文献[76]中，扩展SeqSLAM，引入季节性外观变化模型，增强对季节更替的适应性。

在文献[75]中采用本流方法（Cost-Flow Method）匹配图像序列，对因临时遮挡导致的非匹配区段具有鲁棒性，同时利用 HOG描述符（方向梯度直方图）提升对季节变化的抵抗力。

自我们的工作首次发表于文献[102]以来，近期有两项研究采用了与本文所述方法高度相似的思路：文献[9]：基于文献[17]的研究，并采用文献[20]首次提出的方法，成功通过最大化互信息（模型重投影纹理与实时图像间）实现了单目摄像头在户外环境中的定位，其参考地图为带纹理的平面3D模型。该方法远未达到实时性（每帧耗时4秒），因而仅能在短距离场景中验证有效性。

在文献[122]中，归一化互信息被用于通过将激光雷达强度空间定义的车道标记路面先验地图与单目摄像头实时图像对齐，计算车辆的 S E ( 2 ) \mathbb{SE}(2) SE(2)位姿。该系统以 10Hz的频率实时运行，为基于IMU的扩展卡尔曼滤波器（EKF）提供位姿校正，并通过 GPU加速的新型采样策略（替代基于梯度的优化）实现了与激光雷达定位系统相当的性能。

受限于篇幅，本节无法对基于视觉的定位领域所有相关研究进行彻底详尽的阐述。然而，本节内容经过精心选择，旨在为本文研究的核心工作（尤其是利用信息论方法实现视觉定位）提供丰富的背景支撑。此外，所选参考文献亦经过筛选，旨在通过其自身的引用为更广泛的文献库提供有价值的引子。

3.3 结论

在本章中，我们介绍了本研究中用于基于3D彩色点云场景先验对多台单目摄像头进行度量定位的问题表述。我们阐述了该方法的直观依据及其背后的核心假设。最后，我们讨论了该领域的相关研究工作，突出其与视觉SLAM（同步定位与地图构建）这一独立问题的关键区别，并详细分析了基于先验地图的视觉定位中与本研究更密切相关的成果。此外，我们回顾了互信息（Mutual Information）在图像对齐任务中的应用发展历程，涵盖其在医学影像中的早期实践，以及近年来在机器人学中多任务场景（如目标追踪、多模态传感器外参校准）的拓展。在第4章中，我们将探讨信息度量（Information Metrics）及其在本研究问题表述中的应用；第5章将深入阐述待求解优化的具体形式化方法。

参考文献

1\][《Localisation using the Appearance of Prior Structure》](https://www.robots.ox.ac.uk/~mobile/Theses/StewartThesis.pdf)