一、填空题( 30 分,每空2分)
- 按照相机的工作方式,机器人常用相机分为1)__++++单目摄像头++++
2)++++ 双目摄像头++++ _ 3)深度摄像头 三类。
-
度量地图强调精确地表示地图中物体的位置关系,通常我们用 ++++稀疏++++ 与++++稠密++++对它们进行分类。
-
自由度定义为物体能够对++++坐标系++++ 进行独立运动的数目,三维空间中完全确定任意物体的位置和姿态,至少需要 __6_____个自由度数目。
-
按照运动和观测方程是否为线性,噪声是否服从高斯分布进行分类,分为++++线性++++ ++++/++++ ++++非线性++++ 和++++高斯++++ ++++/++++ ++++非高斯++++系统。
-
地图的形式随SLAM 的应用场合而定。大体上讲,它们可以分为++++度量地图++++ 与++++拓扑地图++++两种。
6.在视觉SLAM 中,前端和++++计算机视觉++++ 研究领域更为相关,比如图像的特征提取与匹配等,后端则主要是++++滤波与非线性++++ 优化算法。
- 特征点由++++关键点(++++ ++++Key-point++++ ++++)++++ 和++++描述子(++++ ++++Descriptor++++ ++++)++++ 两部分组成。
8.刚体空间运动的旋转向量到旋转矩阵可由++++罗德里格斯++++ 公式相互转化。
|----|
| 得分 |
| |
二、简答题( 60 分,每题10分)
1. 给出机器人SLAM(Simultaneous Localization and Mapping)的定义?
2. 整体视觉SLAM流程包括哪5个主要步骤?
- 传感器信息读取。在视觉SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中,还可能有码盘、惯性传感器等信息的读取和同步。
- 视觉里程计(Visual Odometry, VO)。视觉里程计任务是估算相邻图像间相机的运动,以及局部地图的样子。VO 又称为前端(Front End)。
- 后端优化(Optimization)。后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图。由于接在VO 之后,又称为后端(Back End)。
- 回环检测(Loop Closing)。回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环,它会把信息提供给后端进行处理。
- 建图(Mapping)。它根据估计的轨迹,建立与任务要求对应的地图。
3. 计算机视觉领域的研究者设计了许多更加稳定的局部图像特征,如著名的SIFT, SURF,ORB等等。相比于朴素的角点,这些人工设计的特征点拥有哪些特性?
- 可重复性(Repeatability):相同的"区域"可以在不同的图像中被找到。
- 可区别性(Distinctiveness):不同的"区域"有不同的表达。
- 高效率(Efficiency):同一图像中,特征点的数量应远小于像素的数量。
- 本地性(Locality):特征仅与一小片图像区域相关。
4. 列出扩展Kalman滤波器( EKF )的三点局限性。
- 滤波器方法在一定程度上假设了马尔可夫性,也就是k 时刻的状态只与k+1时刻相关,而与k + 1 之前的状态和观测都无关(或者和前几个有限时间的状态相关)。这有点像是在视觉里程计中,只考虑相邻两帧关系一样。如果当前帧确实与很久之前的数据有关(例如回环),那么滤波器就会难以处理这种情况。
- EKF 滤波器仅在^x(k+1) 处做了一次线性化,然后就直接根据这次线性化结果,把后验概率给算了出来。这相当于在说,我们认为该点处的线性化近似,在后验概率处仍然是有效的。而实际上,当我们离开工作点较远的时候,一阶泰勒展开并不一定能够近似整个函数,这取决于运动模型和观测模型的非线性情况。如果它们有强烈的非线性,那线性近似就只在很小范围内成立,不能认为在很远的地方仍能用线性来近似。这就是EKF 的非线性误差,是它的主要问题所在。
- 从程序实现上来说,EKF 需要存储状态量的均值和方差,并对它们进行维护和更新。如果把路标也放进状态的话,由于视觉SLAM 中路标数量很大,这个存储量是相当可观的,且与状态量呈平方增长(因为要存储协方差矩阵)。因此,EKF SLAM 普遍被认为不可适用于大型场景。
5.语义与SLAM两个领域结合能够带来哪两个方面的优势。
- 语义帮助SLAM。传统的物体识别、分割算法往往只考虑一个图,而在SLAM 中我们拥有一台移动的相机。如果我们把运动过程中的图片都带上物体标签,就能得到一个带有标签的地图。另外,物体信息亦可为回环检测、BA 优化带来更多的条件。
- SLAM 帮助语义。物体识别和分割都需要大量的训练数据。要让分类器识别各个角度的物体,需要从不同视角采集该物体的数据,然后进行人工标定,非常辛苦。而SLAM 中,由于我们可以估计相机的运动,可以自动地计算物体在图像中的位置,节省人工标志的成本。如果有自动生成的带高质量标注的样本数据,能够很大程度上加速分类器的训练过程。
6. 给出单目相机的成像的4个步骤。
- 首先,世界坐标系下有一个固定的点 P ,世界坐标为 Pw ;
- 由于相机在运动,它的运动由 R, t 或变换矩阵 T ∈ SE(3) 描述。P 的相机坐标为:P˜c = RPw + t。
- 这时的 P˜c 仍有 X, Y, Z 三个量,把它们投影到归一化平面 Z = 1 上,得到 P 的归 一化相机坐标:Pc = [X/Z, Y /Z, 1]T ①。
- 最后,P 的归一化坐标经过内参后,对应到它的像素坐标:Puv = KPc。
三、计算题( 10 分,每题10分)
- 已知点u 的坐标为[7,3,2]T,对点u 依次进行如下的变换:(1)绕z 轴旋转90°得到点v ;(2)绕y 轴旋转90°得到点w ;(3)沿x 轴平移4个单位,再沿y 轴平移-3个单位,最后沿z 轴平移7个单位得到点t 。求u , v , w , t各点的齐次坐标。
解:点u的齐次坐标为:
v = Rot(z,90°)u =
w = Rot(y,90°)v =
t = Trans(4,-3,7)w =
1(SLAM是什么)、15(相机类别) 、19(SLAM流程)、46、55、85、154(人工设计的特征点特性)、158、207、221、241(EKF局限性)、285、341