A review of edge-based 3D tracking of rigid objects

摘要

刚体物体的三维（3D）跟踪在增强现实、计算机视觉和机器人等多个领域中发挥着非常重要的作用。为了追求更稳定、更快速和更准确的3D跟踪，已有大量研究成果。在各种跟踪方法中，基于边缘的3D跟踪由于其许多优点而被广泛使用。此外，基于边缘的方法主要分为两类，即不需要显式提取边缘的方法和需要显式提取边缘的方法。基于此，本文介绍、分析并比较了两类中的代表性方法。最后，给出了一些关于在不同应用场景中选择方法的建议，以及未来研究的方向。

关键词

增强现实；3D跟踪；边缘；CAD模型

1 引言

三维（3D）跟踪需要对相机/物体进行实时的六自由度（DOF）姿态估计，是计算机视觉和计算机图形学相关研究领域的核心技术。例如，增强现实（AR）通过实时估计相机姿态，并将计算机生成的物体叠加在捕获的真实环境序列上，实现虚拟与现实的融合。机器人臂依赖于对目标物体的准确姿态估计来完成抓取动作。机器人通过估计相机姿态自我定位，然后在同时定位与地图构建（SLAM）应用中执行路径规划。为了通过3D跟踪实现这些效果，研究人员在过去二十年中提出了大量采用各种技术和硬件设备的方法。在这里，我们主要关注单目图像中使用计算机辅助设计（CAD）模型的刚体物体的基于边缘的跟踪方法。

在使用CAD模型的跟踪研究领域，主要使用自然特征来建立2D投影图像与3D真实世界之间的联系，然后使用优化方法求解姿态参数。局部描述符（如SIFT[1]和SURF[2]）是一些常用的自然特征，它们在关键点周围具有尺度和旋转不变性。通过提取和匹配描述符，估计相对相机姿态。为了使描述符的提取和匹配过程更稳健和快速，研究人员提出了许多改进的方法[3,4]。与此同时，基于局部描述符的派生方法也被用来解决光流等跟踪问题[5]。这种类型的自然特征对部分遮挡、背景杂乱和快速运动具有鲁棒性，并且具有光照不变性。

尽管基于局部描述符的方法有许多优点，但有一个明显的局限性是需要目标物体具有丰富的纹理。然而，在工业环境中，产品通常具有金属光泽或以固定颜色喷涂（例如，飞机组装车间中的所有部件都喷涂成浅黄色）。换句话说，缺乏足够的纹理来生成用于跟踪的局部描述符。为了解决这个问题，研究人员通常采用基于边缘的跟踪方法。这种类型的方法利用通常由物体的结构或轮廓产生的边缘，来估计两个连续帧之间的相对姿态，从而实现实时的3D跟踪。由于图像梯度的计算，这些方法在材料上也具有光照不变性，并且计算效率非常高。

基于边缘的跟踪方法主要可以分为两类，具体取决于是否提取显式边缘：

不需要显式边缘的方法。这类方法试图在控制点的投影附近搜索强梯度，这些控制点是在物体CAD模型表面上沿3D边缘定期采样的。这些方法需要的计算量较少，这是它们的主要优点。
需要显式边缘的方法。这类方法提取显式边缘，如直线段、轮廓、圆形和角点。这些方法试图在提取的边缘和3D模型边缘之间建立对应关系，并使用它们来恢复姿态参数。这些方法被认为更为鲁棒。

根据这一分类，本文的其余部分将组织如下。为了更好地理解本文涉及的算法，我们将在第2节简要介绍相机模型作为数学基础。然后，在第3节和第4节中，将分别回顾没有显式边缘和有显式边缘的基于边缘的跟踪方法。第5节将比较和讨论各种方法的主要特征。在这一节中，还将讨论建议的未来工作。最后，在第6节中得出结论。

2略

3

Drummond 和 Cipolla [12] 提出了一种结合图形渲染技术和受限活动边缘跟踪的线框跟踪系统。在该系统中，物体的CAD模型通过二进制空间分割树进行渲染，移除被遮挡和不可见的边缘。因此，仅采用当前帧中的可见边缘来找到它们在图像中的投影边缘，并建立对应关系，以此估计姿态。此外，这种方法减少了边缘错配的可能性。此外，鲁棒估计器和迭代重加权最小二乘法用于解决优化问题，大大提高了跟踪的鲁棒性。如图3所示，带有复杂结构的物体在部分遮挡的情况下被成功跟踪。图3 使用鲁棒估计器提高RAPiD在部分遮挡下的鲁棒性 [12]。

Marchand 等人提出了一种用于多面体物体的跟踪方法 [13]。该方法包括两个步骤。第一步使用二维仿射变换处理图像投影的位移。然后，第二步通过鲁棒估计器解决非线性优化问题，进一步优化三维姿态。这种方法能够实时工作，并且对部分遮挡具有鲁棒性。然而，该方法仅限于多面体物体，无法应用于自由形式的物体。

Vacchetti 等人 [14] 提出了在寻找控制点投影附近的强梯度时考虑多假设的改进Tukey估计器。对于每个控制点的投影，原始的RAPiD只搜索最近的强梯度点，以最小化它们之间的位移。这种方法不够鲁棒，因为最近的点可能由错误的边缘生成，例如杂乱的环境、部分遮挡和相邻的模糊边缘，导致错误的三维到二维的对应关系，从而导致跟踪失败。因此，在预定义距离阈值内沿正交方向考虑所有的强梯度点，并在使用修改后的Tukey估计器最小化过程中隐式地选择正确的候选点（如图4所示），其表达式为：

4 具有显式边缘的跟踪

三维跟踪方法中，具有显式边缘的方法需要检测更高层次的边缘特征，例如直线段、轮廓、圆形和角落。这些方法试图在提取的特征与3D模型边缘之间建立对应关系，并利用这些关系来估计相机/对象的姿态。由于可以通过提取排除许多离群点，因此这些方法被认为更为稳健，尽管计算工作量也会因此增加。

Koller等人使用直线段的马哈拉诺比斯距离来建立3D模型段与2D图像段之间的对应关系。如图7所示。在他们的方法中，直线段用以下方式表示： X=(cx,cy,θ,l)X = (c_x, c_y, \theta, l)X=(cx,cy,θ,l) 其中 (cx,cy)(c_x, c_y)(cx,cy) 是中点的坐标，θ\thetaθ 和 lll 分别表示方向和长度。给定模型直线段的 XmX_mXm 和提取直线段的 XdX_dXd，它们之间的马哈拉诺比斯距离可以定义为： d=(Xm−Xd)T(Λm+Λd)−1(Xm−Xd)d = (X_m - X_d)^T (\Lambda_m + \Lambda_d)^{-1} (X_m - X_d)d=(Xm−Xd)T(Λm+Λd)−1(Xm−Xd) 其中 Λm\Lambda_mΛm 和 Λd\Lambda_dΛd 分别是 XmX_mXm 和 XdX_dXd 的协方差矩阵。然后，姿态通过以下公式进行估计： [R∣t]=arg⁡min⁡[R∣t]∑i(Xid−Xim([R∣t]))TΛid(Xid−Xim([R∣t]))[R|t] = \arg\min_{[R|t]} \sum_i (X^d_i - X^m_i([R|t]))^T \Lambda^d_i (X^d_i - X^m_i([R|t]))[R∣t]=argmin[R∣t]∑i(Xid−Xim([R∣t]))TΛid(Xid−Xim([R∣t])) 该方程使用勒文伯格-马夸特算法求解。

Shahrokni等人提出了一种使用直线段进行增强现实初始化的方法。他们假设通过直线段检测到的平行四边形对应于3D对象的一个面。该多面体对象的姿态通过在该平行四边形的顶点和面的顶点之间生成假设对应关系来估计。由于需要多个模型来满足面出现的不同情况，该方法仅适用于形状简单的对象，例如长方体。

David和DeMenthon提出了一种通过对应直线段来识别部分遮挡的对象的方法。直线对应关系通过三个步骤找到。首先，利用一条或两条线的3D-2D对应关系生成多个近似姿态假设。其次，通过使用快速最近邻和范围搜索算法，将姿态假设与相应的局部模型邻域进行比较进行排名。最后，验证并细化最后一步中的最佳近似姿态。然而，几条模型线需要整合到一幅图像中。

Kotate等人提出了一种混合相机姿态估计方法，该方法使用倾斜传感器和无对应直线段。通过投票方法在倾斜约束下假设相机姿态的可能方位。然后，根据肯定投票的直线段计算每个可能方位的某些相机位置。在多个相机位置和方位集中选择最一致的一个作为相机姿态。

然而，从可能的对应直线段随机选择可能导致不确定的计算工作量或较低的鲁棒性，并且一旦许多直线段聚集在一个方向向量中，组合爆炸的问题就会出现。

Kim等人提出了一种用于室内移动机器人跟踪无纹理物体的方法；该方法依赖于直线段及其之间的成对几何关系。该方法的动机是需要能够处理许多表面纹理较少的室内物体的识别策略，但在同一物体类中具有强几何一致性。该方法需要一个训练过程，且计算复杂性较高。

Lu等人提出了一种使用线结构对应关系来跟踪3D对象的方法。人类通常用来描述对象的线结构（例如平行性和交点）被用来表示目标对象。生成并评估一组与相应模型线结构共享相同属性的特征表示，以提供一个带有变换矩阵的姿态假设。该方法的主要问题是一些线结构在3D线投影到2D图像时会发生变化。

Álvarez和Borro提出了一种用于无纹理3D对象的交点辅助3D姿态检索方法。该方法自动提取模型的交点和轮廓。交点提供了一种有效的机制来生成候选匹配，而轮廓则根据稳健的形状相似性评估选择正确的匹配。此外，该方法还需要一个全面且耗时的虚拟关键帧采样过程，从不同的虚拟相机视角进行采样。

Qiu和Wei提出了一种基于线段特征的人工物体识别方法。该方法将整体坐标变换计算分散到每个局部平面单应性计算中，以降低解决方案的复杂性。特征点用于解决场景与模型之间的平面单应性矩阵，而同质平面上的线段用于验证假设。因此，该方法不适合只有少量纹理或根本没有纹理的物体。

Guerra和Pascucci提出了一种基于线段的3D跟踪方案，使用豪斯多夫距离进行匹配。模型和图像对象均以线段表示。为了比较模型并克服豪斯多夫距离的弱点（即对部分遮挡的敏感性），定义了多个扩展的豪斯多夫距离变体。Glover和Laguna提出了一种匹配算法，该算法基于Tabu搜索近似豪斯多夫距离的最小化过程，以高效建立对应关系。然而，该方法存在准确性的问题。

Han和Zhao也使用轮廓和直线段进行移动AR的初始化和跟踪过程。在他们的方法中，物体的质心与其在2D图像中的投影之间的几何对应关系用于估计相机姿态。为了假设物体的可能方位，他们的方法在不同方位下离线渲染物体的3D CAD模型，并根据移动设备的惯性传感器提供的假设倾斜约束，通过轮廓匹配与输入图像进行比较。该方法仅需要物体的CAD模型，且在移动设备上计算适用；然而，它对部分遮挡敏感。

在文献[48]中，Han和Zhao提出了一种针对移动AR的快速基于直线的跟踪方法。该方法基于Kotate等人的方法，通过建立3D世界线与其在相机图像中的投影之间的几何关系来估计包括旋转和平移在内的姿态。移动设备的惯性传感器用于直接提供部分旋转信息，其余部分通过投票过程获得。提出了一种基于颜色的区域兴趣掩码，用于粗略估计实际平移，并提出了一种提取垂直线的方法，直接检测图像中3D垂直线的投影（如图10所示），以缩小搜索空间，从而提高姿态估计的速度和鲁棒性。

5 讨论

没有显式边缘的跟踪方法主要基于RAPiD，寻找沿投影边缘的正交方向的强梯度并最小化距离。近年来提出的此类方法主要是对RAPiD的改进或变体，以提高其稳健性和效率。这类方法可以处理自由形状的边缘，并且由于1D强梯度搜索非常快速。

具有显式边缘的跟踪方法需要检测更高层次的边缘特征，例如直线段、轮廓和角落。因此，检测算法在姿态估计之前是必需的，这会导致计算工作量的增加，这对移动设备尤其关键。作为权衡，鲁棒性得到改善，因为在过程中可以排除许多离群点。