目标追踪概述、分类

目标追踪(Object Tracking)是获取图像序列（一般为视频）中感兴趣的区域，并在接下来的视频帧中对其进行跟踪。

目标跟踪是计算机视觉领域的一个重要分支，在赛事转播、人机交互、监控安防和无人驾驶等应用中起着关键的作用。

1 目标追踪概述

目标追踪的输入通常是视频。视频是一种非结构化的数据，可以看作图像序列的组合（一组有序的图像）。虽然在形式上视频没有固定的结构，但在内容上视频本身有着较强的逻辑关系。

如图10.15所示，按照颗粒度大小将视频分为帧(Frame)、镜头(Shot)和场景(Scene)3个层次。

视频与图像序列的相互转换

根据任务的实时性要求，目标追踪分为在线追踪和离线跟踪两种。在线追踪通过过去和现在的视频帧确定目标的位置，对实时性要求较高；离线追踪通过过去、现在和未来的视频帧确定目标的位置，对实时性要求不高，其准确率通常高于在线追踪的准确率。

根据应用场景，目标追踪又可以分为以下几种类型：

生成式模型

生成式模型首先定义目标的特征，然后在后续视频帧中寻找相似特征的位置，从而实现对目标的定位。早期在目标追踪模型中常使用这类方法，如光流法等。

生成式模型使用简单的特征定义，对追踪目标的描述方法有很大的局限性，在光照变化、拍摄角度变化、目标被遮挡和分辨率低等情况下，模型的识别效果不是很理想。

鉴别式模型

鉴别式模型通过比较视频帧中目标和背景的差异，将目标从视频帧中提取出来，从而实现对目标的定位。

鉴别式模型同时考虑了目标和背景信息，在模型的准确率和实时性上比生成式模型更佳，逐渐成为目标追踪的主流方法。

在2000年前后，传统的机器学习模型，如SVM、随机森林和GBDT等逐渐被引入目标追踪中。2015年前后，基于深度学习模型的目标追踪方法开始成为研究的热点。

目标追踪的方法

目标追踪有多种框架和算法，其原理也不尽相同，按照时间顺序可以将其分成经典方法、基于滤波的方法和基于深度学习的方法三大类。

经典方法：先对目标的外观（如特征点、轮廓和SIFT等特征）进行建模，然后在视频帧中查找该目标出现的位置。为了提高查找效率，通常使用预测算法对目标可能出现的区域进行预测，一般只在预测的区域查找目标。
基于滤波的方法：通过度量视频帧中目标的相似程度，对不同视频帧中的目标进行关联，从而实现目标追踪。例如，MOSSE算法使用相关滤波器(Correlation Filter)计算目标之间的相关值，然后根据相关值找到不同视频帧中相同的目标并建立关联，从而实现目标追踪。
基于深度学习的方法：将深度学习引入目标追踪中，如基于目标检测的追踪方法(Tracking By Detecting，TBD)等。这类方法通过深度学习模型在每个视频帧上执行目标检测，并在检测到的目标之间建立关联，从而实现目标追踪。

重点理解

基于目标检测的追踪方法(Tracking By Detecting，TBD)一般使用目标检测模型 （如YOLO）在每个视频帧上进行目标检测，然后将检测出来的目标进行关联，找到每个目标的运行轨迹。

如图10.21所示，先使用目标检测模型检测出7个目标，然后通过算法将A1、A2、A3和A4进行关联，再将B1、B2和B3进行关联，从而追踪到这两个足球的运行轨迹。

TBD方法的完整工作流程如图10.22所示。该方法包括目标检测和目标关联两个关键步骤：

1)目标检测，即检测出要追踪目标的位置坐标和目标分类等信息，并初始化每个目标的轨迹。
2)目标关联，**即使用算法对当前帧中的目标和前一帧中的目标进行关联。**如果在前一帧中能够找到当前帧中检测到的目标，说明关联成功，则更新目标的轨迹；如果在前一帧中不能找到当前帧中检测到的目标，说明当前帧中检测到的目标为新目标，则新增目标的轨迹；如果在当前帧中不能找到前一帧中检测到的目标，表示目标消失，则移去目标的轨迹。

在基于目标检测的目标追踪方法中，为了实现对目标的关联，容易想到的方法是通过目标识别进行目标关联，即对每一帧图像进行目标检测，然后对每一个目标提取特征，最后通过特征识别出每一个目标，从而实现目标关联。

但是，通过目标识别进行目标关联需要在每一帧图像中提取出每一个目标的特征，这需要大量的计算资源，同时还需要稳定的特征提取器，在实际场景中很难做到。因此，通常采用其他方法进行目标关联，如常用的质心法。

质心法是一种基于目标检测的目标追踪方法，该方法在目标首次出现时先对其进行识别，然后在后续的视频帧中，通过欧氏距离将检测到的目标进行关联，如图10.23所示。