基于开源模型搭建实时人脸识别系统(五):人脸跟踪

继续填坑,之前已经讲了人脸检测,人脸检测是定位出画面中人脸的位置,理论上把检测到的人脸进行提特征就能做人脸识别了,不过直接这样做是有缺陷,一是存在很大的资源浪费,毕竟同一个人出现在画面,我们实际上应该只需要做一次识别就知道他的身份(理想情况下),而不需要每一帧都去做;二是如果对每一帧都进行独立的检测->识别,就会出现频繁的事件,不利于业务的开发。当然,还有一些其他需要使得我们需要一种方式在不做识别的情况下,就知道当前帧的目标和前面帧的目标是同一个目标,比如我们要对一个门口进行进出的计数,这个领域就是目标跟踪。

多目标跟踪是对于给定的视频序列,找到每一帧图像中的运动 目标,在连续视频帧中对同一个目标分配相同的身份标识号(ID), 从而形成不同物体各自的运动轨迹。这些物体可以是任意的,如行 人、车辆、运动员、动物以及足球等无生命物体,人脸跟踪属于目标跟踪。

基于机器学习的目标跟踪

与其他领域类似,在深度学习爆发前,也有很多基于机器学习的目标跟踪方法,一般是依据目标的颜色分布信息,如Meanshift,或相邻帧的像素匹配,如光流法。感兴趣可以自行搜索。

基于目标检测的跟踪(tracking by detection)

这类方法对每一帧的检测结果与历史跟踪结果进行匹配(对于第一次出现的目标分配新的ID),最简单的一种方式是用目标检测框与历史跟踪框的IOU来评价目标的匹配度,使用贪心算法进行两两匹配,将IOU超过阈值的且最匹配的检测框作为最新的跟踪框,若有检测框未匹配上,则新建ID, 若有跟踪框未匹配上,则删除ID。匹配方法还有匈牙利匹配等。

除了直接使用检测框更新跟踪框外,还有与卡尔曼滤波相结合更新跟踪框的方式,代表性的方式是SORT(Simple Object Realtime Tracking)。

基于目标回归的跟踪

基于目标检测的跟踪比较依赖目标检测框的精度和速度,且实际上没有利用上历史信息来帮助检测。基于目标回归的方法则利用历史跟踪框,回归该目标在当前帧预测目标的位置。比如人脸中,有些方法利用MTCNN的Onet去回归人脸位置,这种方法一般要比每帧检测要快(单目标下)。

基于深度特征的目标跟踪

在发生目标遮挡时,完全基于框匹配或传统机器学习的方法容易出现目标丢失,从而目标ID发生变化。基于深度特征的目标跟踪通过提取目标的特征然后匹配的方式将目标重新关联上,代表方法是DeepSort, 这种方式需要提取目标特征,计算量较高。

基于端到端的目标跟踪

上面的方法基本都是分步骤的实现目标跟踪:目标检测/回归->框匹配,还有一种方式是端到端的方式,不分多个步骤,对硬件要求高,笔者也没有了解过。

本系统的选择

考虑到CPU实时需要,选择基于目标检测的跟踪, 具体而言选择sort方法。

项目源码

https://mbd.pub/o/bread/mbd-ZJyTmZty