Objects as Points基于中心点的目标检测方法CenterNet—CVPR2019

Anchor Free目标检测算法---CenterNet

Objects as Points论文解析

Anchor Free和Anchor Base方法的区别在于是否在检测的过程中生成大量的先验框。CenterNet直接预测物体的中心点的位置坐标。

CenterNet本质上类似于一种关键点的识别。识别的是物体的`中心点位置。 有了中心点之后，通过回归就可以预测物体边界框的高和宽了。

Anchor Base的缺点：

anchor的大小，数量，长宽比会影响检测性能，通过改变这些超参数Retinanet在Coco benchmark上面提升了4%的AP。
这些固定的anchor极大地损害了检测器的普适性，导致对于不同任务，其anchor都必须重新设置大小和长宽比。
为了去匹配真实框，需要生成大量的anchor，但是大部分的anchor在训练时标记为negative，所以就造成了样本间的不平衡（没有充分利用fore-ground）。
在训练中，需要计算所有anchor与真实框的loU，这样就会消耗大量内存和时间。

摘要总结

目前主流且最成功的目标检测方法效率低下，浪费计算资源。
本文提出的方法将目标用一个中心点来表示，同时可以回归与中心点相关联的其他属性。
简单，更快，更准确，COCO测试集上做到速度与精度的平衡。
3D目标检测和人体姿态估计上，可以做到实时运行，且精度较高；(添加一个深度的回归参数 )

模型结构总览

首先CenterNet网络结构是根据处理速度和精度的不同动态的进行改变的，例如在backbone主干提取网络中可以使用

RestNet做为主干提取网络。
DLA作为主干提取网络
Hourglass(较为复杂)作为主干提取网络的沙漏型。

网络的输入是512x512x3的输入，经过下采样操作在经过上采样操作之后得到128x128x256的特征图的输出，用来进行特性信息的提取。

将输出的映射为3个部分组成分别为：HeatMap（热力图：颜色最深的点为中心点）,Offset,Height&Weigh结构

如何backbone主干提取网络采用的结构是Hourglass的网络结构。

pre，通过一个步长为2的7x7卷积和步长为2的残差单元，将图片宽高压缩为原来的1/4
Hourglass Module1，第一个沙漏型的卷积神经网络模块
joint，连接Hourglass Module2和Hourglass Module2
Hourglass Module2，第二个沙漏型的卷积神经网络模块
Head，输出三个分支输出

输入图像数据的大小为W H组成。

1. HeatMap：大小为（W/4，H/4，80），输出不同类别（80个类别）物体中心点的位置。
2. Offset：大小为（W/4，H/4,2），对HeatMap的输出进行精炼，提高定位准确度。
3. Height&Width：大小为（W/4，H/4，2），预测以关键点为中心的检测框的宽高

推理是单网络前向传递，没有后处理的非极大值抑制。所以整个模型网络的速度会变快。Inference is a single net-work forward-pass, without non-maximal suppression forpost-processing。

模型选择

Resnet-18 and up-convolutional layers [55], our network runs

at 142 FPS with 28.1% COCO bounding box AP. With

a carefully designed keypoint detection network, DLA-
34 [58], our network achieves 37.4% COCO AP at 52 FPS.

Equipped with the state-of-the-art keypoint estimation net-

work, Hourglass-104 [30, 40], and multi-scale testing, our

network achieves 45.1% COCO AP at 1.4 FPS.

模型的初步细节

首先一张图片是按照R（W H 3）的通道数进行输入的。我们的目标是要回归一个中心点的热力图。

我们生成的热力图可以用下面的式子来进行表示：

Y ^ ∈ [ 0 , 1 ] W R × H R × C \hat{Y}\in[0,1]^{\frac{W}{R} \times \frac{H}{R} \times C} Y^∈[0,1]RW×RH×C

其中R表示的是步长的信息。默认情况下都取值为4。在论文中提到了C是中心点keypoint的个数。即在生成的每个特征图的位置上产生c个中心点。

C= 17代表姿态估计选取的关键点，而C=80代表的是选取的目标检测的类别。R=4 得到128x128x80

对于目标检测的任务来说的话，对于COCO数据集上的各个类别（80个）都要产生出范围为0，1的预测值来判断的类别。Yx,y,c = 1 corresponds to a detected keypoint,while ˆYx,y,c = 0 is background.

主干网络有Restnet18加上一个上采样的部分组成。

蓝色的框代表的是真实的框，我们可以通过蓝色的框得到中心点的位置坐标信息。对于这个真实的中心点坐标，我们可以使用高斯分部进行离散化的操作。

Y x y c = exp ⁡ ( − ( x − p ~ x ) 2 + ( y − p ~ y ) 2 2 σ p 2 ) Y_{x y c}=\exp \left(-\frac{\left(x-\tilde{p}{x}\right)^{2}+\left(y-\tilde{p}{y}\right)^{2}}{2 \sigma_{p}^{2}}\right) Yxyc=exp(−2σp2(x−p~x)2+(y−p~y)2)

之后的论文中给出了一个通过中心点通过高斯分布进行离散化操作。所得到的示意图。

首先图中红色部分的方框对应的中心点的坐标即为真实的中心点的坐标信息。通过该中心点进行高斯分布的离散化的操作，中心的值取为1之后周围的几个位置的值位于[0,1]之间。满足高斯分布。

回归的时候可以选取着九个位置中的一个位置来进行回归操作并取一个最大的值。

寻找中心点的损失函数是之后的Focal LOSS进行改编的一个函数。

L k = − 1 N ∑ x y c { ( 1 − Y ^ x y c ) α log ⁡ ( Y ^ x y c ) if Y ^ x y c = 1 ( 1 − Y x y c ) β ( Y ^ x y c ) α otherwise log ⁡ ( 1 − Y ^ x y c ) \begin{array}{l} L_{k}=\frac{-1}{N} \sum_{x y c}\left\{\begin{array}{cl} \left(1-\hat{Y}{x y c}\right)^{\alpha} \log \left(\hat{Y}{x y c}\right) & \text { if } \hat{Y}{x y c}=1 \\ \left(1-Y{x y c}\right)^{\beta}\left(\hat{Y}{x y c}\right)^{\alpha} & \text { otherwise } \\ \log \left(1-\hat{Y}{x y c}\right) & \end{array}\right.\\ \end{array} Lk=N−1∑xyc⎩ ⎨ ⎧(1−Y^xyc)αlog(Y^xyc)(1−Yxyc)β(Y^xyc)αlog(1−Y^xyc) if Y^xyc=1 otherwise

之后对损失函数部分在单独的进行介绍。

为了恢复由输出步幅引起的离散化误差，我们由此引入了Offset这一目标的偏移项。

Offset这一项在训练的时候我们使用的是F1 Loss项。(绝对误差损失函数)

L o f f = 1 N ∑ p ∣ O ^ p ~ − ( p R − p ~ ) ∣ L_{o f f}=\frac{1}{N} \sum_{p}\left|\hat{O}_{\tilde{p}}-\left(\frac{p}{R}-\tilde{p}\right)\right| Loff=N1p∑ O^p~−(Rp−p~)

模型的检测部分

在模型的检测部分我们首先给出了一个位置的坐标。

( x 1 ( k ) , y 1 ( k ) , x 2 ( k ) , y 2 ( k ) ) \left(x_{1}^{(k)}, y_{1}^{(k)}, x_{2}^{(k)}, y_{2}^{(k)}\right) (x1(k),y1(k),x2(k),y2(k))

x1 y1:代表的是左上角处的位置坐标，而x2，y2代表的是右下角处的中心点的位置坐标。

我们可以得到最终的中心点的位置坐标信息：

( x 1 ( k ) + x 2 ( k ) 2 , y 1 ( k ) + y 2 ( k ) 2 ) \left(\frac{x_{1}^{(k)}+x_{2}^{(k)}}{2}, \frac{y_{1}^{(k)}+y_{2}^{(k)}}{2}\right) (2x1(k)+x2(k),2y1(k)+y2(k))

w 和 h的计算则可以采用的是下面的公式来进行计算。

s k = ( x 2 ( k ) − x 1 ( k ) , y 2 ( k ) − y 1 ( k ) ) s_{k}=\left(x_{2}^{(k)}-x_{1}^{(k)}, y_{2}^{(k)}-y_{1}^{(k)}\right) sk=(x2(k)−x1(k),y2(k)−y1(k))

对于中心点位置的预测我们也可以L1损失函数来进行计算

L s i z e = 1 N ∑ k = 1 N ∣ S ^ p k − s k ∣ . L_{s i z e}=\frac{1}{N} \sum_{k=1}^{N}\left|\hat{S}{p{k}}-s_{k}\right| . Lsize=N1k=1∑N S^pk−sk .

最后给出了网络中的整体的损失函数。

L d e t = L k + λ s i z e L s i z e + λ o f f L o f f L_{d e t}=L_{k}+\lambda_{s i z e} L_{s i z e}+\lambda_{o f f} L_{o f f} Ldet=Lk+λsizeLsize+λoffLoff

λ size = 0.1 and λ off = 1

We use a single network to predict the keypointsYˆ offsetOˆ, and size SˆThe network pre-dicts a total of C + 4 outputs at each location。最后得到的是一个C+4的输出向量。它们共享一个唯一的全卷积神经网络。

这个图就给出了二维的目标检测，所得到的输出信息，即为c+4的输出值信息。

先给出中心点及其范围
加入偏移量确定最终的一个位置信息。
给出size的大小用来确定最终的w 和 h的信息位置。
最后我们根据上面得到的信息，得出左上角的坐标和右下脚的坐标位置信息。

公式如下所示。

( x ^ i + δ x ^ i − w ^ i / 2 , y ^ i + δ y ^ i − h ^ i / 2 x ^ i + δ x ^ i + w ^ i / 2 , y ^ i + δ y ^ i + h ^ i / 2 ) \begin{aligned} \left(\hat{x}{i}+\delta \hat{x}{i}-\hat{w}{i} / 2,\right. & \hat{y}{i}+\delta \hat{y}{i}-\hat{h}{i} / 2 \\ \hat{x}{i}+\delta \hat{x}{i}+\hat{w}{i} / 2, & \left.\hat{y}{i}+\delta \hat{y}{i}+\hat{h}{i} / 2\right) \end{aligned} (x^i+δx^i−w^i/2,x^i+δx^i+w^i/2,y^i+δy^i−h^i/2y^i+δy^i+h^i/2)

总结：完全是一个anctor free的方法所有的框都是采用回归的方式来生成的框而不是使用众多的先验框的过程。（NO NMS的方法）

对于heatmap的使用，我们需要的是要在周围的8邻域的附近找到100个最大值选取为峰值。

因为没有使用NMS算法来进行操作，我们使用3x3的using a 3 × 3 max pooling operation来寻找最大的中心值点（也就是创新性的使用了3x3的最大池化来寻找中心点的位置坐标）

之后的论文中还介绍了3d的目标检测和人体姿态估计的一些方法，在本文中对这一部分的讲解进行忽略。

实现细节

We experiment with 4 architectures: ResNet-18, ResNet-101 [55], DLA-34 [58], and Hourglass-104 [30]. We modify both ResNets and DLA-34 using deformable convolution layers [12] and use the Hourglass network as is.

在补充的材料中作者已经给出了，模型具体实现的一个简单的网络结构。如下图所示。

对于输入的图片时间先进行一个4倍的下采样操作，依次向下进行下采样直到128倍的下采样终止。

之后进行一个上采用操作，中间要进行一个连接的操作。得到下采样4倍的一个输出。图a的部分就是连续的两个沙漏模型。

图b为带有转置卷积的 ResNet ，在上采样的部分我们使用到的是转置卷积的方式来进行实现。

图c用于语义分割的DLA34的网络架构，根据箭头的指示来确定融合的目标方向。d中使用了可变性卷积来进行实现用3x3的可变性卷积代替普通的卷积来进行实现。

在得到特征图的信息之后，我们要通过一个公共的卷积模块，来得到对应的三个输出分量。

对于共享的卷积层的部分，我们首先使用到了3x3的共享卷积层对特征进行提取操作。最后使用1x1的卷积对其进行一个回归的操作。得到最终的输出。

对于CenterNet网络的缺点，论文中的补充部分也有所提及，如果出现两个物体的中心点出现在了同一个位置，这种情况下CenterNet网络便无法对这个两个物体进行检测。

优点：

模型的结构简单直观，真Anchor-free思想
单阶段，速度快，有进一步提速和提精度的空间
可以轻松拓展到3D检测和人体姿态估计任务

缺点：对于重叠的目标我们只能检测到一个。

更为具体的实现细节要结合代码进行学习：https://github.
com/xingyizhou/CenterNet.