论文阅读：SIoU Loss: More Powerful Learning for Bounding Box Regression

文章链接：

Microsoft Word - Article_v12.docxhttps://arxiv.org/pdf/2205.12740

摘要

目标检测作为计算机视觉任务的核心问题之一，其有效性高度依赖于损失函数的定义------损失函数衡量机器学习模型预测预期结果的准确度。传统的目标检测损失函数依赖于边界框回归指标的聚合，例如预测框与真实框（ground truth）之间的距离、重叠面积和宽高比（即GIoU、CIoU、ICIoU等）。然而，迄今为止提出和使用的方法均未考虑目标真实框与预测"实验"框之间不匹配的方向。这种不足导致收敛速度更慢且效果较差，因为预测框在训练过程中可能"徘徊"，最终产生更差的模型。本文提出了一种新的损失函数SIoU，其中惩罚指标通过考虑期望回归之间的向量角度进行了重新定义。在传统神经网络和数据集上的应用表明，SIoU提高了训练速度和推理准确率。通过大量模拟实验和测试验证了所提出损失函数的有效性。特别地，将SIoU应用于COCO-train/COCO-val数据集，相较于其他损失函数，实现了+2.4%（mAP@0.5:0.95）和+3.6%（mAP@0.5）的提升。

引言

目标检测是计算机视觉任务的关键问题之一，几十年来一直受到广泛研究关注。显然，解决此问题需要在神经网络方法论可接受的概念框架内定义问题。在这些概念中，损失函数（LF）的定义起着重要作用。LF作为惩罚度量，需要在训练过程中最小化，理想情况下应使物体轮廓的预测框与对应的真实框匹配。目标检测问题中定义LF的不同方法考虑了框的以下"不匹配"指标组合：框中心之间的距离、重叠面积和宽高比。最近Rezatofighi等人声称广义IoU（GIoU）LF优于其他标准LF的最先进目标检测方法。虽然这些方法对训练过程和最终结果产生了积极影响，但我们认为仍有大幅改进的空间。因此，在传统用于计算图像中物体真实框与模型预测边界框不匹配惩罚的度量标准（即距离、形状和IoU）基础上，我们建议额外考虑不匹配的方向。这一补充显著有助于训练过程，因为它能快速将预测框漂移到最近的坐标轴，后续只需回归一个坐标（X或Y）。简而言之，角度惩罚代价的添加有效降低了自由度总数。

方法

定义用于计算SCYLLA-IoU（SIoU）损失函数的度量标准。SIoU损失函数包含4个成本函数：

角度成本
距离成本
形状成本
IoU成本

角度成本

添加角度感知LF组件的目的是最小化距离相关"徘徊"中的变量数量。本质上，模型将尝试先将预测框移动到最近的X或Y轴，然后沿相关轴继续接近。为实现这一点，收敛过程将首先尝试最小化α（若），否则最小化。

为此，首先引入LF组件并定义如下：

其中：

角度成本曲线如图2所示。

图1：角度成本计算方案

图2：角度成本曲线

距离成本

距离成本根据上述定义的角度成本重新定义：

其中

可以看出当α→0时，距离成本的贡献显著降低。相反，当α接近时，贡献Δ更大。随着角度增大，问题变得更困难。因此，γ被赋予时间优先级，随着角度增加而优先考虑距离值。注意当α→0时，距离成本将变为常规形式。

形状成本

形状成本定义为：

其中

θ值控制形状成本的重要性，对每个数据集是唯一的。θ是该方程中非常重要的项，它控制应关注形状成本的程度。如果θ值设为1，会立即优化形状，从而损害形状的自由移动。为计算θ值，对每个数据集使用遗传算法，实验确定的θ值接近4，作者定义的参数范围为2至6。

最终定义损失函数：

其中：

训练

为评估所提出损失函数的有效性，在COCO数据集上训练模型------该数据集包含200,000多张图像，标注了150万个物体实例。为比较训练效果，我们使用提出的SIoU和最先进的CIoU损失函数在COCO-train上训练300个周期，并在COCO-val集上测试。

模拟实验

采用模拟实验进一步评估回归过程，如[CIoU论文]所提议。在模拟实验中，覆盖了边界框在距离、尺度和宽高比方面的大多数关系。特别地，选择了7个单位框（即每个框面积为1），宽高比不同（即1:4、1:3、1:2、1:1、2:1、3:1和4:1）作为目标框。不失一般性，7个目标框的中心点固定在(10,10)。锚框均匀分布在5000个点上（见图5）。(i)距离：在圆心(10,10)、半径为3的圆形区域内均匀选择5000个点放置锚框，含7种尺度和7种宽高比。这些情况包括重叠和非重叠框。(ii)尺度：对于每个点，锚框面积设为0.5、0.67、0.75、1、1.33、1.5和2。(iii)宽高比：对于给定点和尺度，采用7种宽高比，即与目标框相同的设置。所有5000×7×7个锚框应拟合到每个目标框。总计有1715000=7×7×7×5000个回归案例。

总最终误差定义如下：

其中是当前框，是相应的真实框，E(i)是第i次迭代误差。

使用Adam优化器和阶梯学习率调度器进行训练。初始学习率和阶梯学习步长分别设为0.1和80。训练持续100个周期。

实现测试

最终损失函数包含两项：分类损失和框损失。

其中是焦点损失（focal loss），和分别是框损失和分类损失的权重。为计算、和θ，使用了遗传算法。为训练遗传算法，从训练集中提取小样本子集，并计算值直到适应度值低于阈值或过程超过允许的最大迭代次数。

结果与讨论

在简单测试中，我们比较了两种收敛情况：初始框位于某轴上（见图6右图）和初始框远离轴（见图6左图）。显然，当初始预测框远离真实框的X/Y轴时，SIoU控制训练的优势更明显：SIoU训练在495个周期内收敛到真实框，而传统CIoU在1000个周期后仍未找到。

图7包含CIoU和SIoU的模拟实验图表。所有1715000个回归案例总结在3D图中，X和Y轴是框中心点坐标，Z是误差。可见，使用提出的SIoU损失的最大误差比CIoU小近两个数量级。还注意到SIoU的误差表面更平滑，表明SIoU在所有模拟案例中总误差最小。

CIoU和SIoU训练对比的另一结果见图8。SIoU的总误差随迭代的下降更陡峭，且最终值更低。

为评估SIoU效率，我们还比较了其对我们专有的Scylla-Net神经网络的影响。Scylla-Net是基于卷积的神经网络，使用遗传算法为给定数据集定义其架构，预定义层类型。类比不同大小的Darknet模型，我们使用两种模型大小：小型Scylla-Net-S和大型Scylla-Net-L。

为进行全面测试，我们训练模型并在300个训练周期内监控所有参数。相应图表见图9。显然，所有监控指标不仅在训练过程中显著更优，而且达到更好的最终值。

具体而言，在COCO-val上使用该损失函数的mAP为52.7% mAP@0.5:0.95（包含预处理、推理和后处理的7.6ms）和70% mAP@0.5；而使用CIoU损失时分别仅为50.3%和66.4%。较大模型可达到57.1% mAP@0.5:0.95（包含预处理、推理和后处理的12ms）和74.3% mAP@0.5，而其他架构如Efficient-Det-d7x、YOLO-V4和YOLO-V5分别最高达到54.4%（153ms）、47.1%（26.3ms）和50.4%（fp16测试，6.1ms）。注意YOLO-V5x6-TTA在COCO-val上可达到约55%，但推理时间非常慢（float16精度约72ms）。图10总结了不同模型的每图推理时间与mAP@0.5:0.95的关系。显然，Scylla-Net实现了高mAP值，而模型推理时间远低于对比模型。

表1. 使用CIoU损失、SIoU以及应用于更大Scylla模型的SIoU训练的Scylla-Net的mAP指标比较。

网络/损失	mAP@0.5	mAP@0.5:0.95
Scylla-Net-S/CIoU	66.4%	50.3%
Scylla-Net-S/SIoU	70.0%	52.7%
Scylla-Net-L/SIoU	74.3%	57.1%

最后，为评估模型性能改进，我们使用经SIoU训练的Scylla-Net运行不同模型/方法的样本图像。图11展示了一些示例。注意对比模型的假阴性（False Negative）和报告概率差异。

结论

本文提出了一种用于边界框回归的新损失函数，可显著改进目标检测算法的训练和推理。通过在损失函数代价中引入方向性，在训练阶段实现了更快收敛，并在推理中获得了优于现有方法（如CIoU损失）的性能。有效地，所提出的改进降低了自由度（单坐标vs双坐标），收敛更快且更准确。

通过与广泛使用的最先进方法比较并报告测量改进，验证了这些主张。提出的损失函数可轻松集成到任何目标检测流程中，有助于取得优异结果。