导读
论文:《Balanced Classification: A Unified Framework for Long-Tailed Object Detection》
TL;DR: 本文针对长尾物体检测问题提出了一种新颖的解决方案,即 BACL 框架。通过前景分类平衡损失和动态特征幻觉模块,BACL 能够有效地解决长尾分布下的分类偏见问题,并显著提高了检测性能。这一工作对于现实世界中长尾分布的物体检测具有实际意义和应用前景。
问题陈述 :众所周知,传统的检测器在处理长尾数据(类别不均衡)时表现下降,因为它们倾向于大多数头部类别。本文提出,这一学习偏见源于两个因素:
- 前景类别分布的不平衡竞争
- 尾部类别样本多样性的缺乏
从图中可以看出,由于其区分能力有限,传统方法经常将三轮车错误分类为自行车。而本文提出的 BACL 专注于这些混杂类别,自适应地提升它们对损失公式的贡献。同时,BACL 能够综合多种特征来增强尾部类别的表示,从而帮助检测器在所有类别上实现更平衡的状态。
解决方案 :为此,作者引入了一个统一框架Balanced Classification, BACL
,引入了一对长期和短期指标来实时监控分类器的学习状态,通过动态的方法来改善类别分布的差异和样本多样性,从而进行偏见校准。具体来说,提出了两个组件:
- 前景分类平衡损失 :
Foreground Classification Balance Loss, FCBL
通过成对的类别感知边距和自动调整的权重项来减轻头部类别的支配地位,关注难以区分的类别 - 动态特征幻觉模块 :
Dynamic Feature Hallucination module, FHM
通过合成幻觉样本来扩展尾部类别在特征空间中的表示,从而引入额外的数据变化,以扩展尾部类别的特征空间表示。
最终,BACL
通过这两个组件的协同作用消除了分类偏见,纠正了由类别分布差异引起的不平等,并增强了样本多样性。
实验结果 :BACL
在具有挑战性的LVIS
基准测试上实现了新的最先进水平,超过了标准的Faster R-CNN
,整体AP
提高了5.8%,尾部类别的 AP 提高了 16.1% 以及常见类别提升 7.0% AP。
方法
本文提出的方法部分是针对长尾目标检测问题的解决方案。长尾分布是指少数类别占据了大部分样本,而大部分类别只占据了少数样本。这种分布对于深度学习模型的训练是一个巨大挑战,特别是对于目标检测任务中的尾部(少数)类别。
如上所述,本文针对长尾目标检测提出了一个全新的框架。首先,在表示学习阶段,通过一系列创新的技术,如Sigmoid
分类器、Copy-Paste
增强等,获取了更鲁棒的特征表示。然后,在分类器学习阶段,通过引入长短时指标对来校准分类偏差,从而使模型更加关注尾部类别的检测。这种细致入微的方法有助于改善长尾分布下尾部类别的检测性能,是一个对现实世界场景中的长尾分布问题有益的解决方案。下面,笔者将介绍平衡分类框架的核心内容。
表示学习阶段
-
Sigmoid-based Classifier with an Objectness Branch
: 本文主要采用基于Sigmoid
的分类器与目标分支,不使用任何样本平衡技术调整分布。 -
Leverage the Simple Copy-Paste Augmentation
: 通过替换传统的多尺度训练策略,转而采用Copy-Paste
增强策略,创建更具挑战性的训练样本,从而获得更好的特征表示。 -
Other Feasible Attempts
: 通过大量实验,作者观察到减小权重衰减系数可以略微提高表示学习。此外,通过将 NMS 操作后保留的提议数量从 1000 增加到 2000,提高了前景提议的数量,有助于 RoI 特征提取器的收敛。
长-短时指标对
为了有助于在分类器学习阶段校准分类偏差,引入了一对互补的长期和短期指标。这些指标有助于反映分类器的学习状态,特别是对于不同前景类别的倾向和每个类别的分类正确性。
- 长期指标: 包括静态统计、一阶动态统计和二阶动态统计,能够捕捉前景类别之间的优势和分类倾向。
- 短期指标: 用于评估分类结果的正确性,特别是关注具有挑战性的类别。
这些长短时指标共同构成了该方法的基础,克服了先前工作仅关注一个方面的缺点。后面我们重点介绍下导读部分提出的两个方法。
前景分类平衡损失
FCBL 的构建是为了解决长尾分布场景中多个前景类别之间普遍存在的不平等竞争问题。此损失函数专门应用于前景提议,背景提议的损失则由另一个方程计算。首先看下定义:
此处,FCBL 主要引入了一个适应性类别感知边缘(adaptive class-aware margin)在任何一对前景类别之间,以改善一个类别对另一个类别的支配。该边缘与相应长期指标的比率成对数比例:
这里 <math xmlns="http://www.w3.org/1998/Math/MathML"> α \alpha </math>α 控制边缘的范围,而 <math xmlns="http://www.w3.org/1998/Math/MathML"> l i l j \frac{l_{i}}{l_{j}} </math>ljli 是长期指标的统一表达形式,该适应性边缘具有以下特点:
- 如果真实类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 强于类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> j j </math>j,边缘 <math xmlns="http://www.w3.org/1998/Math/MathML"> δ i j \delta_{ij} </math>δij 将为负,。这使分类器能够为类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> j j </math>j 分配更高的概率;
- 相反,如果条件颠倒, <math xmlns="http://www.w3.org/1998/Math/MathML"> δ i j \delta_{ij} </math>δij 将为正,这个正边缘鼓励分类器通过更大的抑制梯度降低强类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> j j </math>j 的置信度。
其次,自然数据和长尾数据集通常具有大的词汇集,这增加了训练分类器的难度。因此,FCBL 集成了一个自动调整的权重项,定义如下:
这个自动调整的权重项的引入旨在优先考虑混淆类别,同时忽略良好分类的类别。简单来说,FCBL 通过引入适应性类别感知边缘和自动调整的权重项,有效地解决了不同前景类别之间不平等的竞争问题。适应性边缘帮助分类器感知类别差异并动态调整抑制梯度的幅度。自动调整的权重项有助于区分混淆类别和良好分类的类别。这两个组件共同使 FCBL 能够在长尾分布场景中改善前景类别之间的不平等竞争,从而提高了分类器的泛化能力。
特征幻觉模块
FHM 旨在解决长尾类别下的代表性不足问题。虽然 FCBL 可以解决前景类别之间的不平等竞争问题,但它无法解决尾部类别的样本稀缺问题。例如,某些类别可能只有一个训练样本,这极大地限制了分类器对该类别的判别能力。为了解决这一问题,FHM 通过合成幻觉特征来增强特征空间的表示,尤其是对尾部类别,从而增强数据多样性。下面是FHM的关键组成部分:
区域提议生成
FHM 首先实时捕捉每个类别的特征分布,然后根据长期指标的指导为选定的类别生成训练特征。具体来说,它使用一个非可学习的边界框生成器生成与真实边界框有大量重叠的区域提议。与 RPN 不同,边界框生成器使用坐标操作随机转换图像中的真实边界框为正提议。
在线特征分布
接下来,RoIAlign
层和 RoI
特征提取器将这些提议编码为 RoI
特征,以收集在线特征分布,包括原型和方差。FHM 为出现在 <math xmlns="http://www.w3.org/1998/Math/MathML"> I I </math>I 中的每个类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 计算特征的均值和方差,然后使用指数移动平均函数更改相应的原型和方差。
尾部类别突出
最后,FHM 通过为每个类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 分配一个与长期指标 <math xmlns="http://www.w3.org/1998/Math/MathML"> l i l_{i} </math>li 成反比的采样概率 <math xmlns="http://www.w3.org/1998/Math/MathML"> s p i sp_{i} </math>spi 来确保尾部类别突出:
使用上述采样概率,FHM 随机选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> c c </math>c 个类别并通过不断更新的特征分布通过重参数化技巧为每个类别 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i 生成 <math xmlns="http://www.w3.org/1998/Math/MathML"> m m </math>m 个幻觉特征:
总的来说,FHM
通过引入新的幻觉特征来动态增强数据多样性,特别是对于尾部类别,从而缓解了代表性不足的问题。通过捕捉每个类别的特征分布,并基于长期指标的指导合成幻觉特征,FHM 增强了尾部类别在特征空间中的表示。这一直观而有效的方法不仅增加了样本数量,还增加了样本之间的变化,从而有助于进一步改进尾部类别的分类性能。
算法伪代码
实验
简短分析下。BACL 框架在 LVIS 数据集的两个版本(LVIS v0.5 & LVIS v1.0)上表现出色,与当前最先进的方法相比取得了显著的优势。特别是在使用ResNet-50-FPN
和ResNet-101-FPN
骨干时,BACL
在总体 AP 方面均取得了优异成绩。
-
稀有类别检测: BACL 在稀有类别的检测上特别出色,不仅超过了端到端训练方法,还在解耦训练方法中实现了20%以上的AP。
-
常见类别检测: BACL 不仅在稀有类别上表现优异,还在常见类别上实现了明显的提升。
-
不同骨干结构的适应性: 无论是较小的 ResNet-50-FPN 还是较大的 ResNet-101-FPN 骨干,BACL 都展示了卓越的性能,证明了其广泛的适用性和灵活性。
实际应用的可行性: BACL 的优势不仅限于实验设置,还在实际场景中展现出极高的实用性,表现与传统的交叉熵损失相当。
综上所述,BACL 通过增强样本多样性,在稀有和常见类别的检测上均取得了显著的改进,展示了其作为一种强大的、灵活的、实际可用的目标检测方法的潜力。
应用到下游任务的表现也还不错。
总结
今天为大家介绍了BACL
,一个针对长尾目标检测任务的统一框架。通过采用分而治之的策略,BACL 引入了 FCBL 来减轻前景类别间的不平等竞争,以及 FHM 来增强尾部类别的多样性。大量实验表明,BACL 能够在不同的骨干网络和架构下,为检测器提供更均衡和准确的分类分支。
然而,BACL 是基于解耦训练流水线设计的,这限制了在分类器学习阶段对特征提取器的改进。未来的工作可能会弥补这一缺点,并整合更先进的指标和方法以增加样本差异,进一步改进。
此外,尽管 BACL 在常见类别的表现上可能略逊一筹,但其在稀有类别的表现卓越,并在不同大小的骨干网络上均取得优异成绩,体现了其广泛的适应性和灵活性。
总的来说,BACL 作为一种创新的解决方案,在平衡长尾分布中的类别表示、增强样本多样性和提高检测准确性方面取得了显著的进展。我们相信,经过针对特定任务的修改,所提出的 BACL 还可以应用于其他长尾识别任务。
写在最后
欢迎对长尾分布学习和目标检测相关研究感兴趣的童鞋扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友,备注:学校/公司-研究方向-昵称,与更多小伙伴一起交流学习!