BAS模型论文阅读

论文全名:Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation

论文pdf下载地址:2309.12943 (arxiv.org)

论文会议版全名:Background Activation Suppression for Weakly Supervised Object Localization

论文会议版pdf下载地址: 2112.00580 (arxiv.org)

论文代码:github.com/wpy1999/BAS-Extension.

论文会议版代码:wpy1999/BAS: [CVPR2022] PyTorch implementation of ''Background Activation Suppression for Weakly Supervised Object Localization''. (github.com)

背景

本文提出了一种背景激活抑制(BAS)方法。具体来说,设计了激活映射约束(AMC)模块,通过抑制背景激活值来促进生成器的学习。同时,利用前景区域引导和区域约束,可以学习到目标的整个区域。

overview

如下图,我们的方法包括三个模块:提取器、生成器和激活映射约束(AMC)模块。首先,使用提取器提取图像特征,用于后续的定位和分类。该生成器旨在生成用于定位的特定于类的前景预测图。然后对前景预测图进行反演得到耦合的背景预测图,并将其一起送入AMC进行定位训练。AMC由背景激活抑制损失、面积约束损失、前景区域引导损失和分类损失四种损失进行监督。其中最重要的是背景激活抑制损失(background activation suppression loss),通过最小化背景激活值与整体激活值(整个图像产生的激活值)的比值来促进生成器的学习。在推理阶段,根据预测的类别概率选择Top-k预测图,取其平均预测图作为最终的定位结果。

Train

inference

Loss

Background Activation Suppression (Lbas)

我们根据真类选择(1)和 (2)中的y值。应用ReLU激活函数后,这些值分别表示为激活值S∈R1和背景激活值Sb∈R1。S表示未遮挡特征图生成的激活值,包含前景和背景信息,Sb为背景特征图生成的激活值,只保留背景信息。这里,我们以比率的形式测量背景激活值与激活值之间的差值,实现背景激活值的抑制。Lbas定义如下图:

生成非负的S和Sb对于Lbas是必要的。在之前的会议版本中,我们使用ReLU作为网络末端的激活函数,以保证输出的非负性,如图4所示。这种方法导致具有负值的像素在ReLU后被标记为0,并且它们的梯度不会参与反向传播。而具有负值的像素通常与背景区域相关联,这对于分类和预测图的学习也很重要。如图4所示。这种方法导致具有负值的像素在ReLU后被标记为0,并且它们的梯度不会参与反向传播。而具有负值的像素通常与背景区域相关联,在分类损失中忽略了负激活值,在训练后期会间接导致BAS损失不足(损失值反而变大)。为了解决这个问题,我们移除这个ReLU层,使负像素也参与梯度反向传播。为了保证S和Sb的非负性,我们在生成它们之前分别使ReLU激活函数。

Area Constraint (Lac)

背景预测图可以被Lbas以一种抑制的方式引导,Lbas越小,背景预测图覆盖的区域判别性越弱。当背景预测图能够很好地覆盖背景区域时,其产生的Lbas必须最小,而背景区域应尽可能大,因此前景区域应尽可能小,所以我们使用前景预测图区域作为约束:

Foreground Region Guidance (Lfrg)

我们保留了FPM利用分类任务驱动前景预测图学习的方法,该方法利用高级语义信息将前景预测图引导到目标的近似正确区域。因此,利用了基于交叉熵的前景区域制导损失。将F送入F2(F, Θ2)后,与Mf点积生成Lfrg:

Classification (Lcls)

我们通过交叉熵y得到分类损失lcl,用于整个图像的分类学习:

Weakly Supervised Object Localization

通过联合优化AMC模块中的背景激活抑制损失、区域约束损失、前景区域引导损失和分类损失,可以将前景预测图引导到目标的整体区域。BAS培训过程的总损失定义如下:

Weakly Supervised Semantic Segmentation

如图5所示,我们在AMC模块中通过在图像中随机选择一个前景类别,并将其对应的预测图记为Mf来维持单个预测图的学习过程。此外,为了使网络实现多标签分类,我们采用softmax交叉熵损失,并对其形式进行简单修改,而不是使用基于sigmoid的损失(二进制交叉熵损失)。这主要是因为从背景定位图中得到的激活值Sb必须小于0,才能保证1/(1 + e - Sb)生成的概率接近0,这与Sb的非负性相冲突。

Multi-Label-Classification (Lmcls)

对于弱监督语义分割任务,我们采用多标签分类损失lmcl代替lmcl来处理多标签情况。为了避免softmax公式中存在多标签时的类别不平衡和训练不稳定问题,我们只考虑前景和背景类别的区分,而忽略了前景类别之间的相互关系。可以表示为:

实验

主实验及可视化

总结

通过实验研究发现,BAS在大中型对象上表现较好,但在小型对象上表现不佳。我们认为主要原因有以下两个方面:小目标的定位是计算机视觉固有的问题,另一方面,面积约束损失对不同尺寸目标的惩罚不均匀,对小目标的惩罚较少,这导致BAS无法仅用一个超参数来调节面积约束损失来平衡大目标和小目标。

未来可能的工作:1)解决BAS模型在不同尺寸下定位能力的性能问题 2)扩展BAS的应用

对于1我们或许可以采用多尺度的特征提取或者改进面积约束损失使其可以自适应地进行调整损失函数等

相关推荐
热情的Dongming12 小时前
【课程总结】day34:多模态大模型之ViT模型、CLIP模型论文阅读理解
论文阅读
chencjiajy14 小时前
向量模型Jina Embedding: 从v1到v3论文笔记
论文阅读·embedding·向量模型
HollowKnightZ18 小时前
论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck
论文阅读·笔记
苦瓜汤补钙18 小时前
论文阅读:DynamicDet: A Unified Dynamic Architecture for Object Detection
论文阅读·人工智能·目标检测
Maker~1 天前
18、论文阅读:AOD-Net:一体化除雾网络
网络·论文阅读·计算机视觉
新手小白勇闯新世界2 天前
论文阅读-用于图像识别的深度残差学习
论文阅读·人工智能·深度学习·学习·计算机视觉
大拨鼠2 天前
【多模态读论文系列】LLaMA-Adapter V2论文笔记
论文阅读·人工智能·llama
小嗷犬2 天前
【论文笔记】Dense Connector for MLLMs
论文阅读·人工智能·语言模型·大模型·多模态
新手小白勇闯新世界2 天前
论文阅读- --DeepI2P:通过深度分类进行图像到点云配准
论文阅读·深度学习·算法·计算机视觉
0x2112 天前
[论文阅读]BERT-based Lexical Substitution
论文阅读·人工智能·bert