Detection-friendly dehazing: object detection in real-world hazy scenes

Detection-friendly dehazing: object detection in real-world hazy scenes

摘要

提出了一种联合架构BAD-Net,将去雾模块和检测模块连接成一个端到端的方法。另外,设计了了两个分支结构,用注意力融合模块来充分结合有雾和去雾特征,这减少了在检测模块不好的影响,当去雾模块表现不好时。此外,引入了一种自监督雾度鲁棒损失,使检测模块能够处理不同程度的雾度。更重要的是,提出了一种区间迭代数据细化训练策略,用于指导弱监督下的去雾模块学习。在RTTS和VOC数据集上进行实验。

Introduction

现有恢复模型基于神经网络,它们生成的图片也许包含对于人类研究不可见的噪声,但是对于检测模块有害。

本文主要贡献如下:

1、探索了在没用清晰图像标签的情况下,如何建立去雾和检测之间的正相关性

2、提出了一种双线性结构BAD-Net和一种区间迭代训练策略,

3、在实验中,我们首先从训练损失和策略的角度对联合方法进行了划分和比较。比较结果表明,BAD-Net在RTTS和VOChaze数据集上的性能优于最先进的方法。

Method

Dehazing module

Detection module

采用FRCNN作为检测模块。使用MobilenetV3-large作为轻量化backbone提取特征,在ImageNet上预训练。然后,特征图被当做候选区域网络的输入来自动生成候选区域。采用了和FRCNN意义结构和损失函数

Attention Fusion Module

设计了一个模糊感知注意力模块用来将有雾特征和去雾特征进行融合。当去雾模块表现不好时,去雾特征也许会导致更坏的影响。因此,该融合模块旨在解决去雾特征和有雾特征语义不一致的情况。许多注意力值取决于特征通道,它们也许会丢失特征图的空间信息,这对生成辨别性和选择性注意力图至关重要。因此分别对高度和宽度进行平均池化以保留空间上下文。


Loss function

IA-YOLO证明添加恢复图像损失会造成较慢的收敛和更差的检测效果。原因是恢复损失专注恢复图像的质量。同时检测损失集中在感兴趣区域的提取而不是背景。检测目的在于提取对高度抽象不敏感的特征,而去雾目的在于提取对细节敏感和低抽象程度的特征。因此,两种损失之间存在冲突,模型可能会收敛到局部最优点,而不是全局最优点。基于此,引入了一种自监督损失来指导去雾模块的方向,称为Haze Robust Loss(HR loss)。

HR loss由KL散度计算,KL散度用来测量两种分布之间的差异。受此启发,我们使用它作为软约束用来使去雾特征与原始特征相似。我们的目标是学习一种检测模型,使它对于不同雾度都是稳定的。这可以通过约束雾度特征和检测主干提取的去雾特征的相似性来实现。恢复损失学习包括背景信息的图像质量恢复。这可能会引入噪声,对检测造成危害。我们将去雾约束向前移动到检测提取部分。这使去雾模块更加关注目标区域特征的学习。


Ldet为FRCNN的原始特征,α用来平衡Ldet和Lhr的重要性。

Interval Iterative Training Strategy

看不懂...

experiments

三种训练策略:

1、在检测模型上直接训练有雾图片

2、首先在去雾模型上训练有雾图片,然后输入到在VOCn-tv数据集预训练的检测基线上。

3、在去雾和检测模型上同时训练有雾图片

4点观察总结:

1、使用分离策略方法的性能很大一部分取决于去雾模型。去雾网络也许会引入随机噪声危害计策网络,这是因为他们的损失约束和评价标准不同。

2、CascadeNet收敛慢,性能差。具有两个损失的模型很难跳出局部最优点。

3、DSNet表现更好,是因为它在MSCOCO数据集上预训练过。在整个训练阶段,DSNet表现逐渐下滑,并没有起到正相关的联合优化效果

4、IAYOLO有着更高的准确率因为它只使用了检测损失。但是当我们把它的去雾网络改成AOD-Net时,它的训练损失很难收敛并且它的表现下降严重。这是因为IAYOLO中的暗通道去雾算法和许多传统的数字图像处理方法有利于检测,但这并不是一个对于检测表现提升鲁棒的框架。

考虑到去雾模块给检测模块带来有害噪声,BAD-Net采用双分支方法来减少有害特征的影响。它是一个用于连接去雾和检测的健壮框架,即低级别图像处理和高级模式识别。BAD-Net检测结果的一些样本如图所示。我们的模型可以准确识别附近的目标,即使它们被雾霾遮挡。对于"困难"样本,我们的模型在遥远的小而严重遮挡的物体上表现不佳。在接下来的消融研究中,我们将分析每个模块的影响。

相关推荐
曼城的天空是蓝色的2 分钟前
GroupNet:基于多尺度神经网络的交互推理轨迹预测
深度学习·计算机视觉
zl_vslam3 分钟前
SLAM中的非线性优-3D图优化之轴角在Opencv-PNP中的应用(一)
前端·人工智能·算法·计算机视觉·slam se2 非线性优化
koo36423 分钟前
李宏毅机器学习笔记43
人工智能·笔记·机器学习
lzjava202427 分钟前
Spring AI使用知识库增强对话功能
人工智能·python·spring
B站_计算机毕业设计之家44 分钟前
深度血虚:Django水果检测识别系统 CNN卷积神经网络算法 python语言 计算机 大数据✅
python·深度学习·计算机视觉·信息可视化·分类·cnn·django
Francek Chen1 小时前
【自然语言处理】预训练05:全局向量的词嵌入(GloVe)
人工智能·pytorch·深度学习·自然语言处理·glove
这张生成的图像能检测吗1 小时前
(论文速读)LyT-Net:基于YUV变压器的轻量级微光图像增强网络
图像处理·人工智能·计算机视觉·低照度
许泽宇的技术分享1 小时前
AI黑客来袭:Strix如何用大模型重新定义渗透测试游戏规则
人工智能
Oxo Security1 小时前
【AI安全】检索增强生成(RAG)
人工智能·安全·网络安全·ai
少林码僧2 小时前
2.3 Transformer 变体与扩展:BERT、GPT 与多模态模型
人工智能·gpt·ai·大模型·bert·transformer·1024程序员节