

目录
[1 方法](#1 方法)
[■ DIP模块](#■ DIP模块)
[■ CNN-PP Module](#■ CNN-PP Module)
[■ 检测网络模块](#■ 检测网络模块)
[■ 混合数据训练](#■ 混合数据训练)
[2 实验](#2 实验)
[■ 实现细节](#■ 实现细节)
[■ 有雾图像上的实验](#■ 有雾图像上的实验)
[■ 低照度图像上的实验](#■ 低照度图像上的实验)
[■ 消融研究](#■ 消融研究)
[■ 有效分析](#■ 有效分析)
论文题目: Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions ( 用于恶劣天气条件下的目标检测的图像自适应Yolo )
论文地址: https://arxiv.org/pdf/2112.08088
论文代码: https://github.com/wenyyu/ImageAdaptive-YOLO
发表时间: 2022/7/4
作者单位:浙江大学计算机科学与技术学院、阿里巴巴-浙江大学联合前沿技术研究院、达摩书院、阿里巴巴集团、香港科技大学、香港理工大学
摘要
尽管基于深度学习的目标检测方法在传统数据集上取得了很好的效果,但从恶劣天气条件下拍摄的低质量图像中定位目标仍然具有挑战性 。现有方法要么在平衡图像增强和目标检测任务上存在困难,要么往往忽略了对检测有利的潜在信息。为了缓解这个问题,提出了一种新颖的图像自适应YOLO(IA-YOLO)框架,其中每张图像都可以进行 ++++自适应增强++++ 以获得更好的检测性能 。具体来说,针对YOLO探测器的恶劣气象条件,提出了一种可微图像处理(DIP)模块,其参数由一个小型卷积神经网络(CNN-PP)预测 。以端到端的方式联合学习CNN-PP和YOLOv3,保证了CNN-PP能够以弱监督的方式学习到合适的DIP来增强待检测图像 。我们提出的IA-YOLO方法可以自适应地处理正常和恶劣天气条件下的图像 。实验结果非常令人鼓舞,证明了我们提出的IA - YOLO方法在雾天和低光照场景下的有效性。
图1:在真实世界的有雾环境中,我们的方法可以自适应地输出更清晰的图像,并且物体边界周围的边缘更清晰,从而以更少的缺失实例产生更高的置信度检测结果。

本文工作的亮点在于:
1)提出了一种图像自适应的检测框架 ,在正常和恶劣天气条件下都取得了良好的性能;
2)提出了一种白盒可微图像处理模块,其超参数由弱监督参数预测网络预测;
3)在合成数据集( VOC_Foggy和VOC_Dark)和真实数据集(RTTS和ExDark)上,与之前的方法相比,取得了令人鼓舞的实验结果。
1 方法
在恶劣天气条件下拍摄的图像,由于天气特有信息的干扰,能见度较差,造成目标检测困难。为了应对这一挑战,提出了一种图像自适应的检测框架,通过去除天气特有的信息,揭示更多的潜在信息 。如图2所示,整个管道由基于卷积神经网络的参数预测器( CNNPP )、可微图像处理模块(DIP)和检测网络组成。

首先,将输入图像调整为256×256大小,并将其输入到CNN-PP中预测DIP的参数。
然后,将DIP模块滤波后的图像作为YOLOv3检测器的输入。
提出了一种带有检测损失的端到端混合数据训练方案,使得CNN-PP能够以弱监督的方式学习一个合适的DIP来增强用于目标检测的图像。
■ DIP模块
对于基于梯度优化的CNNPP,滤波器应该是可微的,以便通过反向传播来训练网络。由于CNN在处理高分辨率图像(例如4000×3000)时会消耗大量的计算资源,本文从尺寸为256×256的下采样低分辨率图像中学习滤波器参数,然后将相同的滤波器应用到原始分辨率的图像中。因此,这些滤波器需要独立于图像分辨率。
提出的DIP模块由六个 可调超参数的可微滤波器组成,包括**++++Defog、White Balance ( WB )、Gamma、Contrast、Tone和Sharpen++++** 。与( Hu等2018)一样,标准的颜色和色调算子,如WB,Gamma,对比度和色调,可以表示为像素级滤波器。因此,设计的滤波器可以分为Defog滤波器、像素级滤波器和Sharpen滤波器。在这些滤波器中,Defog滤波器是专门为雾天场景设计的。
▲ 像素级滤波器
逐像素滤波器将输入像素值Pi=(ri , gi , bi)映射为输出像素值Po=(ro , go , bo),其中(r , g , b)分别表示红、绿、蓝3个颜色通道的值。四个像素级滤波器的映射函数列于表1中,其中,第二列列出了方法中需要优化的参数。WB和Gamma是简单的乘法和幂变换。显然,它们的映射函数关于输入图像和参数都是可微的。
表1:像素级滤波器的映射函数。

通过一个输入参数设计可微对比度滤波器来设置原始图像和完全增强图像之间的线性插值。如表1所示,映射函数中En(Pi)的定义如下,见公式1、2、3:


将tone滤波器设计为单调和分段线性函数。学习具有L个参数的色调滤波器,表示为{t0,t1,..,tL-1}。色调曲线上的点记为( k/L , Tk/TL),其中,。此外,映射函数由可微参数表示,这使得函数关于输入图像和参数{ t0,t1,..,tL-1 }均可微,见公式4:

▲ 锐化滤波 器
图像锐化可以突出图像细节。与反锐化掩模技术一样,锐化过程可以描述如下,见公式5:

其中,I(x)是输入图像,Gau(I(x))是高斯滤波器,λ是一个正尺度因子。这种锐化操作对x和λ都是可微的。需要注意的是,可以通过优化λ来调整锐化程度,以获得更好的目标检测性能。
▲ 去雾滤波器
受暗通道先验方法的启发,设计了一个具有可学习参数的去雾滤波器。基于大气散射模型,雾天图像的形成可以表述如下,见公式6:

其中,I(x)表示有雾图像,J(x)表示场景辐射亮度(干净图像)。A为全球大气光,t(x)为介质透射图,定义见公式7:

其中,β表示大气的散射系数,d(x)为场景深度。
为了恢复干净的图像J(x),关键是获取大气光A和透射图t(x)。为此,首先计算雾天图像I(x)的暗通道图,并挑选前1000个最亮的像素。然后,通过对雾天图像I(x)的对应位置的1000个像素取平均来估计A。可以得到t(x)的一个近似解,见公式8:

进一步引入一个参数ω来控制去雾的程度,见公式9:

由于上述操作是可微的,可以通过反向传播来优化ω,使去雾滤波器更有利于雾天图像检测。
图8:学习到的DIP模块及其滤波输出示例。图像自适应处理模块可以根据每幅输入图像的亮度、颜色、色调和天气信息输出相应的滤波器参数,从而获得更好的检测性能。

■ CNN-PP Module
在相机图像信号处理(ISP)管道中,通常使用一些可调滤波器进行图像增强,其超参数由经验丰富的工程师通过视觉检查手动调节以找到适合广泛的场景参数。一般来说,这样的调优过程是非常笨拙和昂贵的。为了解决这个限制,建议使用一个小的CNN作为参数预测器来估计超参数,这是非常有效的。
以雾天场景为例,CNN-PP的目的 是 通过理解图像的全局内容,如亮度、颜色和色调,以及雾的程度来预测DIP的参数 。因此,降采样后的图像足以估计这些信息,可以大大节省计算成本。给定一幅任意分辨率的输入图像,简单地使用双线性插值将其下采样到256×256分辨率 。如图2 ,CNN-PP网络由5个卷积块和2个全连接层组成。每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu。最后的全连接层为DIP模块输出超参数。这五个卷积层的输出通道分别为16、32、32、32和32。当参数总数为15时,CNN-PP模型仅包含165K个参数。

■ 检测网络模块
本文选择在实际应用中广泛使用的单级检测器YOLOv3作为检测网络 ,包括图像编辑、安防监控、人群检测和自动驾驶。与之前版本相比,YOLOv3基于Resnet的思想设计了由连续3×3和1×1卷积层组成的darknet-53。它通过对多尺度特征图进行预测来实现多尺度训练,从而进一步提高检测精度,特别是对小目标的检测。我们采用与原始YOLOv3相同的网络架构和损失函数。
■ 混合数据训练
为了在正常和恶劣天气条件下都能达到理想的效果,采用了一种针对IA-YOLO的混合数据训练方案。算法1总结了提出的方法的训练过程。

每幅图像有2/3的概率被随机添加某种雾气或转化为低照度图像后输入到网络中进行训练 。利用正常和合成的低质量训练数据,使用YOLOv3检测损失对整个流水线进行端到端的训练,保证了IA-YOLO中各个模块能够相互适应。因此,CNN-PP模块在没有人工标注真值图像的情况下,受到检测损失的弱监督。混合数据训练模式保证了IA-YOLO能够根据每幅图像的内容自适应地处理图像,从而达到较高的检测性能。
2 实验
我们评估了我们的方法在雾天和低光照场景下的有效性。滤波器组合为[去雾,白平衡( WB ) , Gamma ,对比度,色调,锐化],而Defog滤波器只在雾天条件下使用。
■ 实现细节
在提出的IA-YOLO方法中,所有实验的骨干网为Darknet-53。在训练过程中,我们随机调整图像大小为(32N×32N),其中N∈[9、19]。此外,采用图像翻转、裁剪和变换等数据增强方法扩充训练数据集。我们的IA-YOLO模型由Adam优化器以80个epochs进行训练。起始学习率为0.0001,批次大小为6。IA-YOLO在三个不同尺度下预测边界框,每个尺度下预测三个锚点。使用Tensorflow进行实验,并在Tesla V100 GPU上运行。
■ 有雾图像上的实验
图3:YOLOv3 II (第1、3、5列)和IA-YOLO (第2、4和6列)在合成VOC_Foggy_test图像(上排)和真实RTTS有雾图像(下排)上的检测结果。所提方法通过学习减少雾霾和锐化图像边缘,具有更好的检测性能,漏检和误检较少。

图7:不同方法在真实RTTS雾天图像上的检测结果。从左到右依次为:YOLOv3 II、Gird Dehaze+YOLOv3 I、MSBDN+YOLOv3 I和IA-YOLO。所提方法学习减少雾霾,增强图像对比度,从而以更少的漏检和误检获得更好的检测性能。

■ 低照度图像上的实验
图4给出了IA-YOLO与基准YOLOv3Ⅱ的定性比较。可以看出,我们提出的DIP模块能够自适应地增加输入图像的对比度,并揭示图像细节,这对于目标检测至关重要。

■ 消融研究
表5:DIP模块中滤波器的消融分析。

■ 有效分析
表7:不同方法的有效分析。

在IA-YOLO框架中,在YOLOv3中引入了一个具有165K可训练参数的小型CNNPP学习模块。IA-YOLO在单个Tesla V100 GPU上检测一幅544×544×3分辨率图像耗时44 ms。与YOLOv3基线相比,它仅增加了13 ms,比GridDehaze-YOLOv3和MSBDNYOLOv3分别快7 ms和50 ms。综上所述,IA-YOLO只增加了165K的可训练参数,同时在运行时间相当的所有测试数据集上取得了更好的性能。
结论
提出了一种新颖的IA-YOLO方法来改善恶劣天气条件下的目标检测,其中每个输入图像都进行了自适应增强,以获得更好的检测性能 。开发了一个完全可微的图像处理模块,通过去除YOLO探测器的天气特异性信息来恢复潜在内容,其超参数由小型卷积神经网络预测。此外,整个框架以端到端的方式进行训练 ,其中参数预测网络通过检测损失进行弱监督学习一个合适的DIP模块。通过利用混合训练和参数预测网络的优势,提出的方法能够自适应地处理正常和不良天气条件。实验结果表明,我们的方法在雾天和低光照场景下的表现都比以前的方法要好得多。
至此,本文的内容就结束了。