伪装目标检测论文阅读之:《Confidence-Aware Learning for Camouflaged Object Detection》

论文地址:link

code:link
摘要

任意不确定性捕获了观测结果中的噪声。对于伪装目标检测,由于伪装前景和背景的外观相似,很难获得高精度的注释,特别是目标边界周围的注释。我们认为直接使用"嘈杂"的伪装图进行训练可能会导致模型泛化能力较差。在本文中,我们引入了一种明确的任意不确定性估计技术来表示由于噪声标签而导致的预测不确定性。具体来说,我们提出了一种具有置信度的伪装目标检测(COD)框架,使用动态监督来生成准确的伪装图和可靠的"任意不确定性"。与根据点估计管道产生确定性预测的现有技术不同,我们的框架将任意不确定性形式化为模型输出和输入图像上的概率分布。我们声称,一旦经过训练,我们的置信度估计网络就可以评估预测的像素精度,而无需依赖地面真实伪装图。广泛的结果说明了所提出的模型在解释伪装预测方面的优越性能。

1.模型结构图


上图是fusion融合模块,利用到了RCAB结构,关于RCAB我在之前的论文阅读中有发,是一个固定的残差通道注意力模块。

2.方法

模型一共分为两个模块,COD和OCE模块,OCE模块较为简单,是说在U-Net的基础上,融合高层和浅层特征,COD比较复杂,涉及到 f θ r e f f_\theta ^{ref} fθref和 f θ i n i f_\theta^{ini} fθini
C n U = D ( C o n v 3 ( C o n v 3 ( C n − 1 D ) ) ) C_n^U = D(Conv3(Conv3(C_{n - 1}^D))) CnU=D(Conv3(Conv3(Cn−1D)))
C n U = D ( C o n v 3 ( C o n v 3 ( ∐ ( C n D , D ( T C o n v 2 ( C n + 1 U ) ) ) ) ) ) C_{\rm{n}}^U = D(Conv3(Conv3(\coprod (C_n^D,D(TConv2(C_{n + 1}^U)))))) CnU=D(Conv3(Conv3(∐(CnD,D(TConv2(Cn+1U))))))

重要结构:

动态置信监督:

为置信度估计网络引入动态监督 ,定义如下:
y c = y × ( 1 − y ^ ) + ( 1 − y ) × y ^ {y_c} = y \times (1 - \hat y) + (1 - y) \times \hat y yc=y×(1−y^)+(1−y)×y^

置信估计网络:
l c = 0.5 × ( l c e ( c i n i , y i n i ) + l c e ( c r e f , y r e f ) ) {l_c} = 0.5 \times ({l_{ce}}({c^{ini}},{y^{ini}}) + {l_{ce}}({c^{ref}},{y^{ref}})) lc=0.5×(lce(cini,yini)+lce(cref,yref))

置信感知学习:

伪装目标检测在整个图像中具有不同的学习难度,沿着对象边界的像素比远离伪装对象的背景像素更难区分,此外,迷彩前景包含不同程度迷彩的部分,其中一些部分很容易识别,例如,眼睛嘴巴等,还有一些很难区分的,例如主体区域和背景具有相似的背景外观,我们打算通过将估计的置信度图导入我们的伪装对象检测网络来对图像中这种不同的学习难度来进行建模,具体来说,受【47】的启发,建议使用置信感知结构损失来训练伪装目标检测网络,其在等式中定义:
l s = ∑ u , v w u , v l c e + ∑ u , v w u , v l d i c e {l_s} = \sum\limits_{u,v} {{w^{u,v}}{l_{ce}}} + \sum\limits_{u,v} {{w^{u,v}}{l_{dice}}} ls=u,v∑wu,vlce+u,v∑wu,vldice

3.结论

我们引入了一种用于伪装物体检测的在线不确定性估计技术,任意不确定性建模的传统方法仅涉及对任务相关损失函数的监督,如方程式3所示,在本文中,我们处理在线任意不确定性估计,并对任意不确定性估计模块引入动态监督以突出错误性的区域,具体来说,我们的框架由相互依赖的伪装对象检测网络和在线置信度估计网络组成。生成动态网络置信度标签来训练OCENet,该标签源自CODNet和地面实况图的预测。OCENet估计的置信图指示CODNet更加重视预测不确定的学习区域。我们提出的网络在四个基准伪装物体检测测试数据集上的表现由于现有的伪装物体检测方法,此外,生成的置信图提供了一种有效地解决方案来解释模型预测,而无需依赖地面实况图

相关推荐
缘华工业智维1 小时前
工业设备预测性维护:能源成本降低的“隐藏钥匙”?
大数据·网络·人工智能
DooTask官方号2 小时前
跨语言协作新范式:阿里云Qwen-MT与DooTask的翻译技术突破
人工智能·ai·项目管理·机器翻译·dootask
凯禾瑞华养老实训室4 小时前
聚焦生活照护能力培育:老年生活照护实训室建设清单的模块设计与资源整合
大数据·人工智能·科技·ar·vr·智慧养老·智慧健康养老服务与管理
倔强青铜三4 小时前
苦练Python第64天:从零掌握多线程,threading模块全面指南
人工智能·python·面试
格林威4 小时前
偏振相机是否属于不同光谱相机的范围内
图像处理·人工智能·数码相机·计算机视觉·视觉检测·工业相机
A-大程序员4 小时前
【pytorch】合并与分割
人工智能·pytorch·深度学习
AI新兵5 小时前
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(上)
人工智能·自然语言处理·transformer
Dongsheng_20195 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——刹车片中的应用
人工智能·汽车
LONGZETECH5 小时前
【龙泽科技】汽车转向悬架与制动安全系统技术1+X仿真教学软件(1.2.3 -初级)
人工智能·科技·汽车·汽车仿真教学软件·汽车教学软件
JAVA学习通6 小时前
PostgreSQL 的 hstore、arrays 数据类型
人工智能·自然语言处理