【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 15 日论文合集)

文章目录

  • 一、检测相关(6篇)
    • [1.1 ALWOD: Active Learning for Weakly-Supervised Object Detection](#1.1 ALWOD: Active Learning for Weakly-Supervised Object Detection)
    • [1.2 mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection](#1.2 mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection)
    • [1.3 Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion](#1.3 Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion)
    • [1.4 Road Disease Detection based on Latent Domain Background Feature Separation and Suppression](#1.4 Road Disease Detection based on Latent Domain Background Feature Separation and Suppression)
    • [1.5 Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection](#1.5 Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection)
    • [1.6 Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection](#1.6 Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection)

一、检测相关(6篇)

1.1 ALWOD: Active Learning for Weakly-Supervised Object Detection

ALWOD:用于弱监督目标检测的主动学习

python 复制代码
https://arxiv.org/abs/2309.07914

目标检测(OD)是一项重要的视觉任务,但由于缺乏具有精确目标定位标签的大型训练数据集,因此仍然面临挑战。在这项工作中,我们提出了ALWOD,一个新的框架,通过融合主动学习(AL)与弱和半监督对象检测范式来解决这个问题。由于AL的性能严重依赖于模型的初始化,我们提出了一种新的辅助图像生成器的策略,利用一个非常小的标记集,加上一个大的弱标记的图像集,作为一个热启动AL。然后,我们提出了一个新的AL收购功能,AL成功的另一个关键因素,利用学生-教师OD对的分歧和不确定性,有效地提出最翔实的图像注释。最后,为了完成AL循环,我们引入了一个新的标记任务委托给人类注释者,基于模型提出的检测的选择和校正,这是快速和有效的标记信息图像。我们在几个具有挑战性的基准测试中证明,ALWOD显著缩小了在少数部分标记但策略性选择的图像实例上训练的OD与依赖于完全标记数据的OD之间的差距。我们的代码可在https://github.com/seqam-lab/ALWOD上公开获取。

MEBAL2数据库和基准:基于图像的多光谱眨眼检测

python 复制代码
https://arxiv.org/abs/2309.07880

这项工作介绍了一个新的多光谱数据库和新的方法眨眼检测RGB和近红外(NIR)的个人图像。我们贡献的数据集(mEBAL 2,多模式眨眼和注意力水平估计,版本2)是现有最大的眨眼数据库,代表了改进用于眨眼检测和相关应用的数据驱动多光谱方法的大好机会(例如,人脸生物特征中的注意力水平估计和呈现攻击检测)。mEBAL 2包含来自180名不同学生的21,100个图像序列(总共超过200万张标签图像),同时进行了许多不同难度的电子学习任务,或通过edX MOOC平台进行HTML初始化的真正课程。mEBAL 2使用多个传感器,包括两个近红外(NIR)和一个RGB摄像头,用于在任务执行期间捕捉面部手势,以及脑电图(EEG)波段,用于获取用户的认知活动和眨眼事件。此外,这项工作提出了卷积神经网络架构作为mEBAL 2闪烁检测的基准,性能高达97%。使用RGB光谱、NIR光谱和两者的组合来实现不同的训练方法,以增强现有眨眼检测器的性能。我们证明了在训练期间组合NIR和RGB图像提高了RGB眨眼检测器的性能(即,仅基于RGB图像的检测)。最后,所提出的眨眼检测器的泛化能力进行了验证,在更狂野和更具挑战性的环境,如HUST-LEBW数据集,以显示有用的mEBAL 2训练新一代的数据驱动的眨眼检测方法。

1.3 Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion

基于语义级共识提取和离散度的共显著目标检测

python 复制代码
https://arxiv.org/abs/2309.07753

给定一组图像,共同显着对象检测(CoSOD)的目的是突出每个图像中的共同显着对象。有两个因素与此任务的成功密切相关,即共识提取和共识对每个图像的分散。大多数以前的工作表示使用本地功能的组共识,而我们使用分层的Transformer模块提取语义级别的共识。因此,它可以获得对共同对象类别的更全面的表示,并且排除来自与目标对象共享局部相似性的其他对象的干扰。此外,我们提出了一个基于变压器的分散模块,考虑到在不同的场景中的变化的共同显着的对象。它以特定于图像的方式将共识分发到图像特征图,同时充分利用组内的交互。这两个模块与ViT编码器和FPN类解码器集成,以形成端到端的可训练网络,而没有额外的分支和辅助损耗。该方法在三个常用的CoSOD数据集上进行了评估,并达到了最先进的性能。

1.4 Road Disease Detection based on Latent Domain Background Feature Separation and Suppression

基于潜在域背景特征分离和抑制的道路病害检测

python 复制代码
https://arxiv.org/abs/2309.07616

道路病害检测具有挑战性,因为目标区域中道路破损所占比例小,背景多样,引入了大量的领域信息,而且病害类别具有较高的相似性,使得检测难度加大。本文提出了一种新的LDBFSS(Latent Domain Background Feature Separation and Suppression)网络,该网络能够在不需要领域监督和对比增强目标特征的情况下进行背景信息的分离和抑制,并将LDBFSS网络与YOLOv5模型相结合来增强病害特征,从而更好地检测道路病害。作为LDBFSS网络的组成部分,我们首先设计了潜在领域发现模块和领域对抗学习模块,通过无监督的方法获取伪领域标签,引导领域鉴别器和模型对抗训练,抑制背景信息。此外,本文还引入了对比学习模块,设计了k实例对比损失,通过增加对象特征的类间距离和减少对象特征的类内距离来优化疾病特征的表示。我们在两个道路病害检测数据集GRDDC和CNRDD上进行了实验,并与其他模型进行了比较,结果表明,与最优模型相比,GRDDC数据集上的检测结果提高了近4%,CNRDD数据集上的检测结果提高了4.6%。实验结果证明了该模型的有效性和优越性。

1.5 Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection

物联网环境下的未知攻击检测:一种用于增强网络入侵检测的开集分类器

python 复制代码
https://arxiv.org/abs/2309.07461

物联网(IoT)设备在生活各个方面的广泛集成开创了一个互联时代,为网络安全挑战创造了新的途径,并强调了对强大入侵检测系统的需求。然而,传统的安全系统是从封闭世界的角度设计的,在应对不断变化的威胁环境方面经常面临挑战,新的和不熟悉的攻击不断出现。在本文中,我们介绍了一个框架,旨在减轻开集识别(OSR)的问题,在领域的网络入侵检测系统(NIDS)量身定制的物联网环境。我们的框架利用基于图像的数据包级数据的表示,从网络流量中提取空间和时间模式。此外,我们集成了堆叠和子聚类技术,通过有效地建模的复杂性和多样性的良性行为,使未知的攻击识别。实证结果突出强调了该框架的有效性,与现有方法和最新进展相比,对以前看不见的攻击具有令人印象深刻的88%的检测率。未来的工作将在各种开放级别和攻击场景中进行广泛的实验,进一步加强我们提出的解决方案在保护物联网环境方面的适应性和性能。

1.6 Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection

基于多模混合学习和序贯训练的RGB-T显著检测

python 复制代码
https://arxiv.org/abs/2309.07297

RGB-T显着性检测已经成为一项重要的计算机视觉任务,可以在黑暗环境等具有挑战性的场景中识别明显的物体。然而,现有的方法忽略了跨模态特征的特性,并且仅仅依赖于网络结构来融合RGB和热特征。为了解决这个问题,我们首先提出了一个多模态混合损失(MMHL),包括监督和自我监督损失函数。MMHL的监督损失组件明显地利用了来自不同模态的语义特征,而自我监督损失组件减少了RGB和热特征之间的距离。我们进一步考虑空间和通道信息的功能融合,并提出混合融合模块,以有效地融合RGB和热功能。最后,而不是联合训练的网络与跨模态的功能,我们实施了一个顺序的训练策略,只执行训练RGB图像在第一阶段,然后学习跨模态的功能在第二阶段。这种训练策略在没有计算开销的情况下提高了显著性检测性能。性能评价和消融研究的结果表明,与现有的最先进的方法相比,所提出的方法实现了优越的性能。

相关推荐
一勺汤2 小时前
YOLO11改进-注意力-引入多尺度卷积注意力模块MSCAM
yolo·目标检测·计算机视觉·改进·魔改·yolov11·yolov11改进
一个没有本领的人2 小时前
win11+matlab2021a配置C-COT
c语言·开发语言·matlab·目标跟踪
love you joyfully3 小时前
目标检测与R-CNN——paddle部分
人工智能·目标检测·cnn·paddle
西西弗Sisyphus4 小时前
开放世界目标检测 Grounding DINO
人工智能·目标检测·计算机视觉·大模型
风清扬雨5 小时前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉
YangJZ_ByteMaster6 小时前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
请站在我身后10 小时前
最新的强大的文生视频模型Pyramid Flow 论文阅读及复现
论文阅读·人工智能·神经网络·计算机视觉·stable diffusion·transformer
伊一大数据&人工智能学习日志10 小时前
OpenCV计算机视觉 02 图片修改 图像运算 边缘填充 阈值处理
人工智能·opencv·计算机视觉
静静AI学堂12 小时前
Yolo11改策略:卷积改进|SAC,提升模型对小目标和遮挡目标的检测性能|即插即用
人工智能·深度学习·目标跟踪
一勺汤12 小时前
YOLOv8模型改进 第二十五讲 添加基于卷积调制(Convolution based Attention) 替换自注意力机制
深度学习·yolo·计算机视觉·模块·yolov8·yolov8改进·魔改