YOLO目标检测改进
YOLO V1- YOLO V10:
YOLO V11:
YOLO V12:
文章链接https://www.arxiv.org/pdf/2502.12524代码链接YOLOv12: Attention-Centric Real-Time Object Detectors - sunsmarterjie/yolov12
https://github.com/sunsmarterjie/yolov12
其他对YOLO改进的代表论文:
引入注意力机制:
TD-YOLO: Taylor-Attention based Dehazing for Enhanced YOLO Detection Performance
ACM 24
论文链接
BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain TumoiDetection
MICCAI'24
论文链接
代码链接
ADA-YOLO: DYNAMIC FUSION OF YOLOV8 AND ADAPTIVE HEADS FOR PRECISE IMAGEDETECTION AND DIAGNOSIS
论文链接
YOLOV8-ReSCBAM: YOLOv8 Based onAn Effective Attention Module forPediatric Wrist FractureDetection
论文
代码链接
引入多尺度特征融合:
CAF-YOLO:ARobust Framework for Multi-Scale Lesion Detection in Biomedical Imagery
Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional foraccurate object detection
论文链接
代码链接
YOLO-CCA: A Context-Based Approach for Traffic Sign Detection
模型轻量化
YOLO-Granada: a lightweight attentioned Yolo for pomegranates fruit detection
LUD-YOLO: A novel lightweight object detection network for unmanned aerial vehicle
论文链接
Reducing the Side-Effects of Oscillations in Training of Quantized YOLONetworks
与其他新技术结合
Mamba YOLO: SSMs-Based YOLO For Object Detection
Mamba-YOLO-World: Marrying YOLO-World withMamba for Open-Vocabulary Detectior
FER-YOLO-Mamba: Facial Expression Detection and Classification Based On Selective State Space
SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State SpaceModels and Programmable Gradients
代码链接
本文介绍了一种用于航空图像中小目标检测的先进方法SOAR,该方法利用状态空间模型(StateSpace Models,SSM)和可编程梯度信息(Programmable Gradients Information,PGI)来提高小目标的检测和分割能力。研究者们采用了轻量级的YOLO v9架构,并结合了SAHI框架和Vision Mamba模型,该模型通过位置嵌入和新颖的双向状态空间模型实现精确的视觉理解。实验结果表明,该方法在检测精度和处理效率上都有显著提升。
YOLO-Mamba: Object Detection Method for Infrared Aerial Images
链接: Loading...
本文提出了一种名为YOLO-Mamba的红外航空图像目标检测方法,旨在解决红外图像中的目标检测问题,特别是在图像模糊和噪声方面。该方法结合了Mamba模型和注意力机制,提出了一个新的基于Mamba的注意力模块(Mamba Block Atention Module,MBAM),用于改善算法对图像关键区域的关注能力,并减少冗余信息的影响。
Fusion-Mamba for Cross-modality Object Detection
本文提出了一种名为Fusion-Mamba的跨模态目标检测方法,用于改善无人机(UAV)航空图像中目标尺寸过小且特征信息有限的问题。该方法通过在隐藏状态空间中关联跨模态特征,利用改进的Mamba模型和门控机制来减少跨模态特征之间的差异,并增强融合特征的表示一致性。Fusion-Mamba方法的核心在于设计的Fusion-Mamba块(FMB),它包含两个模块:State Space Channel swapping(Sscs)模块用于浅层特征融合Dual State Space Fusion(DSSF)模块则在隐藏状态空间中实现深层融合。在LLVIP数据集上,Fusion-Mamba方法基于YOLOv5和YOLOv8的backbone分别取得了96,8%和97.0%的mAP50
DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing
论文链接
代码链接
本文提出了一种名为DMM(Disparity-guided Multispectral Mamba)的多光谱定向目标检测框架,用于遥感领域。该框架包括一个基于Mamba的交叉模态融合模块(DCFM),一个多尺度目标感知注意力模块(MTA),以及一个目标先验感知(TPA)辅助任务。DCFM模块利用RGB和IR图像之间的视差信息来适应性地融合特征,减少模态间冲突。MTA模块旨在通过聚焦RGB模态内的相关目标区域来增强特征表示,解决模态内变化。TPA辅助任务利用单模态标签引导MTA模块的优化,确保其聚焦于目标及其局部上下文。在DroneVehicle和VEDAI数据集上的实验表明,该方法在保持计算效率的同时,超越了现有的最先进方法。
Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection
ECCV24满分论文
这篇论文提出了一个名为SpikeYOLO的脑启发式尖峰神经网络(SNN)架构,旨在缩小SNN和人工神经网络(ANN)在目标检测任务上的性能差距。SpikeYOLO通过简化YOLO系列的复杂模块设计,并结合元SNN块来构建模型。此外,论文还提出了一种新的尖峰神经元--整数泄漏积分发放(I-LIF),它在训练时激活整数值,而在推理时通过扩展虚拟时间步来保持尖峰驱动,从而减少量化误差。在静态COCO数据集上SpikeYOLO达到了66.2%的mAP@50和48.9%的mAP@50:95,分别比之前的SNN最高水平提高了15.0%和18.7%在神经形态Gen1数据集上,SpikeYOLO实现了67.2%的mAP@50,比具有相同架构的ANN模型高出2.5%,并且能效提高了5.7倍。
损失函数优化
改进损失函数:
将IOU Loss替换为深度之眼整理其他更高效的损失函数,如GIoU Loss、DIoU Loss等,可以减少预测框与真实框之间的误。差
优化NMS策略:
采用更先进的NMS算法,如Soft-NMS、Weighted NMS等,可以有效减少重复检测并提高检测精度A streamlined approach for intelligent ship object detection using EL-YOLO algorithm
EL-YOLO通过其创新的损失函数、特征融合技术和模型压缩策略,在保持轻量级的同时显著提高了目标检测的准确性和效率,特别是在低空小目标检测任务中表现出色。在VisDrone2019-DET和AI-TOD数据集上,与YOLOv5s相比,EL-YOLO在mAP50上分别实现了12.4%和1.3%的改进。与2023年提出的YOLOv8s相比,EL-YOLO在mAP50上分别实现了2.8%和10.7%的增长
YOLO-FaceV2:A Scale and Occlusion Aware Face Detector
YOLO-FaceV2通过引入RFE模块、SEAM注意力机制、Slide权重函数以及优化的锚点设计和损失函数,显著提升了在多尺度、遮挡以及样本不平衡问题上的检测性能,使其在Widerface验证数据集上达到了SOTA性能。,其Easy、Medium和Hard子集上的检测结果分别为98.6%,97.9%和91.9%,实现了接近或超过当前最优(SOTA)的性能。
数据增强
增加数据多样性
使模型学习到不同角度和尺度的目标特征,提高对各种姿态目标的检测能力。
使用复杂的数据增强技术:
如随机剪切、旋转、缩放、颜色变换等,以增加模型的鲁棒性。
Source-Free Domain Adaptation for YOLO Obiect DetectionECCV2024
SF-YOLO是一种基于YOLO系列单发探测器的源自由领域适应(SFDA)方法,它采用了教师-学生框架和目标领域特定的数据增强,以及一种新的通信机制来稳定训练,并减少对标注目标数据的依赖。SF-YOLOv5的参数值和浮点运算次数(FLOPS)相比于YOLOv5S分别减少了68.2%和12.7%,表明SF-YOLOv5在保持或提升性能的同时,能够以更少的计算资源实现更快的推理速度。
Data Augmentation for Object Detection via Controllable Diffusion Models
这篇论文提出了一种基于可控扩散模型和CLIP的数据增强方法,用于改进目标检测任务中YOLO系列检测器的性能。该方法通过生成合成图像并结合类别校准的CLIP分数进行后过滤,以提高目标检测模型的性能。在COCO数据集的5/10/30-shot少量样本设置下,使用该数据增强方法可以将YOLOX检测器的mAP(平均精度均值)分别提高18.0%、15.6%和15.9%
模型训练策略优化
比如与迁移学习结合:利用在大规模图像数据集上预训练的YOLO模型作为起点,通过迁移学习技术进行微调,可以提升训练效率和识别性能
MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled FasterYOLO
ICIP24 CCF-B类
YOLO Phantom是一个为资源受限环境设计的轻量级目标检测模型,它通过结合迁移学习和新颖的Phantom Convolution块,在保持高准确性的同时显著提高了检测速度。与YOLOv8n等其他模型相比,YOLO Phantom在RGB和热成像检测的FPS上分别实现了17%和14%的提升,并且在跨模态性能测试中展现了卓越的性能,这表明了其在多模态目深度之眼整理标检测任务中的有效性和优越性。
多模态融合: (数据处理+模型架构优化)
结合语音、文本等其他模态信息,采用多模态学习方法进行手势识别,以更全面地捕捉人类的情感和意图。
SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery
特定场景优化
根据应用场景的特点和需求,对YOLO进行针对性的改进。例如,在红外成像、小目标检测等场景中,可以通过调整网络结构或参数来提升模型的适应性和检测效果
Z-YOLOv8s-based approach for road object recognition in complex traffic scenarios
1区
Z-YOLOv8s 并非单纯通过重参数化来改进 YOLOv8s,而是结合了重参数化、注意力机制、小目标检测优化等多种技术手段,从而在复杂交通场景中实现了更高的检测精度和更好的实时性检测速度:快了6.3倍(BDD100K)。[email protected]:提升了 27%(BDD100K)和 26.2%(KITTI)
Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural NetworkToolbox Enabling Edge Deployment
论文通过重参数化、稀疏交叉注意力和高效的预测头等改进,显著提升了YOLOv8在边缘计算场景下的性能和适应性。这些改进不仅降低了模型的计算复杂度和参数量,还增强了模型的检测精度和实时性,特别适用于需要低延迟和高精度的小目标检测任务。相比YOLOv8-S,ED-YOLO的参数量减少了17%,计算复杂度降低了23%
An efficient re-parameterization feature pyramid network on YOLOv8 to the detection of steesurface defect
2区
链接: Loading...
文章通过重参数化技术以及其他优化手段对YOLOv8进行了改进,成功构建了一个轻量级且高效的钢材表面缺陷检测模型。这种改进不仅提升了检测性能,还显著减少了模型的计算量和参数量,使其更适合在实际工业场景中应用。在NEU-DET上,LDE-YOLO达到了80.8 mAP和75.5 FPS,相比YOLOv8|提升了2.5 mAP,同时计算量(FLOPs)减少了60.2%,参数量减少了49.1%
YOLOE:Real-Time Seeing Anything
清华团队新模型YOLOE:一句话圈出图中万物,实时开放检测分割零门槛!
YOLOE通过创新的RepRTA、SAVPE和LRPC策略,在保持高推理效率和低训练成本的同时,显著提升了模型在多种开放提示机制下的目标检测和分割性能。它不仅在标准数据集上取得了优异的零样本性能,还在跨数据集迁移时展现出强大的适应性,为实时开放提示驱动的视觉任务提供了一个高效且统一的解决方案,有望推动相关领域的进步发展。与GenerateU相比,在无提示场景下,YOLOE-v8-L的AP提升了0.4,APr提升了3.5,且参数量减少6.3倍推理速度提升了53倍。
基于Transformer的目标检测改进
RF-DETR
在线演示 Demo: 点击这
RF-DETR是Robofow推出的新一代实时目标检测模型,属于DETR(Detection Transformer)家族。它首次在COCO数据集上实现了60+的平均精度均值(mAP),同时保持25帧/秒以上的实时性能,打破了传统CNN模型在精度与速度上的权衡困局。
性能: 在COCO数据集达到60+mAP,推理速度25FPS
技术: 融合DINOV2主干与单尺度特征提取,平衡精度与速度
**应用:**支持多分辨率训练和ONNX导出,适配边缘计算设备
该模型创新性地结合了轻量级Transformer架构与预训练的DINOv2视觉主干网络,通过单尺度特征提取和多分辨率训练策略,在工业检测、自动驾驶等高要求场景中展现出显著优势。开发者可直接使用其预训练检查点,快速适配自定义数据集。
A Simple yet Effective Network based on Vision Transformer for Camouflaged Obiectand Salient Object Detection
本文提出了一种基于Vision Transformer(ViT)的简单而有效的网络(SENet),用于伪装目标检测(COD)和显著目标检测(SOD)任务。SENet采用非对称的ViT编码器-解码器结构,通过引入局部信息捕获模块(LICM)和动态加权损失函数(DWLoss),在两个任务上均取得了优异的性能
RT-DETRv3: Real-time End-to-End Obiect Detection with Hierarchical Dense PositiveSupervision
WACV 2025( oral )
RT-DETRV3 是一种基于 Transformer 的实时端到端目标检测算法,通过引入层次化的密集正样本监督方法,包括CNN 辅助分支、自注意力扰动策略和共享权重解码器分支,显著提升了模型的训练效率和检测性能司时保持了实时推理速度。
Low-Rank Adaption on Transformer-basecOnboard Processing of Remote Sensing Images
Oriented Object Detector for Satellite
https://arxiv.org/pdf/2406.02385
https://github.com/fudanxu/LoRA-Det
论文提出了一种名为 LoRA-Det 的方法,通过在 Transformer 基础的目标检测模型中引入低秩适应(LORA)模块,实现了参数高效的微调。该方法通过训练低秩矩阵参数,并将其与原始模型的权重矩阵通过乘法和加法整合,从而在仅更新少量权重的情况下,使模型适应新的数据分布。LoRA-Det 结合了参数高效微调和全微调的策略,能够在保持实时推理速度的同时,显著提升模型性能。LoRA-Det 仅通过更新少量参数(约 12.4%)就能达到接近全微调模型的性能(97% 至 100%),显著提升了模型的泛化能力和鲁棒性。这种方法不仅减少了模型训练的计算资源需求,还加快了模型训练迭代速度,为卫星载荷上的实时目标检测提供了一种高效解决方案。
TransRAD: Retentive Vision Transformer for Enhanced Radar Object Detection
TransRAD 通过利用 Retentive Vision Transformer(RMT)和显式的空间先验信息,显著提升了雷达目标检测的性能。该模型不仅在 3D 雷达目标检测任务中取得了最高的准确率,还在 2D 雷达目标检测任务中表现出色,同时保持了快速的推理速度和较低的计算复杂度。此外,TransRAD 通过引入位置感知的非极大值抑制(LA-NMS)方法,有效解决了雷达目标检测中不同类别边界框重叠的问题,进一步提高了检测的准确性和鲁棒性。
Dynamic 0bject Queries for Transformer-based Incremental Obiect Detection
ICASSP 2025
DyQ-DETR 通过动态扩展目标査询和解耦的自注意力机制,显著提升了增量目标检测的性能,有效解决了灾难性遗忘问题。在 COC0 2017 数据集的多个设置下,DyO-DETR 均显著优于现有方法,特别是在非示例(non-exemplar)场景下,其优势更为明显。此外,通过风险平衡的部分校准,DyQ-DETR 进一步优化了示例选择和模型校准过程,提高了模型的稳定性和适应性。
DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-LevelAdaptation and Prototypical Alignment
https://arxiv.org/pdf/2405.11765
https://github.com/h751410234/DATR
DATR 通过引入类原型对齐模块(CPA)和数据集级对齐方案(DAS)显著提升了目标检测模型在不同域之间的适应性和泛化能力。在多个跨域目标检测场景中,DATR 均表现出色,特别是在天气适应、合成到真实场景适应和场景适应任务中,分别达到了52.8%、66.3%和 41.9%的 mAP,显著优于现有方法。此外,DATR结合自训练框架进一步减轻了域偏移问题,通过伪标签的监督学习进一步优化了检测性能。
Scene Adaptive Sparse Transformer for Event-based Obiect Detection
论文提出了一种新型的基于事件相机的目标检测架构--Scene Adaptive Sparse Transformer(SAST)。SAST通过窗口·令牌共稀疏化显著降低了计算开销,并利用创新的评分模块、选择模块和掩码稀疏窗口自注意力机制,实现了对场景复杂度的自适应稀疏性优化,平衡了性能与计算成本。实验结果表明,SAST在1Mpx和Gen1数据集上均实现了最高的mAP,同时保持了显著的计算效率。SAST-CB(使用上下文广播操作的SAST变体在1Mpx数据集上进一步将mAP提升到 48.7%,仅使用了AEC(一种基于卷积网络的方法)11%的FLOPS。
A DeNoising FPN with Transformer R-CNN for Tiny Obiect Detection
ECCV24
DNTR通过减少FPN中的噪声和利用Transformer的自注意力机制,显著提升了小目标检测的性能。这项研究为小目标检测领域提供了新的解决方案,并在多个基准数据集上取得了优异的性能。
PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
论文链接
代码链接
论文提出了一种名为 Point-Trajectory Transformer(PTT)的新框架,用于高效的时序三维(3D)目标检测。PTT 通过仅使用当前帧的点云和历史轨迹作为输入,最小化了内存占用,并引入了长短期记忆模块和未来感知模块来增强特征表示。该框架通过点-轨迹聚合器有效地整合了点云特征和轨迹特征从而提高了检测性能。
Hierarchical Graph Interaction Transformer with Dynamic Token Clustering forcamouflaged Object Detection
HGINet 通过创新的区域感知令牌聚焦注意力(RTFA)、层次化图交互Transformer(HGIT)和置信度聚合特征融合(CAFF)模块,显著提升了伪装目标检测的性能。在多个基准数据集上,HGINet 的性能优于现有的最先进方法,证明了其在伪装目标检测任务中的有效性和优越性。
Generative Transformer for Accurate and Reliable Salient Object Detection
论文提出了一种名为 Generative Transformer 的新框架,用于显著目标检测(Salient Obiect Detection,SOD)。该框架利用Transformer的全局上下文建模能力来提高检测的准确性,并通过引入Inferential Generative Adversarial Network(iGAN)来估计预测的不确定性,从而提升模型的可靠性。此外,针对RGB-D显著目标检测中的深度数据分布不一致问题,论文还提出了一个辅助深度模块,通过自监督学习来建模深度数据的分布。
EGSST: Event-based Graph Spatiotemporal Sensitive Transformer for Object Detection
本文提出了一种名为EGSST(Event-based Graph Spatiotemporal Sensitive Transformer)的新型框架,专门用于处理事件相机数据以进行目标检测。该框架通过图结构建模事件数据,保留了原始的时间信息并捕捉空间细节,并引入了时空敏感模块(SSM)和自适应时间激活控制器(TAC),以模仿人类视觉系统对动态变化的注意力分配,从而高效利用计算资源。此外,结合轻量级多尺度线性视觉Transformer(LViT),显著提升了处理效率。与现有的先进模型(如AEC、RVT-B等)相比,EGSST-B在Gen1数据集上的处理时间减少了约50%,而EGSST-E在1Mpx数据集上的处理时间减少了约20%。
Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images
本文提出了一种名为 Cross-Layer Feature Pyramid Transformer(CFPT)的新型特征金字塔网络,专门用于航拍图像中小目标的检测。CFPT 通过两个精心设计的注意力模块--Cross-Layer channel-WiseAttention(CCA)和 Cross-Layer Spatial-Wise Attention(CSA)--实现跨层特征的交互,并引入了 CrossLayer Consistent Relative Positional Encoding(CCPE)来增强位置感知能力。该网络避免了复杂的上采样操作,显著提高了计算效率。
TransGop: Transformer-Based Gaze Object Prediction
代码链接
本文提出了一种基于Transformer的凝视目标预测(Gaze Object Prediction,GOP)方法,名为TransGOP。该方法通过引入Transformer架构,利用其长距离建模能力来建立人头与凝视目标之间的关系,从而提高预测准确性。TransGOP 的 mSoC 指标达到了 92.8%,相比之前的最佳方法 GaTector 提升了24.9%
Dpft: Dual perspective fusion transformer for camera-radar-based object detection
一种名为 Dual Perspective Fusion Transformer(DPFT)的方法,它用于基于摄像头和雷达数据融合的自动驾驶车辆的目标检测。
DPFT方法在K-Radar数据集上实现了56.1%的3D目标检测平均精度(mAP),在恶劣天气条件下表现出色,并在保持低成本的同时与摄像头-激光雷达融合方法性能相当。
GM-DETR: Generalized Muiltispectral DEtection TRansformer with Efficient FusionEncoder for Visible-Infrared Detection
论文链接
论文介绍了一种名为 GM-DETR(Generalized Multispectral DEtection TRansformer)的目标检测方法,它使用了Transformer 架构来实现多光谱(可见光-红外)数据的融合和目标检测。GM-DETR在FLIR和LLVIP数据集上实现了83.9%的mAP50精度,并且在处理模态丢失的情况时,与单模态基线相比,性能仅下降了1.8%(IR模态)和5.4%(RGB模态),显示出良好的鲁棒性和泛化能力。
Uni3DETR: Unified 3D Detection Transformer
论文介绍了一个名为Uni3DETR的统一3D检测框架,它使用基于Transformer的网络结构来同时处理室内和室外的3D目标检测任务。
Uni3DETR在室内SUN RGB-D数据集上达到了67.0%的AP25和50.3%的AP50,室外KITTI数据集上在中等难度的汽车类别上达到了86,7%的AP,并日在nuScenes数据集上取得了61.7%的mAP和68.5%的NDS,展现了在不同环境下优秀的泛化和检测能力。
Transformer-based assignment decision network for multiple object tracking
论文介绍了一种基于Transformer架构的方法,用于多目标跟踪(MOT)。在MOT17数据集上,TADN方法在公共检测赛道上达到了54.6%的MOTA(多目标跟踪准确率),在UA-DETRAC数据集上达到了23.7%的MOTA,展现出了优越的跟踪性能,尤其是在处理数据关联方面,相比其他方法在推理时无需显式的优化步骤。
Small object detection algorithm incorporating swin transformer for tea buds
文章介绍了一种名为STF-YOLO(Small Target Detection with Swin Transformer and Focused YOLO)的目标检测算法,它结合了Swin Transformer模块和YOLOv8网络来提高对小目标的检测能力。STF-YOLO模型在茶芽数据集上达到了91.5%的准确率和89.4%的mAP,显著优于其他检测器,证明了其在小目标检测中的卓越性能。
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
DETR(首次提出)
End-to-end object detection with transformers
ECCV'20
将 Transformer 结构引入目标检测流程
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
ICLR21
通过稀疏化的采样来选取参考点来加速
Efficient DETR: Improving End-to-End Object Detector with Dense Prior
减少了 Transformer 块数,加速网络收敛
PnP-DETR: Towards Efficient Visual Analysis with TransformersICCV21
SPARSE DETR: EFFICIENT END-TO-END OBJECT DETECTION WITH LEARNABLE SPARSITY
ICLR22
有选择地更新编码器中的 token
Unsupervised Pre-training for Detection Transformers
TPAMI 2022 & CVPR2021 Oral
为 DETR 引入无监督预训练方法
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
为ViT引入特征金字塔结构
Grounded Language-Image Pre-training
CVPR'22
https://arxiv.org/pdf/2112.03857
https://github.com/microsoft/GLIP
使用文本-图像多模态预训练模型的算法
DAB-DETR: DYNAMIC ANCHOR BOXES ARE BETTER QUERIES FOR DETR
ICLR22
引入更好的空间先验知识
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
CVPR22
DETRs with Collaborative Hybrid Assignments Training
ICCV 2023
Global Context Vision Transformers
ICML23
Towards Efficient Use of Multi-Scale Features in Transformer-Based Object DetectorsCVPR23
基于多层感知机的目标检测改进
MLP-DINO: Category Modeling and Query Graphing with Deep MLPfor Object Detection
JCAI24
ConvMLP: Hierarchical Convolutional MLPs for Vision
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
Improved MLP Point Cloud Processing with High-Dimensional Positional Encoding
Spatial-wise Dynamic Distillation for MLP-like Efficient Visual Fault Detection of Freight Trains
MLP-Mixer: An all-MLP Architecture for Vision
NeurIPS'21
AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISIONICLR22
CYCLEMLP: A MLP-LIKE ARCHITECTURE FOR DENSE PREDICTION
ICLR'22 Oral
Hire-MLP: Vision MLP via Hierarchical Rearrangement
ICLR'22 Oral
Hire-MLP: Vision MLP via Hierarchical Rearrangement
CVPR'22
AnImage Patch is a vWave: Phase-Aware Vision MLP
CVPR'22
RaMLP: Vision MLP via Region-aware Mixing
IJCAI23
https://github.com/xiaolaisqlai/RaMLP/blob/main/README.mdhttps://www.ijcai.org/proceedings/2023/111
基于扩散模型的目标检测改进
DiffusionDet: Diffusion Model for Object Detection
ICCV 2023
Diff3DETR: Agent- based Diffusion Model for Semi-supervised 3D Object Detection
ECCV24
MonoDif : Monocular 3D Object Detection and Pose Estimation with Diffusion Models
CVPR2024
D4: Text-guided diffusion model-based domain adaptive data augmentation for vineyard shootdetection
DiffuYOLO: A novel method for small vehicle detection in remote sensing based on difusion models
Data Augmentation for Object Detection via Controllable Diffusion Models
CamoDiffusion: Camouflaged ObjectDetection via Conditional Diffusion Models
A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection
3DiffTection: 3D Obiect Detection with Geometry-Aware Diffusion Features
DiffusionTrack: Diffusion Model for Multi-Object Tracking
DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
DiffusionTrack: Point Set Diffusion Model for Visual Object Tracking
SDDGR:Stable Diffusion-based Deep Generative Replay for Class Incremental Object
Detection
DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception
ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the ConsistencyModel
V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection
CVPR25
6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation
CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions
DiffusionDet: Diffusion Model for Object Detection
Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection
DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection
Diffusion Model for Camouflaged Object Detection
Stable Diffusion For Aerial Obiect Detection
Diffusion-based 3D Object Detection with Random Boxes
DiffRef 3D: A Diffusion-based Proposal Refinement Framework for 3D Object Detection
3D ifFusion Det: Diffusion Model for 3D Object Detection with Robust LiDAR-Camera Fusion
SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Obiect Detection
GEODIFFUSION: TEXT-PROMPTED GEOMETRIC CON TROL FOR OBJECT DETECTION DATAGENERATION
ICLR24
Deep Feature Deblurring Diffusion for Detecting Out-of-Distribution Objects
基于Mamba的目标检测
Mamba YOLO: SSMs-Based YOLO For Object Detection
介绍了一种基于状态空间模型(State Space Models,SSMs)的YOLO目标检测模型,称为Mamba YOLO。这个模型结合了SSMs和YOLO的优势,旨在提高目标检测的性能和实时性。
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
结合了Mamba和YOLO-World的目标检测模型,用于开放词汇表检测(Open-Vocabulary Detection,OVD)。这种检测旨在识别超出预定义类别集的对象。论文提出了一个新的基于YOLO的OVD模型称为Mamba-YOLO-World,它采用了提出的MambaFusion Path Aggregation Network(MambaFusion-PAN)作为其架构的"颈部"。
Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection
结合了Mamba(一种状态空间模型,SSM)与三维点云目标检测的方法。具体来说,这篇论文提出了一个名为Voxel Mam深度之眼整理ba的3D对象检测框架,它利用了Mamba模型的线性复杂度优势,采用了无需分组(group-free)的策略来序列化(serialize)整个体素空间到一个单一序列,以此来保持体素的空间邻近性。
CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions
Plainmamba: Improving non-hierarchical mamba in visual recognition
YOLOv5 mamba: unmanned aerial vehicle object detection based on bidirectional densefeedback network and adaptive gate feature fusion
Fusion-mamba for cross-modality obiect detection
论文介绍了一种名为 Fusion-Mamba 的方法,它用于跨模态(cross-modality)目标检测。这种方法通过结合不同模态(如红外和可见光图像)的互补信息来提高目标检测的性能。Fusion-Mamba 方法的核心在于设计了一个名为 Fusion-Mamba BlocK(FMB)的模块,该模块能够在隐状态空间中关联跨模态特征,以此减少不同模态特征之间的差异,并增强融合特征的表示一致性。
MonOMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Obiect Detection
一种用于实时单目3D目标检测的多尺度Mamba增强网络(MonOMM)。这项研究的核心在于通过结合深度信息和图像中的视觉特征来提升空间感知能力,这对于自动驾驶和增强现实等应用领域至关重复
DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing
一种用于遥感领域中定向目标检测的多光谱Mamba框架(DMM)。这个框架包括一个基于Mamba的跨模态特征融合模块(DCFM),一个多尺度目标感知注意力模块(MTA),以及一个目标先验感知辅助任务(TPA)。
MambaTrack: a simple baseline for multiple object tracking with State Space Model
大模型时代的目标检测
SAM+目标检测
Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes
Crowd-SAM框架通过结合Efficient Prompt Sampler和Part-Whole Discrimination Network,在拥挤场景中的目标检测任务上取得了显著的性能提升。它不仅在CrowdHuman数据集上达到了与全监督方法相媲美的78.4% AP,而在few-shot学习设置中显著超越了现有的few-shot对象检测器,比De-FRCN高出32%的AP,展现了SAM在目标检测领域的潜力和数据效率。
SAM-Adapter: Adapting Segment Anything in Underperformed Scenes
这篇文章研究了如何将Segment Anything Model(SAM)应用于目标检测,特别是在一些表现不佳的场景中,如隐蔽对象检测和阴影检测。文章提出了一种名为SAM-Adapter的方法,通过引入领域特定的信息或视觉提示来增强SAM在这些特定任务中的性能,而不是对SAM进行微调.
Endow SAM with Keen Eyes: Temporal-spatial Prompt Learning for Video Camouflaged Obiect Detection
研究了如何将Segment Anything Model(SAM)应用于视频隐蔽目标检测 (Video Camouflaged Object Detection,VCOD)任务。文章提出了一种名为TSP-SAM(Temporal-spatial Prompt SAM)的新方法,旨在通过时间空间提示学习来提高SAM在视频隐蔽目标检测中的性能。
SAM-PM:Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention
如何改进使用Segment Anything Model(SAM)进行目标检测,特别是在视频中的伪装物体检测(VCOD)任务。文章提出了一种新的方法,称为SAM传播模块(SAM-PM),旨在通过引入时空交叉注意机制来增强SAM在视频伪装物体检测中的表现。研究表明,SAM在处理伪装物体时面临一些挑战,而SAM-PM通过保持SAM网络权重不变并专注于训练传播模块,成功地提高了检测性能。在MOCA-Mask数据集上,与之前的最佳模型SLT-Net相比,SAM-PM在Fw B指标上分别取得了82.31%提升!
RoboFusion: Towards Robust Multi-Modal 3D Obiect Detection via SAM
论文展示了RoboFusion框架在多模态3D目标检测中的有效性,特别是在应对噪声和复杂环境时的鲁棒性。通过结合SAM及其变体,RoboFusion在KITTI和nuScenes数据集上实现了显著的性能提升,尤其是在恶劣天气条件下,展示了其在自动驾驶应用中的潜力和适应性。这一研究为未来的视觉基础模型在3D目标检测领域的应用提供了新的思路和方向。
SAM3D:Zero-Shot 3D Object Detection via Segment Anything Model
https://arxiv.org/pdf/2306.02245
https://github.com/DYZhang09/SAM3D
SAM3D是一种利用Segment Anything Model(SAM)进行3D目标检测的方法。它通过将LiDAR点云转换为鸟瞰图(BEV)的2D图像表示,然后利用SAM在BEV图像上进行分割,最终基于分割结果预测3D边界框
Training-Free Open-Ended Object Detection and Segmentation via Attention as PromptsNeurips24
https://arxiv.org/abs/2410.05963
这篇论文研究的是如何将SAM(Segment-Anything Model)用于开放性目标检测和分割任务。论文提出了一个名为VL-SAM的框架,它结合了视觉-语言模型(VLM)和SAM,以实现无需额外训练的开放性目标检测和分割。VL-SAM利用VLM生成的注意力图作为提示,引导SAM进行目标分割。这种方法可以在没有预先定义的目标类别输入的情况下,发现并分割训练集中未见过的目标对象
IRSAM: Advancing Segment Anything Model for Infrared Small Target DetectionECCV24
https://arxiv.org/abs/2407.07520
https://github.com/IPIC-Lab/IRSAM
IRSAM模型通过创新的PMD模块和GAD,在红外小目标检测任务中取得了显著的性能提升。它不仅在客观指标上超越了现有的最先进方法,而且在主观评价上也显示出更好的目标分割效果。IRSAM的成功展示了通过特定设计的模块来改进通用视觉分割模型,以适应特定领域任务的潜力。
Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection
https://arxiv.org/pdf/2308.05426v1
https://github.com/CuiRuikai/SAM-SOD
论文提出了一种名为Segment Salient Object Model(SSOM)的新方法,通过自适应低秩适应(AdaLoRA)策略对SAM进行微调,以提高其在显著目标检测任务中的性能。尽管SAM在一般对象分割方面表现出色,但在显著目标检测方面的能力较弱,因此该研究旨在通过适应性微调来解决这一问题。研究结果表明,SSOM在多个基准数据集上的表现优于现有的最先进方法。
Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged ObjectDetection
https://arxiv.org/pdf/2407.12339
https://github.com/guobaoxiao/DSAM
论文提出了一种新的模型,称为具有深度感知的Segment Anything Model(DSAM),旨在通过结合RGB和深度信息来提高在伪装目标检测中的分割精度。该研究探讨了如何利用深度特征来补偿SAM在处理伪装目标时的不足,从而提升其在这一特定领域的表现。
其他
General Object Foundation Model for Images and Videos at ScaleCVPR24
https://arxiv.org/pdf/2312.09158
https://github.com/FoundationVision/GLEE
Griffon: Spelling out Al Object Locations at Any Granularity with Large Language Models
ECCV24
https://arxiv.org/pdf/2311.14552
https://github.com/jefferyZhan/Griffon
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
https://github.com/IDEA-Research/DINO-X-APIhttps://arxiv.org/pdf/2411.14347
Contextual Object Detection with Multimodal Large Language Models
https://arxiv.org/abs/2305.18279
https://mmlab-ntu.github.io/project/contextdet/index.html
Lenna: Language Enhanced Reasoning Detection Assistant