目标检测135个前沿算法模型汇总(附源码)!

目标检测是计算机视觉核心方向之一,也是发论文的热门领域!

近来不仅YOLO算法迎来了新突破,迭代出YOLOv12!Mamba、大模型等新技术的发展,也给该领域注入了全新的力量,取得了诸多显著成果。比如性能飙升82.31%的SAM-PM;推理速度狂提270%的Fusion-Mamba......

为方便大家厘清领域发展脉络,找到更多idea启发,早点发出自己的顶会,我给大家梳理了135个前沿算法模型,并配有相应的论文和代码。这些模型共涵盖:YOLO改进、Transformer+目标检测、MLP+目标检测、扩散模型+目标检测、Mamba+目标检测、大模型+目标检测等6大类!

[目标检测算法教程,戳蓝字即可学习]

这才是科研人该学的!一口气学完目标检测六大算法-R-CNN、Fast R-CNN、YOLO、SSD等,原理到实战,太通俗易懂了!机器学习|深度学习|计算机视觉

【全198集】这才是科研人该学的计算机视觉教程!一口气学完Python、OpenCV、深度学习、PyTorch框架、卷积神经网络、目标检测、图像分割,通俗易懂!

1.YOLO改进
论文:YOLO12
内容

该论文介绍了一种新型的实时目标检测框架YOLOv12,它首次将注意力机制深度集成到YOLO系列中,打破了传统CNN架构在YOLO框架中的主导地位。YOLOv12通过提出"区域注意力"模块和"残差高效层聚合网络"等创新设计,显著提高了检测精度,同时保持了与之前版本相当的推理速度。

论文:Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
内容

改论文提出了一种名为MAF-YOLO的新型目标检测框架,旨在通过改进YOLO系列中常用的PAFPN结构来提升多尺度特征融合的效率和适应性,并行化大核卷积和多个小核卷积来扩大感知范围,同时保留小目标信息;引入了全局异构核选择机制,通过动态调整不同分辨率特征层中的卷积核大小来扩大网络的有效感受野。

2.基于Transformer的目标检测
论文:RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
内容

该论文提出了RT-DETRv3,一种基于Transformer的实时端到端目标检测算法。它通过引入层次化的密集正样本监督方法来解决传统RT-DETR中由于匈牙利匹配策略导致的稀疏监督问题。

3.基于多层感知机(MLP)的目标检测
论文:MLP-DINO: Category Modeling and Query Graphing with Deep MLPfor Object Detection
内容

该论文本文提出了一种新的目标检测模型MLP-DINO,旨在解决基于Transformer的目标检测器中存在的类别预测对边界框预测敏感以及查询分布不平衡的问题。MLP-DINO通过引入深度MLP模型来同时捕获长距离和短距离信息,并提出了查询无关类别监督方法来解耦类别预测和边界框预测过程。

4.基于扩散模型的目标检测
论文:MonoDiff : Monocular 3D Object Detection and Pose Estimation with Diffusion Models
内容

该论文提出了MonoDiff,这是一个用于单目3D目标检测和姿态估计的新型框架,它利用扩散模型从单张图像中估计3D边界框和方向。该方法通过采用高斯混合模型来初始化正向扩散过程中的噪声采样,解决了不同维度上边界框尺寸变化导致的不确定性问题,并利用2D检测信息通过3D/2D投影对应关系提供额外的监督信号。

5.基于Mamba的目标检测
论文:Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
内容

该论文提出了一种名为 Mamba-YOLO-World 的新型开放词汇目标检测模型,旨在解决现有 YOLO-World 模型在特征融合机制上的局限性,通过并行引导选择性扫描和串行引导选择性扫描算法,实现了线性复杂度和全局引导感受野的多模态特征融合。

6.大模型时代的目标检测
论文:SAM-PM:Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention
内容

本文提出了一种名为 SAM-PM的新方法,用于提升视频伪装目标检测的性能。SAM-PM 通过引入时空交叉注意力机制的传播模块,解决了 Segment Anything Model(SAM)在处理伪装目标时的局限性。

论文:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
内容

本文介绍了 DINO-X,这是一个由 IDEA 研究团队开发的统一目标中心视觉模型,专门用于开放世界目标检测和理解任务。DINO-X 基于 Transformer 的编码器-解码器架构,通过支持文本提示、视觉提示和定制化提示,扩展了输入选项以简化长尾目标检测。

目标检测论文系列算法汇总: 目标检测135个前沿算法模型汇总,源码https://www.bilibili.com/opus/1053662589917069313?spm_id_from=333.1387.0.0

相关推荐
Baihai_IDP3 分钟前
RAG 文档解析工具选型指南
人工智能·llm
CoovallyAIHub10 分钟前
YOLOv8-SMOT:基于切片辅助训练与自适应运动关联的无人机视角小目标实时追踪框架
深度学习·算法·计算机视觉
嘟嘟喂嘟嘟吖16 分钟前
AI对口型唱演:科技赋能,开启虚拟歌者新篇章
人工智能·科技
点云兔子20 分钟前
使用RealSense相机和YOLO进行实时目标检测
深度学习·yolo
十二测试录20 分钟前
AI 驱动研发变革:技术突破与行业落地实践全景
人工智能·ai·aigc
CoovallyAIHub21 分钟前
全景式综述|多模态目标跟踪全面解析:方法、数据、挑战与未来
深度学习·算法·计算机视觉
张较瘦_28 分钟前
[论文阅读] 人工智能 + 软件工程 | 当AI成为文学研究员:Agentic DraCor如何用MCP解锁戏剧数据分析
论文阅读·人工智能·软件工程
Melody205032 分钟前
diffusion model(1.4) 相关论文阅读清单
人工智能
平行绳40 分钟前
啊?我的 Coze 触发器怎么没生效?答案在这里
人工智能·coze
云布道师1 小时前
AI时代下阿里云基础设施的稳定性架构揭秘
人工智能·阿里云·架构