目标检测135个前沿算法模型汇总(附源码)!

目标检测是计算机视觉核心方向之一,也是发论文的热门领域!

近来不仅YOLO算法迎来了新突破,迭代出YOLOv12!Mamba、大模型等新技术的发展,也给该领域注入了全新的力量,取得了诸多显著成果。比如性能飙升82.31%的SAM-PM;推理速度狂提270%的Fusion-Mamba......

为方便大家厘清领域发展脉络,找到更多idea启发,早点发出自己的顶会,我给大家梳理了135个前沿算法模型,并配有相应的论文和代码。这些模型共涵盖:YOLO改进、Transformer+目标检测、MLP+目标检测、扩散模型+目标检测、Mamba+目标检测、大模型+目标检测等6大类!

[目标检测算法教程,戳蓝字即可学习]

这才是科研人该学的!一口气学完目标检测六大算法-R-CNN、Fast R-CNN、YOLO、SSD等,原理到实战,太通俗易懂了!机器学习|深度学习|计算机视觉

【全198集】这才是科研人该学的计算机视觉教程!一口气学完Python、OpenCV、深度学习、PyTorch框架、卷积神经网络、目标检测、图像分割,通俗易懂!

1.YOLO改进
论文:YOLO12
内容

该论文介绍了一种新型的实时目标检测框架YOLOv12,它首次将注意力机制深度集成到YOLO系列中,打破了传统CNN架构在YOLO框架中的主导地位。YOLOv12通过提出"区域注意力"模块和"残差高效层聚合网络"等创新设计,显著提高了检测精度,同时保持了与之前版本相当的推理速度。

论文:Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
内容

改论文提出了一种名为MAF-YOLO的新型目标检测框架,旨在通过改进YOLO系列中常用的PAFPN结构来提升多尺度特征融合的效率和适应性,并行化大核卷积和多个小核卷积来扩大感知范围,同时保留小目标信息;引入了全局异构核选择机制,通过动态调整不同分辨率特征层中的卷积核大小来扩大网络的有效感受野。

2.基于Transformer的目标检测
论文:RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
内容

该论文提出了RT-DETRv3,一种基于Transformer的实时端到端目标检测算法。它通过引入层次化的密集正样本监督方法来解决传统RT-DETR中由于匈牙利匹配策略导致的稀疏监督问题。

3.基于多层感知机(MLP)的目标检测
论文:MLP-DINO: Category Modeling and Query Graphing with Deep MLPfor Object Detection
内容

该论文本文提出了一种新的目标检测模型MLP-DINO,旨在解决基于Transformer的目标检测器中存在的类别预测对边界框预测敏感以及查询分布不平衡的问题。MLP-DINO通过引入深度MLP模型来同时捕获长距离和短距离信息,并提出了查询无关类别监督方法来解耦类别预测和边界框预测过程。

4.基于扩散模型的目标检测
论文:MonoDiff : Monocular 3D Object Detection and Pose Estimation with Diffusion Models
内容

该论文提出了MonoDiff,这是一个用于单目3D目标检测和姿态估计的新型框架,它利用扩散模型从单张图像中估计3D边界框和方向。该方法通过采用高斯混合模型来初始化正向扩散过程中的噪声采样,解决了不同维度上边界框尺寸变化导致的不确定性问题,并利用2D检测信息通过3D/2D投影对应关系提供额外的监督信号。

5.基于Mamba的目标检测
论文:Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
内容

该论文提出了一种名为 Mamba-YOLO-World 的新型开放词汇目标检测模型,旨在解决现有 YOLO-World 模型在特征融合机制上的局限性,通过并行引导选择性扫描和串行引导选择性扫描算法,实现了线性复杂度和全局引导感受野的多模态特征融合。

6.大模型时代的目标检测
论文:SAM-PM:Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention
内容

本文提出了一种名为 SAM-PM的新方法,用于提升视频伪装目标检测的性能。SAM-PM 通过引入时空交叉注意力机制的传播模块,解决了 Segment Anything Model(SAM)在处理伪装目标时的局限性。

论文:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
内容

本文介绍了 DINO-X,这是一个由 IDEA 研究团队开发的统一目标中心视觉模型,专门用于开放世界目标检测和理解任务。DINO-X 基于 Transformer 的编码器-解码器架构,通过支持文本提示、视觉提示和定制化提示,扩展了输入选项以简化长尾目标检测。

目标检测论文系列算法汇总: 目标检测135个前沿算法模型汇总,源码https://www.bilibili.com/opus/1053662589917069313?spm_id_from=333.1387.0.0

相关推荐
Tiandaren7 小时前
自用提示词01 || Prompt Engineering || 学习路线大纲 || 作用:通过启发式的问题来带动学习
人工智能·pytorch·深度学习·nlp·prompt·1024程序员节
IT_陈寒7 小时前
React 19重磅前瞻:10个性能优化技巧让你少写30%的useEffect代码
前端·人工智能·后端
国科安芯7 小时前
AS32S601ZIT2抗辐照MCU在商业卫星飞轮系统中的可靠性分析
服务器·网络·人工智能·单片机·嵌入式硬件·fpga开发·1024程序员节
应用市场7 小时前
STM32卡尔曼滤波算法详解与实战应用
人工智能·stm32·算法
大象耶7 小时前
自然语言处理前沿创新方向与技术路径
论文阅读·人工智能·深度学习·计算机网络·机器学习
AI人工智能+7 小时前
从海量文档到精准数据:文档抽取技术驱动金融财税决策新范式
人工智能·nlp·ocr·文档抽取
脑极体7 小时前
金融智能体,站在商业模式的旷野
人工智能·金融
一个处女座的程序猿7 小时前
NLP之Embedding:Youtu-Embedding的简介、安装和使用方法、案例应用之详细攻略
人工智能·自然语言处理·embedding
青梅主码-杰哥8 小时前
GFF(全球金融科技节)2025 BCG报告深度解读:印度,正站在全球 AI 枢纽的风口
人工智能·金融
大模型真好玩8 小时前
OCR技术简史: 从深度学习到大模型,最强OCR大模型花落谁家
人工智能·python·deepseek