目标检测135个前沿算法模型汇总(附源码)!

目标检测是计算机视觉核心方向之一,也是发论文的热门领域!

近来不仅YOLO算法迎来了新突破,迭代出YOLOv12!Mamba、大模型等新技术的发展,也给该领域注入了全新的力量,取得了诸多显著成果。比如性能飙升82.31%的SAM-PM;推理速度狂提270%的Fusion-Mamba......

为方便大家厘清领域发展脉络,找到更多idea启发,早点发出自己的顶会,我给大家梳理了135个前沿算法模型,并配有相应的论文和代码。这些模型共涵盖:YOLO改进、Transformer+目标检测、MLP+目标检测、扩散模型+目标检测、Mamba+目标检测、大模型+目标检测等6大类!

[目标检测算法教程,戳蓝字即可学习]

这才是科研人该学的!一口气学完目标检测六大算法-R-CNN、Fast R-CNN、YOLO、SSD等,原理到实战,太通俗易懂了!机器学习|深度学习|计算机视觉

【全198集】这才是科研人该学的计算机视觉教程!一口气学完Python、OpenCV、深度学习、PyTorch框架、卷积神经网络、目标检测、图像分割,通俗易懂!

1.YOLO改进
论文:YOLO12
内容

该论文介绍了一种新型的实时目标检测框架YOLOv12,它首次将注意力机制深度集成到YOLO系列中,打破了传统CNN架构在YOLO框架中的主导地位。YOLOv12通过提出"区域注意力"模块和"残差高效层聚合网络"等创新设计,显著提高了检测精度,同时保持了与之前版本相当的推理速度。

论文:Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection
内容

改论文提出了一种名为MAF-YOLO的新型目标检测框架,旨在通过改进YOLO系列中常用的PAFPN结构来提升多尺度特征融合的效率和适应性,并行化大核卷积和多个小核卷积来扩大感知范围,同时保留小目标信息;引入了全局异构核选择机制,通过动态调整不同分辨率特征层中的卷积核大小来扩大网络的有效感受野。

2.基于Transformer的目标检测
论文:RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
内容

该论文提出了RT-DETRv3,一种基于Transformer的实时端到端目标检测算法。它通过引入层次化的密集正样本监督方法来解决传统RT-DETR中由于匈牙利匹配策略导致的稀疏监督问题。

3.基于多层感知机(MLP)的目标检测
论文:MLP-DINO: Category Modeling and Query Graphing with Deep MLPfor Object Detection
内容

该论文本文提出了一种新的目标检测模型MLP-DINO,旨在解决基于Transformer的目标检测器中存在的类别预测对边界框预测敏感以及查询分布不平衡的问题。MLP-DINO通过引入深度MLP模型来同时捕获长距离和短距离信息,并提出了查询无关类别监督方法来解耦类别预测和边界框预测过程。

4.基于扩散模型的目标检测
论文:MonoDiff : Monocular 3D Object Detection and Pose Estimation with Diffusion Models
内容

该论文提出了MonoDiff,这是一个用于单目3D目标检测和姿态估计的新型框架,它利用扩散模型从单张图像中估计3D边界框和方向。该方法通过采用高斯混合模型来初始化正向扩散过程中的噪声采样,解决了不同维度上边界框尺寸变化导致的不确定性问题,并利用2D检测信息通过3D/2D投影对应关系提供额外的监督信号。

5.基于Mamba的目标检测
论文:Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection
内容

该论文提出了一种名为 Mamba-YOLO-World 的新型开放词汇目标检测模型,旨在解决现有 YOLO-World 模型在特征融合机制上的局限性,通过并行引导选择性扫描和串行引导选择性扫描算法,实现了线性复杂度和全局引导感受野的多模态特征融合。

6.大模型时代的目标检测
论文:SAM-PM:Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention
内容

本文提出了一种名为 SAM-PM的新方法,用于提升视频伪装目标检测的性能。SAM-PM 通过引入时空交叉注意力机制的传播模块,解决了 Segment Anything Model(SAM)在处理伪装目标时的局限性。

论文:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
内容

本文介绍了 DINO-X,这是一个由 IDEA 研究团队开发的统一目标中心视觉模型,专门用于开放世界目标检测和理解任务。DINO-X 基于 Transformer 的编码器-解码器架构,通过支持文本提示、视觉提示和定制化提示,扩展了输入选项以简化长尾目标检测。

目标检测论文系列算法汇总: 目标检测135个前沿算法模型汇总,源码https://www.bilibili.com/opus/1053662589917069313?spm_id_from=333.1387.0.0

相关推荐
小乖兽技术5 分钟前
WinForms 应用中集成 OpenCvSharp 实现基础图像处理
图像处理·opencv·c#·opencvsharp
武子康27 分钟前
大语言模型 17 - MCP Model Context Protocol 介绍对比分析 基本环境配置
人工智能·gpt·ai·语言模型·自然语言处理
山顶望月川33 分钟前
ToDesk云电脑、并行智算云与顺网云AI支持能力深度实测报告
人工智能·电脑
lqjun08271 小时前
PyTorch 之 torch.distributions.Categorical 详解
人工智能·pytorch·python
weixin_448781621 小时前
第P10周:Pytorch实现车牌识别
人工智能·pytorch·python·深度学习·神经网络
vivo互联网技术1 小时前
vivo官网APP首页端智能业务实践
前端·深度学习·算法
J_Xiong01171 小时前
【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理
人工智能·机器学习·语言模型
Bright Data1 小时前
创建一个使用 GPT-4o 和 SERP 数据的 RAG 聊天机器人
人工智能·机器人
nenchoumi31191 小时前
Model 速通系列(一)nanoGPT
笔记·深度学习·学习·语言模型
武子康1 小时前
大语言模型 12 - 从0开始训练GPT 0.25B参数量 MiniMind2 补充 训练开销 训练步骤 知识蒸馏 LoRA等
人工智能·gpt·ai·语言模型·自然语言处理