YOLOv13震撼发布:超图增强引领目标检测新纪元

YOLOV13最近发布了,速速来看。

论文标题:YOLOv13:融合超图增强的自适应视觉感知的实时目标检测

论文链接:https://arxiv.org/pdf/2506.17733

代码链接:https://github.com/iMoonLab/yolov13

话不多说,直接上摘要!

中文摘要

YOLO 系列模型因其卓越的精度与计算效率,一直在实时目标检测领域占据主导地位。然而,YOLOv11 及更早版本所采用的卷积架构,以及 YOLOv12 引入的基于区域的自注意力机制,都仅限于局部信息聚合与两两相关性建模,难以捕捉全局的多对多高阶关联,这在复杂场景下限制了检测性能。

为了解决上述问题,我们提出了一种全新且轻量的目标检测器 ------ YOLOv13 。我们引入了一种基于超图的自适应相关性增强机制(HyperACE),该机制能够自适应地挖掘潜在的高阶关系,突破了传统方法仅能进行两两建模的限制。借助超图计算,HyperACE 实现了高效的跨位置、跨尺度的全局特征融合与增强。

在此基础上,我们进一步提出了一个基于 HyperACE 的全流程聚合与分发范式(FullPAD),通过将增强后的相关性特征分发至整个网络流程,实现了细粒度信息流动与特征协同建模。

此外,我们采用深度可分离卷积替代传统的大卷积核操作,并设计了一系列模块,在大幅减少参数量和计算复杂度的同时,保持甚至提升了性能。

我们在广泛使用的 MS COCO 基准数据集上进行了大量实验证明,YOLOv13 在保持轻量的前提下,取得了当前最先进的性能 。具体而言,YOLOv13-N 相较于 YOLOv11-N 提高了 3.0% 的 mAP,较YOLOv12-N提高了1.5% 。YOLOv13 的代码与模型已开源,欢迎访问:https://github.com/iMoonLab/yolov13

贡献点

  • 我们提出了 YOLOv13,一款性能卓越的端到端实时目标检测器。YOLOv13 通过自适应超图挖掘潜在的高阶相关性,在高阶关系的引导下实现高效的信息聚合与分发,从而达到精准且鲁棒的目标检测。

  • 我们提出了 HyperACE 机制 ,基于自适应超图计算捕捉复杂场景中的潜在高阶相关性,并在相关性引导下完成特征增强。我们提出了 FullPAD 范式 ,在整个网络流程中实现多尺度特征的聚合与分发,提升信息流动性与表示协同能力。我们设计了一系列基于 深度可分离卷积 的轻量化模块,用以替代传统的大卷积核结构,在大幅减少参数量与计算开销的同时保持出色性能。

  • 我们在 MS COCO 基准数据集上进行了大量实验,结果表明 YOLOv13 在保持轻量化的同时,达到了当前最先进的检测性能。

模型架构

YOLOv13 模型的网络架构。该模型以主干网络提取的多尺度特征为输入, HyperACE 模块 自适应地挖掘高阶相关性,实现特征的增强与融合。随后, FullPAD 通道 将增强后的相关性特征分发至整个网络,实现对复杂场景中目标的精准检测。 HyperACE 的详细结构如右图所示
自适应超图构建与卷积的细节

DS 系列模块的详细架构

实验结果

这里仅展示部分论文实验数据,在MS COCO 数据集上与其他先进实时目标检测器的定量对比。

与其他实时目标检测器的泛化能力对比。所有模型均在 MS COCO 数据集上训练,并在 PASCAL VOC 2007 数据集上进行测试。

总结

YOLOv13作为最新发布的实时目标检测模型,通过引入基于超图的自适应相关性增强机制,显著提升了模型对复杂场景中多尺度、多层次特征的融合能力。同时,采用轻量化的深度可分离卷积模块,有效降低了参数量和计算复杂度,使得模型在保持高精度的同时更加高效。大量基于MSCOCO数据集的实验验证表明,YOLOv13在保持轻量化的前提下,实现了当前领先的检测性能,展现出极强的实用价值和推广潜力。

相关推荐
牛客企业服务39 分钟前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
视觉语言导航1 小时前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
**梯度已爆炸**1 小时前
自然语言处理入门
人工智能·自然语言处理
ctrlworks2 小时前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊2 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道2 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~3 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子3 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理
我爱一条柴ya3 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作