YOLO系列论文综述(从YOLOv1到YOLOv11)【第2篇:YOLO系列论文、代码和主要优缺点汇总】

目录

YOLOv1

  • 发表日期:2016年6月
  • 作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
  • 论文You Only Look Once: Unified, Real-Time Object Detection
  • 代码https://pjreddie.com/darknet/yolo/
  • 主要优缺点
    • YOLO的简单结构,加上其新颖的全图像单次回归,使其比现有的物体检测器快得多,允许实时性能。
    • 然而,虽然YOLO的表现比任何物体检测器都快,但与最先进的方法如快速R-CNN相比,定位误差更大。造成这种限制的主要原因有三个:
      • 在网格单元中最多只能检测到两个相同类别的物体,限制了预测附近物体的能力;
      • 在预测训练数据中未见的长宽比物体时很吃力;
      • 由于下采样层,只能从粗略的物体特征中学习。

YOLOv2 (YOLO9000)


YOLOv3

  • 发表日期:2018年4月
  • 作者:Joseph Redmon, Ali Farhadi
  • 论文YOLOv3: An Incremental Improvement
  • 代码https://pjreddie.com/darknet/yolo/
  • 主要优缺点
    • 使用Darknet-53作为主干网络,结合残差网络提高检测精度;
    • 引入多尺度预测来改善对小物体的检测;
    • 取消软分类器,使用独立的二元分类器提高模型性能。

YOLOv4


YOLOv5

  • 发布日期:2020年6月
  • 作者:Glenn Jocher
  • 论文:无
  • 代码https://github.com/ultralytics/yolov5
  • 主要优缺点
    • 使用Pytorch框架,便于开发者使用和扩展;
    • 自适应的anchor box学习机制提高检测效率;
    • 提供多种尺寸的预训练模型满足不同场景需求。

YOLOv6

  • 发表日期:2022年6月
  • 作者:Chuyi Li等人,美团技术团队
  • 论文YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
  • 代码https://github.com/meituan/YOLOv6
  • 主要优缺点
    • 使用基于RepVGG的新骨干网络(EfficientRep),比之前的YOLO骨干网络使用了更高的并行度;
    • 标签分配策略采用TOOD中提出的任务对齐学习方法进行标签分配;
    • 使用了变焦损失(VariFocal loss)作为分类损失,以及SIoU/GIoU作为回归损失;
    • 为回归和分类任务引入了自蒸馏策略;
    • 通过使用RepOptimizer和通道级蒸馏的检测量化方案来实现更快的检测器;
    • 这些新特性共同作用,旨在提高模型性能、加速推理过程,并在保持准确性的同时提升效率。

YOLOv7


YOLOv8

  • 发布日期:2023年1月
  • 作者:Ultralytics团队
  • 论文:无
  • 代码https://github.com/ultralytics/ultralytics
  • 主要优缺点
    • 提供可定制的模块化设计方便用户根据需求进行扩展;
    • 内置多种训练和超参数优化策略简化模型调优过程;
    • 集成检测、分割和跟踪功能。

YOLOv9


YOLOv10


YOLOv11

  • 发布日期:2024年9月
  • 作者:Ultralytics团队
  • 论文:无
  • 代码https://github.com/ultralytics/ultralytics
  • 主要优缺点
    • YOLOv11是在YOLOv8基础上进行了改进,同等精度下参数量降低20%,在速度和准确性方面具有无与伦比的性能;
    • 其流线型设计使其适用于各种应用,并可轻松适应从边缘设备到云 API 等不同硬件平台,使其成为各种物体检测与跟踪、实例分割、图像分类和姿态估计任务的绝佳选择。
相关推荐
掘金安东尼19 小时前
养龙虾之前?先搞懂 Skills!
人工智能
CoovallyAIHub19 小时前
OpenClaw 近 2000 个 Skills,为什么没有一个好用的视觉检测工具?
深度学习·算法·计算机视觉
CoovallyAIHub19 小时前
CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注
深度学习·算法·计算机视觉
CoovallyAIHub20 小时前
Claude Code 突然变成了 66 个专家?这个 5.8k Star 的开源项目,让我重新理解了什么叫"会用 AI"
深度学习·算法·计算机视觉
chaors20 小时前
从零学RAG0x03第一个实战应用:医疗知识混合检索实战
人工智能·aigc·ai编程
阿聪谈架构20 小时前
第02章:Prompt 工程 —— 用语言精准指挥 AI
人工智能
suke21 小时前
AI 界的 npm 惨案重演?聊聊 龙虾OpenClaw skills那些带毒的“骚操作
人工智能·程序员·aigc
明明如月学长21 小时前
OpneClaw 总挂?配个"保镖"自动修,7x24小时不用管
人工智能
万少21 小时前
用 OpenClaw 实现小红书自动发帖
人工智能
阿聪谈架构1 天前
第01章:从零开始调用 LLM —— 入门 Qwen 大模型 API
人工智能