【AIGC】计算机视觉-YOLO系列家族

YOLO系列家族

(1)YOLO发展史

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(Joseph Redmon)和阿里-法哈迪(Ali Farhadi)开发。YOLO 于 2015 年推出,因其高速度和高精确度而迅速受到欢迎。

  • 2016 年发布的YOLOv2 通过纳入批量归一化、锚框和维度集群改进了原始模型。

  • 2018 年推出的YOLOv3 使用更高效的骨干网络、多锚和空间金字塔池化(SPP)进一步增强了模型的性能。

  • 2020 年YOLOv4发布,引入了 Mosaic 数据增强、新的无锚检测头和新的损失函数等创新技术。

  • 2020 年YOLOv5进一步提高了模型的性能,并增加了超参数优化、集成实验跟踪和自动导出为常用导出格式等新功能。

  • 2021 年YOLOX由旷视科技开源,解耦头

  • 2022 年YOLOv6美团开源,目前已用于该公司的许多自主配送机器人。

  • 2022 年YOLOv7开源,增加了额外的任务,如 COCO 关键点数据集的姿势估计。

  • 2023 年YOLOv8是YOLO 的最新版本,由Ultralytics 提供。YOLOv8 YOLOv8 支持全方位的视觉 AI 任务,包括检测分割姿态估计跟踪分类。这种多功能性使用户能够在各种应用和领域中利用YOLOv8 的功能。

  • 2024 年YOLOv9引入了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)等创新方法。

  • 2024年YOLOv10引入了一种双重分配策略,消除了NMS的需求,从而实现了更快、更高效的目标检测。

  • 2024年YOLO11 新功能: 最新的 模型可在Ultralytics YOLO 检测分割姿势估计跟踪分类等多项任务中提供最先进的 (SOTA) 性能,充分利用各种人工智能应用和领域的能力。
  • 2025.02.18 YOLOv12发布,首次摆脱了传统卷积神经网络的约束,将注意力机制直接融入目标检测框架,创新性的使用区域注意力、R-ELAN 和 FlashAttention,在提高检测精度(mAP)的同时保持实时推理性能。

YOLO家族进化史(v1-v8)

(2) YOLOX

目标检测网络YoloX介绍及实现

YOLOX简述

论文地址: https://arxiv.org/abs/2107.08430

代码仓库: https://github.com/Megvii-BaseDetection/YOLOX

(3) YOLOv6

论文地址:

代码仓库: https://github.com/meituan/YOLOv6

(4) YOLOv7

论文地址: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

代码仓库: https://github.com/WongKinYiu/yolov7

(5) YOLOv8

论文地址: /

代码仓库: https://github.com/ultralytics/ultralytics

(6) YOLOv9

江大白 | 目标检测YOLOv9算法,重磅开源!

论文地址: https://arxiv.org/abs/2402.13616

代码仓库: https://github.com/WongKinYiu/yolov9

(7)YOLOv10

目标检测 | yolov10 原理和介绍

论文地址: https://arxiv.org/pdf/2405.14458
代码仓库: https://github.com/THU-MIG/yolov10

(8)YOLOv11

YOLOv11来了,使用YOLOv11训练自己的数据集和推理

代码仓库: https://github.com/ultralytics/ultralytics

(9)YOLOv12

YOLOv12问世!

YOLOv12论文详解:以注意力机制为核心的实时目标检测算法(附论文和源码)

论文地址https://arxiv.org/abs/2502.12524

代码仓库https://github.com/sunsmarterjie/yolov12

相关推荐
俄城杜小帅3 小时前
opencv+ONNX模型的推理
人工智能·opencv·计算机视觉
花千树-0104 小时前
J-LangChain - Agent - 编排一个 ReAct + Function Call 反应链
java·gpt·langchain·prompt·github·aigc·ai编程
程序员X小鹿4 小时前
免费可用!最强AI数字人对口型神器:让照片开口说话唱歌,支持多人对口型+全身动作,1分钟学会!(附保姆级教程)
aigc
2401_824256866 小时前
图像识别技术与应用-YOLO
yolo
moonless02226 小时前
【🟡Langchian】Agent的策略是什么
llm·aigc
moonless02226 小时前
【🟡Langchian】Prompt与chian的设计
人工智能·aigc
moonless02226 小时前
【🔴Langchian】——爆肝半个月的Langchian框架开发全景手册
人工智能·llm·aigc
Bigger7 小时前
Tauri(十三)—— 给 Coco AI 加上外接大脑 RAG 🧠
aigc·openai·deepseek
阿正的梦工坊8 小时前
Vision Transformer (ViT):将Transformer带入计算机视觉的革命性尝试(代码实现)
深度学习·计算机视觉·transformer