YOLO v8(学习笔记)

1.实验结果
  • 第一张图横轴参数量,第二张图横轴是一张图片推理的时间,这两个值都是越小越好
2.网络结构
(1)整体结构
  • 简化版
  • 细节版(这个没有区分Neck和Head)
  • 左边一列是Backbone的模块组成,每个模块可以在右边找到具体结构。
  • Neck部分其实就是PAN结构,和YOLO v5一样
  • Neck后面接的三个检测头(解耦头 ),每个检测头输出两个特征图,一个类别特征图,一个边框特征图。
(2)边框特征图输出参数(基于Anchor Free的输出)
  • 如上图,对于每个cell,64(16×4)维的输出,每16维对应一个方向的长度的概率,比如前16维是预测框左边距离中心点的长度,16维分别是长度取0、1、2.....16的概率,取最大概率的长度作为预测框左边距离中心点的长度,其余方向同理。
2.正负样本匹配
  • 1.获取三个检测头的输出结果(预测框、概率值)

  • 2.将三个检测头的结果映射到同一原图(640x640),同时将(l,t,r,b)坐标转化为左上坐标(Xmin,Ymin)和右下坐标(Xmax,Ymax),这样就可以确定一个预测框的位置了。

  • 3.初筛:所有的grid cell的中心点(anchor point)在GT框内的即为初始正样本(如上图)

  • 4.提取对应类别的pred score,计算CIOU计算align_matric=pred_scoreo.5 * Clou6根据align_matric的值,筛选出top-N作为正样本

  • 5.处理一个中心点可能匹配到多个GT框的情况,这时取CloU值大的作为对应GT的预测框。就是将中心点对应的预测框和GT1和GT2做CIOU,哪个大就作为那个GT的正样本。(上图)

4.损失函数
(1)损失组成
  • 预测框类别损失:BCE(二元交叉熵损失)

  • 预测框定位损失:CIoU、DFL(分布焦点损失)

  • LOSS = γ1Lcls + γ2Lciou + γ3Ldfl

(2)DFL
相关推荐
数智工坊2 小时前
机器人运动控制:采样、优化与学习三大流派深度对比与实战
android·学习·机器人
ZC跨境爬虫2 小时前
跟着 MDN 学JavaScript day_7:数学运算与逻辑判断实战测试
开发语言·前端·javascript·学习·ecmascript
探物 AI2 小时前
把 MambaOut 塞进 YOLOv11:会有什么样的反应
python·yolo·计算机视觉
MartinYeung54 小时前
[论文学习]隐私保护联邦特徵选择与差分隐私的的工程实践框架
学习
qeen875 小时前
【C++】类与对象之类的默认成员函数(二)
android·c语言·开发语言·c++·笔记·学习
m0_736034855 小时前
存储基础和虚拟化
笔记
Flandern11115 小时前
Pull Requests(PR)
学习·github·pr
nashane6 小时前
HarmonyOS 6学习:JsCrash“闪退”法医指南——从FaultLog堆栈还原崩溃现场的终极手册
学习·华为·harmonyos
for_ever_love__6 小时前
UI学习:UICollectionView瀑布流
学习·ui·ios·objective-c·cocoa
AOwhisky6 小时前
MySQL 学习笔记(第六期):MySQL 备份与恢复
运维·数据库·笔记·学习·mysql·云计算