yolo笔记

在三年之后2023-08-28 19:01

目录

输入端
- Mosaic数据增强
- 数据增强Copy-paste
- [数据增强- MixUp](#数据增强- MixUp)
- [数据增强- Albumentations](#数据增强- Albumentations)
- [数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度](#数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度)
- [数据增强- Random horizontal flip](#数据增强- Random horizontal flip)
- 自适应锚框计算
- 自适应图片缩放
Backbone
- Focus结构
- CSP结构
- CSP结构
- Neck
损失函数
训练策略
消除Grid敏感度

输入端

参考：https://zhuanlan.zhihu.com/p/172121380

Mosaic数据增强

随机的仿射变换

数据增强Copy-paste

有分割数据集时

数据增强- MixUp

按一定的透明程度混合生成一张图片；

数据增强- Albumentations

参考：https://blog.csdn.net/weixin_45942927/article/details/124529291

空域滤波

为图像平滑（去噪声）和图像锐化（突出轮廓）

均值滤波：图像去噪的同时也破坏了图像的细节部分

中值滤波：可以保护图像尖锐的边缘，选择适当的点来替代污染点的值，所以处理效果好，对椒盐噪声表现较好，对高斯噪声表现较差。

直方图均衡化

可提高图像的对比度

以及改变图片质量等等

数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度

数据增强- Random horizontal flip

随机水平翻转

自适应锚框计算

自适应图片缩放

Backbone

Focus结构

将Focus模块替换成了6x6的普通卷积层。

两者功能相同，但后者效率更高。

CSP结构

CSP结构

Neck

损失函数

小目标

中等目标

大目标

小型目标更难预测，所以将小型目标的超参设置大一些

参考：https://zhuanlan.zhihu.com/p/143747206

IOU_Loss

当预测框和目标框不相交时，IOU=0，无法反应两个框距离的远近，此时损失函数不可导，IOU_Loss无法优化两个框不相交的情况。

GIOU_Loss

DIOU_Loss

CIOU_loss

训练策略

➢Multi-scale training(0.5~1.5x) 320大小图片会缩放为0.5到1.5倍

➢AutoAnchor(For training custom data)

➢Warmup and Cosine LR scheduler

学习率从一个非常小的值慢慢增长到设置的初始的学习率

用cos的方法去降低学习率

➢EMA(Exponential Moving Average)

将学习率加上一个动量

➢Mixed precision

混合精度训练

➢Evolve hyper- parameters

消除Grid敏感度

梯度爆炸

匹配正样本

anchor_t最大为4（缩放因子设置为0~4）

在0.25~4的区间内就算匹配成功

上一篇：Java BigDecimal详解

下一篇：GDB用法(一)

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08Spring 调试终于不再痛苦了 09TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 10Claude Code VSCode集成开发指南：AI编程助手完整配置