目录
- 输入端
-
- Mosaic数据增强
- 数据增强Copy-paste
- [数据增强- MixUp](#数据增强- MixUp)
- [数据增强- Albumentations](#数据增强- Albumentations)
- [数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度](#数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度)
- [数据增强- Random horizontal flip](#数据增强- Random horizontal flip)
- 自适应锚框计算
- 自适应图片缩放
- Backbone
- 损失函数
- 训练策略
- 消除Grid敏感度
输入端
参考:https://zhuanlan.zhihu.com/p/172121380
Mosaic数据增强
随机的仿射变换
数据增强Copy-paste
有分割数据集时
数据增强- MixUp
按一定的透明程度混合生成一张图片;
数据增强- Albumentations
参考:https://blog.csdn.net/weixin_45942927/article/details/124529291
空域滤波
为图像平滑(去噪声)和图像锐化(突出轮廓)
均值滤波:图像去噪的同时也破坏了图像的细节部分
中值滤波:可以保护图像尖锐的边缘,选择适当的点来替代污染点的值,所以处理效果好,对椒盐噪声表现较好,对高斯噪声表现较差。
直方图均衡化
可提高图像的对比度
以及改变图片质量等等
数据增强- Augment HSV (Hue, Saturation, Value)色度、饱和度、浓度
数据增强- Random horizontal flip
随机水平翻转
自适应锚框计算
自适应图片缩放
Backbone
Focus结构
将Focus模块替换成了6x6的普通卷积层。
两者功能相同,但后者效率更高。
CSP结构
CSP结构
Neck
损失函数
小目标
中等目标
大目标
小型目标更难预测,所以将小型目标的超参设置大一些
参考:https://zhuanlan.zhihu.com/p/143747206
IOU_Loss
当预测框和目标框不相交时,IOU=0,无法反应两个框距离的远近,此时损失函数不可导,IOU_Loss无法优化两个框不相交的情况。
GIOU_Loss
DIOU_Loss
CIOU_loss
训练策略
➢Multi-scale training(0.5~1.5x) 320大小图片会缩放为0.5到1.5倍
➢AutoAnchor(For training custom data)
➢Warmup and Cosine LR scheduler
学习率从一个非常小的值慢慢增长到设置的初始的学习率
用cos的方法去降低学习率
➢EMA(Exponential Moving Average)
将学习率加上一个动量
➢Mixed precision
混合精度训练
➢Evolve hyper- parameters
消除Grid敏感度
梯度爆炸
匹配正样本
anchor_t最大为4(缩放因子设置为0~4)
在0.25~4的区间内就算匹配成功