YOLO系列代码

Test-Time Augmentation

  • TTA (Test Time Augmentation)是指在test过程中进行数据增强。
  • 其思想非常简单,就是在评测阶段,给每个输入进行多种数据增广变换将一个输入变成多个输入,然后再merge起来一起输出,形成一种ensemble的效果,可以用来提点。
  • 参考:https://zhuanlan.zhihu.com/p/131539596

YOLOX是旷视科技在2021年发表的一篇文章,当时主要对标的网络就是很火的YOLO v5,对比简单总结主要有三点,decoupled head、anchor-free以及advanced label assigning strategy(SimOTA)。

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------|
| yolov5 | yolox |
| # Basic size of multi-scale prior box anchors = [ [(10, 13), (16, 30), (33, 23)], # P3/8 [(30, 61), (62, 45), (59, 119)], # P4/16 [(116, 90), (156, 198), (373, 326)] # P5/32 ] | 无 |
| # Config of batch shapes. Only on val. # It means not used if batch_shapes_cfg is None. batch_shapes_cfg = dict( type='BatchShapePolicy', batch_size=val_batch_size_per_gpu, img_size=img_scale[0], # The image scale of padding should be divided by pad_size_divisor size_divisor=32, # Additional paddings for pixel scale extra_pad_ratio=0.5) | |
| | init_cfg data_preprocessor |
| 都有相比yolov3提出的是SPPF,更快,级连池化 | backbone: spp_kernal_sizes=(5, 9, 13), |
| YOLOv5HeadModule YOLOAnchorGenerator | YOLOXHeadModule SimOTAAssigner |
| * Classes loss:使用的是 BCE loss * Objectness loss:使用的是 BCE loss * Location loss:使用的是 CIoU loss | L1 loss |

decoupled detection head中对于预测Cls.Reg.以及IoU参数分别使用三个不同的分支,这样就将三者进行了解耦。这里需要注意一点,在YOLOX中对于不同的预测特征图采用不同的head,即参数不共享。以下为yolox:

以下为yolov5

YOLOv5 Head 结构和 YOLOv3 完全一样,为 非解耦 Head。Head 模块只包括 3 个不共享权重的卷积,用于将输入特征图进行变换而已。

前面的 PAFPN 依然是输出 3 个不同尺度的特征图,shape 为 (B,256,80,80)、 (B,512,40,40) 和 (B,1024,20,20)。 由于 YOLOv5 是非解耦输出,即分类和 bbox 检测等都是在同一个卷积的不同通道中完成。以 COCO 80 类为例:

  • P5 模型在输入为 640x640 分辨率情况下,其 Head 模块输出的 shape 分别为 (B, 3x(4+1+80),80,80), (B, 3x(4+1+80),40,40)(B, 3x(4+1+80),20,20)

  • P6 模型在输入为 1280x1280 分辨率情况下,其 Head 模块输出的 shape 分别为 (B, 3x(4+1+80),160,160), (B, 3x(4+1+80),80,80), (B, 3x(4+1+80),40,40)(B, 3x(4+1+80),20,20)。 其中 3 表示 3 个 anchor,4 表示 bbox 预测分支,1 表示 obj 预测分支,80 表示 COCO 数据集类别预测分支。

相关推荐
智算菩萨3 分钟前
从 0 到 1 搭建 AI 智能体:从创建、知识库与提示词,到 MCP 接入和多智能体协作的全流程实践与评测
人工智能
onebound_noah9 分钟前
电商图片搜索:技术破局与商业落地,重构“视觉到交易”全链路
大数据·前端·网络·人工智能·重构·php
得贤招聘官10 分钟前
AI得贤面试智能体:重构企业招聘新范式
人工智能
SEO_juper10 分钟前
谷歌搜索全面AI化:SGE如何重构我们的搜索体验与营销格局
人工智能·ai·重构·数字营销
好多渔鱼好多10 分钟前
【音视频】AI自适应均衡器的调节精度提升方法
人工智能·音视频
昨日之日200612 分钟前
InfiniteTalk V2版 - 声音驱动图片生成高度逼真的说话/唱歌视频 支持50系显卡 ComfyUI+WebUI 一键整合包下载
人工智能·深度学习·音视频
老蒋新思维12 分钟前
破局与重构:借 “创始人 IP + AI” 开启智能商业新征程|创客匠人
网络·人工智能·网络协议·tcp/ip·重构·知识付费·创客匠人
KKKlucifer14 分钟前
智能越进化,防线越脆弱?AI 时代数据安全的底层挑战与重构
人工智能·重构
Arctic.acc22 分钟前
Datawhale:HelloAgent,学习打卡5
人工智能
minhuan31 分钟前
构建AI智能体:九十六、基于YOLO的智能生活助手:食材识别、植物健康与宠物行为分析
yolo·计算机视觉·视觉大模型·大模型应用