YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!

YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!

DySample超轻量动态上采样算子全文戳这!here!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!


arge Separable Kernel Attention: Rethinking the
Large Kernel Attention Design in CNN(提出原文戳这)

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!
截止到发稿时,B站YOLOv9最新改进系列的源码包,已更新了11种的改进!自己排列组合2-4种后,考虑位置不同后可排列组合上千种!!专注AI学术,关注B站博主:Ai学术叫叫兽er!

摘要

我们介绍DySample,一个超轻量和有效的动态上采样器。虽然最近基于内核的动态上采样器(如CARAFE、FADE和SAPA)的性能提升令人印象深刻,但它们带来了大量的工作负载,主要是由于耗时的动态卷积和用于生成动态内核的额外子网络。此外,对高特征指导的需求在某种程度上限制了它们的应用场景。为了解决这些问题,我们绕过动态卷积并从点采样的角度制定上采样,这更节省资源,并且可以很容易地使用PyTorch中的标准内置函数实现。我们首先展示了一个朴素的设计,然后演示了如何逐步加强其上采样行为,以实现我们的新上采样器DySample。与以前基于内核的动态上采样器相比,DySample不需要定制CUDA包,并且具有更少的参数、FLOPs、GPU内存和延迟。除了轻量级的特点,DySample在五个密集预测任务上优于其他上采样器,包括语义分割、目标检测、实例分割、全视分割和单目深度估计。

1 简介

特征上采样是密集预测模型中逐渐恢复特征分辨率的关键因素。最常用的上采样器是最近邻(NN)和双线性插值,它们遵循固定的规则来插值上采样值。为了增加灵活性,在一些特定任务中引入了可学习的上采样器,例如,实例分割中的去卷积[13]和图像超分辨率中的像素混洗场景(高分辨率功能必须可用)。与早期的普通网络不同,多尺度特征经常用于现代架构中;因此,作为上采样器输入的高分辨率特征可能不是必要的。例如,在特征金字塔网络(FPN)[23]中,高分辨率特征将在上采样后添加到低分辨率特征中。因此,我们认为设计良好的单输入动态上采样器就足够了。考虑到动态卷积引入的繁重工作量,我们绕过基于内核的范例并返回到上采样的本质,即,点采样,以重新制定上采样过程。具体来说,我们假设输入的功能是内插到一个连续的双线性插值,并产生内容感知的采样点重新采样的连续地图。从这个角度来看,我们首先提出了一个简单的设计,其中逐点偏移由线性投影生成,并用于使用PyTorch中的网格采样函数重新采样点值。然后,我们展示了如何通过i)控制初始采样位置,ii)调整偏移量的移动范围,iii)将上采样过程划分为几个独立的组来逐步改进它,并获得我们的新上采样器DySample。在每一步,我们解释为什么需要调整,并进行实验,以验证性能增益。与其他动态上采样器相比,DySample i)不需要高分辨率的引导功能作为输入,ii)也不需要PyTorch以外的任何额外CUDA包,特别是iii)具有更少的推理延迟,内存占用,FLOP和参数数量,如图1和图8所示。例如,在以MaskFormer-SwinB [8]为基线的语义分割上,DySample比CARAFE的性能提高了46%,但只需要CARAFE的3%的参数和20%的FLOP。由于高度优化的PyTorch内置函数,DySample的推理时间也接近双线性插值(6.2 ms vs. 1.6 ms,当对256 × 120 × 120特征图进行上采样时)。除了这些吸引人的轻量级特性外,DySample在五个密集预测任务(包括语义分割、对象检测、实例分割、全景分割和单眼深度估计)上的性能优于其他上采样器。简而言之,我们认为DySample可以安全地取代现有密集预测模型中的NN/双线性插值,不仅是有效性,而且是效率。

图1.比较不同上采样器的性能、推理速度和GFLOP。圆圈的大小表示GFLOP的成本。通过对尺寸为256×120×120的特征图进行×2上采样来测试推理时间。使用SegFormer-B1 [40]在ADE 20 K数据集[42]上测试mIoU性能和其他GFLOP。

2 相关工作

我们回顾了深度学习中的密集预测任务、特征上采样算子和动态采样。密集预测任务。密集预测是指需要逐点标签预测的任务的分支,例如语义/实例/全景分割[2,39,40,8,7,13,11,16,19],对象检测[33,4,24,36]和单眼深度估计[38,18,3,21]。不同的任务往往表现出不同的特点和困难。例如,在语义分割中很难预测平滑的内部区域和尖锐的边缘,在实例感知任务中也很难区分不同的对象。在深度估计中,具有相同语义含义的像素可能具有相当不同的深度,反之亦然。人们经常需要为不同的任务定制不同的架构。虽然模型结构各不相同,但上采样算子是密集预测模型中的重要组成部分。由于主干通常输出多尺度特征,因此低分辨率特征需要上采样到更高的分辨率。因此,一个轻量级的,有效的上采样器将有利于许多密集的预测模型。我们将展示我们新的上采样器设计为SegFormer [40]和MaskFormer [8]带来了一致的性能提升,用于语义分割,用于对象检测的Faster R-CNN [33],例如分割的Mask R-CNN [13],用于全景分割的Panoptic FPN [16],以及用于单目深度估计的DepthFormer [21],同时引入可忽略不计的工作量。功能上采样。常用的特征上采样器是NN和双线性插值。它们应用固定的规则来插值低分辨率特征,忽略了特征图中的语义含义。SegNet [2]在语义分割中采用了最大解池来保留边缘信息,但噪声和零填充的引入破坏了平滑区域的语义一致性。与卷积类似,一些可学习的上采样器在上采样中引入了可学习的参数。例如,反卷积以卷积的相反方式对特征进行上采样。Pixel Shuffle [34]使用卷积提前增加通道数,然后重塑特征图以提高分辨率。最近,一些动态上采样算子进行内容感知上采样。CARAFE [37]使用子网络来生成内容感知的动态卷积核来重新组装输入特征。FADE [29]提出将高分辨率和低分辨率特征联合收割机来生成动态内核,以便使用高分辨率结构。SAPA [30]进一步引入了点关联的概念,并计算高分辨率和低分辨率特征之间的相似性感知内核。作为模型插件,这些动态上采样器增加了比预期更多的复杂性,特别是对于需要高分辨率特征输入的FADE和SAPA。因此,我们的目标是提供一个简单,快速,低成本和通用的上采样器,同时保留动态上采样的有效性特征图,作为标准网格采样的替代。Dai等人。[9]和Zhu等人。[43]提出了可变形卷积网络,其中标准卷积中的矩形窗口采样被移位点采样取代。Deformable DETR [44]遵循这种方式,对与某个查询相关的关键点进行采样,以进行可变形注意。当图像被下采样到低分辨率时,也会发生类似的做法,用于内容感知的图像增强,也称为缝刻[1]。例如,在一个示例中,Zhang等人。[41]提出学习使用显着性指导对图像进行下采样,以保留原始图像的更多信息,Jin等人。[15]还设置了一个可学习的变形模块来对图像进行下采样。与目前基于核的上采样器不同,我们将上采样的本质解释为点重采样。因此,在特征上采样中,我们倾向于遵循与上述工作相同的精神,并使用简单的设计来实现强大而高效的动态上采样器。

3.学习采样和上采样

详细的方法介绍看全文即可,链接在文首!

4 结论

我们提出了DySample,一个快速,有效,通用的动态上采样器。与一般的基于核函数的动态上采样不同,DySample是从点采样的角度进行设计的。我们从一个简单的设计开始,并展示如何从我们对上采样的深刻见解中逐步提高其性能。与其他动态上采样器相比,DySample不仅报告了最佳性能,而且摆脱了定制的CUDA包,消耗了最少的计算资源,在延迟,训练内存,训练时间,GFLOPs和参数数量方面表现出优越性。对于未来的工作,我们计划将DySample应用于低级别任务,并研究上采样和下采样的联合建模。

9 修改步骤!

4.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

三、验证是否成功即可

执行命令

python 复制代码
python train.py

改完收工!

关注B站:Ai学术叫叫兽er

从此走上科研快速路

遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

相关推荐
Jagua5 分钟前
《Hello YOLOv8从入门到精通》4, 模型架构和骨干网络Backbone调优实践
yolo
Together_CZ8 分钟前
EasyAnimate:基于Transformer架构的高性能长视频生成方法
人工智能·深度学习·transformer·easyanimate
Eric.Lee202114 分钟前
数据集-目标检测系列- 人与猫互动 猫 检测数据集 cat in the house >> DataBall
人工智能·yolo·目标检测·计算机视觉·猫咪检测·猫与人互动
SEVEN-YEARS2 小时前
使用OpenCV实现视频背景减除与目标检测
opencv·目标检测·音视频
sp_fyf_20242 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
钰见梵星2 小时前
深度学习优化算法
人工智能·深度学习·算法
算法给的安全感2 小时前
siamFC算法复现及使用自己的数据集进行测试
深度学习·siamfc
是Winky啊3 小时前
【论文阅读】WGSR
论文阅读·深度学习·计算机视觉·超分辨率重建
笑脸惹桃花3 小时前
YOLOv11(Ultralytics)视频选定区域目标统计计数及跟踪
yolo·目标跟踪·计数·ultralytics
南门听露4 小时前
无监督跨域目标检测的语义一致性知识转移
人工智能·目标检测·计算机视觉