yolov8涨点系列之HiLo注意力机制引入

文章目录

从网上所搜以及chatgpt生成的HiLo注意力代码真正运行时总是遇到问题原因在于少定义了缩放因子,本文给出正确完整的HiLo注意力代码并进行完整的yolov8代码运行引入介绍。

HiLo 注意力介绍

原理

高频部分:自然图像中,高频信息往往捕捉对象的局部细节,如线条、形状等。HiLo 中的高频注意力(Hi-Fi)通过局部窗口自注意力机制来捕获这些细粒度的高频信息。例如使用较小的非重叠窗口(如 2x2 窗口),在每个窗口内计算自注意力,这样可以更高效地关注局部的细节特征,避免了在全局范围内计算自注意力的高昂计算成本,且对硬件更加友好。

低频部分:低频信息主要编码图像的全局结构,如纹理、颜色等。低频注意力(Lo-Fi)首先对每个窗口应用平均池化操作以获得低频信号,将平均池化后的特征映射投影到键(Key)和值(Value),而查询(Query)仍然来自原始特征图。然后应用标准注意力机制来建模输入特征图中每个查询位置与每个窗口的平均池化低频键之间的关系。由于键和值的空间维度降低,低频注意力部分降低了计算复杂度。

特点

高效性:通过将注意力头分为高频和低频两组,分别处理不同频率的信息,避免了传统的多头自注意力层对所有特征都采用相同的全局注意力计算方式,减少了不必要的计算量,提高了计算效率。

灵活性:头部分配比例可以根据具体任务和数据集进行调整,以平衡高频和低频信息的关注度,适应不同的应用场景。

可解释性:这种将注意力机制按照频率进行分解的方式,使得模型对图像信息的处理过程更加清晰可解释,有助于理解模型是如何关注不同频率的特征以及如何融合这些特征来进行预测的。

yolov8增加CBAM具体步骤

HiLo代码

(1)在__init.py+__conv.py文件的__all__内添加'HiLo'


(2)conv.py文件复制粘贴HiLo代码

bash 复制代码
class HiLoAttention(nn.Module):
    def __init__(self, channel, reduction_ratio=1):
        super(HiLoAttention, self).__init__()
        # 初始化一些参数、权重等
        self.channel = channel
        self.reduction_ratio = reduction_ratio

        # 定义一些层,比如线性层、卷积层等,用于计算注意力权重
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc1 = nn.Linear(channel, channel // reduction_ratio)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(channel // reduction_ratio, channel)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        b, c, h, w = x.size()
        # 计算全局平均池化
        avg_pooled = self.avg_pool(x).view(b, c)
        # 全连接层和激活函数计算注意力权重
        fc1_out = self.fc1(avg_pooled)
        fc1_out = self.relu(fc1_out)
        fc2_out = self.fc2(fc1_out)
        attention_weights = self.sigmoid(fc2_out).view(b, c, 1, 1)
        # 将注意力权重应用到输入特征图上
        return x * attention_weights

(3)修改task.py文件

先引用刚导入的HiLo模块(本文直接将modules文件夹下的全部引入):

再配置引用HiLo模块时的计算方法:

在这里插入图片描述

bash 复制代码
elif m is HiLoAttention:
    c1,c2=ch[f],args[0]
    if c2!=nc:
        c2=make_divisible(min(c2,max_channels)*width,8)
    args=[c1,*args[1:]]

yolov8.yaml文件增加HiLo注意力机制

yolov8.yaml

bash 复制代码
# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

yolov8.yaml引入HiLo注意力机制

bash 复制代码
# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, HiLoAttention, [512,1]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)

  - [-1, 1, GhostConv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, GhostConv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 22], 1, Detect, [nc]]  # Detect(P3, P4, P5)

将 HiLo 注意力引入 YOLOv8 的好处

性能提升

更准确的特征提取:YOLOv8 是一种目标检测算法,对于目标的特征提取至关重要。HiLo 注意力可以让模型更好地关注到图像中的高频局部细节信息,如目标的边缘、纹理等,以及低频的全局结构信息,如目标的整体形状、背景等。这样可以更全面、准确地提取目标的特征,提高检测的准确率,尤其是对于一些形状复杂、纹理丰富或者与背景相似的目标。

增强模型的鲁棒性:在复杂的场景中,图像可能会受到光照、噪声、遮挡等因素的影响,导致目标的特征变得不明显或者难以提取。HiLo 注意力机制可以帮助模型更好地适应这些变化,通过关注不同频率的信息,减少噪声和干扰的影响,提高模型的鲁棒性。

计算效率优化

降低计算成本:YOLOv8 在处理大规模图像数据时,计算量较大,对硬件资源的要求较高。引入 HiLo 注意力后,由于高频和低频部分的计算方式更加高效,可以减少不必要的计算,降低模型的计算成本,提高模型的运行速度,使其更适合在资源有限的设备上运行,如移动设备、嵌入式设备等。

更好地利用硬件资源:HiLo 注意力机制的计算方式更符合硬件的计算特性,例如在 GPU 上可以更好地利用并行计算能力,提高计算效率,减少内存访问成本,从而进一步提高模型的性能。

模型的可扩展性

易于与其他模块结合:HiLo 注意力可以很容易地与 YOLOv8 中的其他模块相结合,如特征融合模块、骨干网络等,形成一个更加复杂、高效的模型。这种可扩展性使得研究人员可以根据具体的需求和应用场景,灵活地调整模型的结构和参数,进一步提高模型的性能。

方便进行模型的优化和改进:引入 HiLo 注意力后,模型的结构更加清晰,研究人员可以更方便地对模型进行分析和优化。例如,可以通过调整高频和低频部分的头部分配比例、窗口大小等参数,来寻找最优的模型结构,提高模型的性能。

相关推荐
m0_743106461 小时前
【论文笔记】MV-DUSt3R+:两秒重建一个3D场景
论文阅读·深度学习·计算机视觉·3d·几何学
m0_743106461 小时前
【论文笔记】TranSplat:深度refine的camera-required可泛化稀疏方法
论文阅读·深度学习·计算机视觉·3d·几何学
Coovally AI模型快速验证4 小时前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩4 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
orion-orion6 小时前
贝叶斯机器学习:高斯分布及其共轭先验
机器学习·统计学习
IE066 小时前
深度学习系列75:sql大模型工具vanna
深度学习
不惑_6 小时前
深度学习 · 手撕 DeepLearning4J ,用Java实现手写数字识别 (附UI效果展示)
java·深度学习·ui
CM莫问7 小时前
python实战(十五)——中文手写体数字图像CNN分类
人工智能·python·深度学习·算法·cnn·图像分类·手写体识别
余炜yw7 小时前
深入探讨激活函数在神经网络中的应用
人工智能·深度学习·机器学习
ARM+FPGA+AI工业主板定制专家8 小时前
基于RK3576/RK3588+FPGA+AI深度学习的轨道异物检测技术研究
人工智能·深度学习