YOLOv8模型改进 第十七讲 通道压缩的自注意力机制CRA

在当今的计算机视觉领域,语义分割是一项关键任务,它能够为图像中的每个像素赋予类别标签,在自动驾驶、医学图像分析等众多领域都有着广泛的应用。然而,在实现高效且准确的语义分割过程中,我们面临着诸多挑战。其中,MetaFormer 架构在应用时存在自注意力计算效率低的问题,这在一定程度上限制了语义分割模型的性能提升。为了解决这个问题,研究人员提出了 CRA(Channel Reduction Attention)模块。CRA 模块带来了一种创新性的思路,它通过将查询和键的通道维度缩减为一维,实现了在考虑全局上下文提取的同时,显著降低自注意力计算成本的效果。这种维度缩减的方式,使得模型在处理大规模图像数据时,能够更快速地计算注意力权重,从而提高了网络的整体计算效率。

1. Channel Reduction Attention (CRA)介绍

CRA 模块以多頭自注意力为基础架构进行构建。多頭自注意力机制允许模型从不同的表示子空间中学习到更丰富的特征信息,这为有效地捕捉全局上下文提供了基础。

  1. 首先,对输入特征进行线性变换从而得到查询和键,同时对键和值进行平均池化操作。其中,查询是通过输入特征与特定的权重矩阵相乘得到,键是通过对输入特征先进行平均池化操作,然后再与权重矩阵相乘得到。

  2. 然后,依据查询和键来计算注意力权重,具体计算方式是先计算查询和键的转置乘积,再经过 Softmax 函数处理,得到注意力权重后将其应用于值,以此得到经过注意力操作后的特征表示。

  3. 最后,把多个头的注意力结果进行拼接操作,并通过一个线性投影权重矩阵得到最终的输出特征,也就是完成 CRA 模块对输入特征的处理操作。

2. 接下来,我们将详细介绍如何将 CRA集成到 YOLOv8 模型中。

这是我的GitHub代码:tgf123/YOLOv8_improve (github.com)

这是改进讲解:YOLOv8模型改进 第十七讲 通道压缩的自注意力机制CRA_哔哩哔哩_bilibili

2.1 如何添加

1. 首先,在我上传的代码中yolov8_improve中找到CRA .py代码部分,它包含两个部分一个是CRA.py的核心代码,一个是yolov8模型的配置文件。

2. 然后我们在modules文件夹下面创建CRA.py文件,然后将CRA的核心代码放入其中

3. 在 task.py文件中导入CRA

复制代码
from ultralytics.nn.modules.CRA import C2f_CRA,ChannelReductionAttention

4. 然后将 CRA添加到下面当中

第一个改进

第二个改进

5. 最后将配置文件复制到下面文件夹下

6. 运行代码跑通

python 复制代码
from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld

if __name__=="__main__":

    # 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型
    model = YOLO(r"D:\bilibili\model\ultralytics-main\ultralytics\cfg\models\v8\yolov8_CRA.yaml")\
        .load(r'D:\bilibili\model\ultralytics-main\tests\yolov8n.pt')  # build from YAML and transfer weights

    results = model.train(data=r'D:\bilibili\model\ultralytics-main\ultralytics\cfg\datasets\VOC_my.yaml',
                          epochs=100, imgsz=640, batch=2, amp=False)
相关推荐
boligongzhu20 小时前
ubuntu20.04搭建YOLOv11 GPU运行环境
linux·yolo·ubuntu·机器人
self-motivation21 小时前
征机器人领域主流模型量化,评测,优化,部署工具model_optimizer的开源合作开发
yolo·机器人·量化·foundationpose·pi0.5
Coding茶水间1 天前
基于深度学习的火焰检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
paopao_wu1 天前
人脸检测与识别-InsightFace:向量相似性搜索Faiss
人工智能·yolo·目标检测·ocr·faiss
a1111111111ss1 天前
KANConv
yolo
szxinmai主板定制专家1 天前
基于x86和ARM的EtherCAT运动控制器,最大支持32轴,支持codesys和实时系统优化
arm开发·人工智能·嵌入式硬件·yolo
海边夕阳20061 天前
【每天一个AI小知识】:什么是目标检测?
人工智能·python·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
萤火虫的夏天2511 天前
目标检测模型评估指标完整汇总
人工智能·目标检测·计算机视觉
猫天意1 天前
【深度学习即插即用模块之注意力】EfficientChannelAttention,涨点必备彻底疯狂!
人工智能·笔记·深度学习·神经网络·yolo
沃达德软件1 天前
智慧警务图像融合大数据
大数据·图像处理·人工智能·目标检测·计算机视觉·目标跟踪