YOLOv5改进 | 2023 | CARAFE提高精度的上采样方法（助力细节长点）

一、本文介绍

本文给大家带来的CARAFE（Content-Aware ReAssembly of FEatures）是一种用于增强卷积神经网络特征图的上采样方法。其主要旨在改进传统的上采样方法（就是我们的Upsample）的性能。**CARAFE的核心思想是：**使用输入特征本身的内容来指导上采样过程，从而实现更精准和高效的特征重建。CARAFE是一种即插即用的上采样机制其本身并没有任何的使用限制 。所以在YOLOv5的改进中其也可以做到一个提高精度的改进方法

专栏回顾：YOLOv5改进专栏------持续复现各种顶会内容------内含100+创新****

实验效果图如下所示->

一、本文介绍

二、CARAFE的机制原理

[2.1 CARAFE的基本原理](#2.1 CARAFE的基本原理)

[2.2 图解CARAFE原理](#2.2 图解CARAFE原理)

[2.3 CARAFE的效果图](#2.3 CARAFE的效果图)

三、CARAFE的复现源码

四、手把手教你添加CARAFE机制

[4.1 细节修改教程](#4.1 细节修改教程)

[4.1.1 修改一](#4.1.1 修改一)

[4.1.2 修改二](#4.1.2 修改二)

[4.1.3 修改三](#4.1.3 修改三)

[4.1.4 修改四](#4.1.4 修改四)

[4.2 CARAFE的yaml文件](#4.2 CARAFE的yaml文件)

[4.3 CARAFE运行成功截图](#4.3 CARAFE运行成功截图)

五、本文总结

二、CARAFE的机制原理

论文地址：官方论文地址点击即可跳转****

代码地址：官方代码地址点击即可跳转****

2.1 CARAFE的基本原理

**CARAFE（Content-Aware ReAssembly of FEatures）**是一种用于增强卷积神经网络特征图的上采样方法。这种方法首次在论文《CARAFE: Content-Aware ReAssembly of FEatures》中提出，旨在改进传统的上采样方法（如双线性插值和转置卷积）的性能。

CARAFE通过在每个位置利用底层内容信息来预测重组核，并在预定义的附近区域内重组特征。由于内容信息的引入，CARAFE可以在不同位置使用自适应和优化的重组核，从而比主流的上采样操作符（如插值或反卷积）表现更好。

CARAFE包括两个步骤：首先预测每个目标位置的重组核，然后用预测的核重组特征。给定一个尺寸为 H×W×C 的特征图和一个上采样比率 U，CARAFE将产生一个新的尺寸为 UH×UW×C 的特征图。其次CARAFE的核预测模块根据输入特征的内容生成位置特定的核，然后内容感知重组模块使用这些核来重组特征。

**CARAFE可以无缝集成到需要上采样操作的现有框架中。**在主流的密集预测任务中，CARAFE对高级和低级任务（如对象检测、实例分割、语义分割和图像修复）都有益处，且额外的参数微不足道。

2.2 图解CARAFE原理

下图是CARAFE工作机制的示意图。左侧展示了来自Mask R-CNN的多层FPN（特征金字塔网络）特征（直至虚线左侧），右侧展示了集成了CARAFE的Mask R-CNN（直至虚线右侧）。对于采样的位置，该图显示了FPN自上而下路径中累积重组的区域。这样一个区域内的信息被重组到相应的重组中心。

下图展示了CARAFE的整体框架。CARAFE由两个关键部分组成，即核预测模块和内容感知重组模块。在这个框架中，一个尺寸为 H×W×C 的特征图被上采样因子 U(=2) 倍。

下图展示了集成了CARAFE的特征金字塔网络（FPN）架构。在这个架构中，CARAFE在FPN的自上而下路径中将特征图的尺寸上采样2倍。CARAFE通过无缝替换最近邻插值而整合到FPN中，从而优化了特征上采样的过程。

2.3 CARAFE的效果图

下图比较了COCO 2017验证集上基线（上面）和CARAFE（下面）在实例分割结果方面的差异。

**总结：**我个人觉得其实其效果提升比较一般甚至某些数据集上提点很微弱，但是它主要的作用是减少计算量是一个更加轻量化的上采样方法。

三、CARAFE的复现源码

我们将在**"ultralytics/nn/modules"**目录下面创建一个文件将其复制进去，使用方法在后面会讲。

复制代码

import torch
import torch.nn as nn
from ultralytics.nn.modules import Conv


class CARAFE(nn.Module):
    def __init__(self, c, k_enc=3, k_up=5, c_mid=64, scale=2):
        """ The unofficial implementation of the CARAFE module.
        The details are in "https://arxiv.org/abs/1905.02188".
        Args:
            c: The channel number of the input and the output.
            c_mid: The channel number after compression.
            scale: The expected upsample scale.
            k_up: The size of the reassembly kernel.
            k_enc: The kernel size of the encoder.
        Returns:
            X: The upsampled feature map.
        """
        super(CARAFE, self).__init__()
        self.scale = scale

        self.comp = Conv(c, c_mid)
        self.enc = Conv(c_mid, (scale * k_up) ** 2, k=k_enc, act=False)
        self.pix_shf = nn.PixelShuffle(scale)

        self.upsmp = nn.Upsample(scale_factor=scale, mode='nearest')
        self.unfold = nn.Unfold(kernel_size=k_up, dilation=scale,
                                padding=k_up // 2 * scale)

    def forward(self, X):
        b, c, h, w = X.size()
        h_, w_ = h * self.scale, w * self.scale

        W = self.comp(X)  # b * m * h * w
        W = self.enc(W)  # b * 100 * h * w
        W = self.pix_shf(W)  # b * 25 * h_ * w_
        W = torch.softmax(W, dim=1)  # b * 25 * h_ * w_

        X = self.upsmp(X)  # b * c * h_ * w_
        X = self.unfold(X)  # b * 25c * h_ * w_
        X = X.view(b, c, -1, h_, w_)  # b * 25 * c * h_ * w_

        X = torch.einsum('bkhw,bckhw->bchw', [W, X])  # b * c * h_ * w_
        return X

四、手把手教你添加CARAFE机制

4.1 细节修改教程

4.1.1 修改一

我们找到如下的目录'yolov5-master/models'在这个目录下创建一整个文件目录(注意是目录，因为我这个专栏会出很多的更新，这里用一种一劳永逸的方法)文件目录起名modules，然后在下面新建一个文件，将我们的代码复制粘贴进去。

4.1.2 修改二

然后新建一个__init__.py文件，然后我们在里面添加一行代码。注意标记一个'.'其作用是标记当前目录。

4.1.3 修改三

然后我们找到如下文件''models/yolo.py''在开头的地方导入我们的模块按照如下修改->

(如果你看了我多个改进机制此处只需要添加一个即可，无需重复添加。)

4.1.4 修改四

然后我们找到parse_model方法，按照如下修改->

到此就修改完成了，复制下面的ymal文件即可运行。

4.2 CARAFE的yaml文件