SE注意力机制——学习记录

声明：

🍨 本文为 🔗365天深度学习训练营中的学习记录博客
🍖 原作者： K同学啊

任务1：在DenseNet结构中加入SE注意力机制，并完成猴豆病识别

采用自建数据集，数据集参数如下：

网络结构就是在DenseNet的Bottleneck中加入了一个SE模块

大概就是这样,代码仅需更改Bottleneck部分,并加入了一个封装好的SE类

复制代码

class SEBlock(nn.Module):
    def __init__(self, channels, reduction=16):
        super(SEBlock, self).__init__()

        inner_channels = max(channels // reduction, 1)
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Conv2d(channels, inner_channels, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(inner_channels, channels, 1, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        y = self.avg_pool(x)
        y = self.fc(y)
        return x * y

class Bottleneck(nn.Module):
    def __init__(self, in_channels, growth_rate):
        super(Bottleneck, self).__init__()
        self.bn1 = nn.BatchNorm2d(in_channels)
        self.conv1 = nn.Conv2d(in_channels, growth_rate * 4, kernel_size=1, bias=False)
        self.bn2 = nn.BatchNorm2d(growth_rate * 4)
        self.conv2 = nn.Conv2d(growth_rate * 4, growth_rate, kernel_size=3, padding=1, bias=False)
        self.se = SEBlock(growth_rate, reduction=16)

    def forward(self, x):
        out = self.conv1(F.relu(self.bn1(x)))
        out = self.conv2(F.relu(self.bn2(out)))
        out = self.se(out)
        out = torch.cat([x, out], 1)
        return out

模型参数如图所示

接下来对加入SE模块的模型与未加入SE模块的模型进行测试,对比他们的性能

加入SE,50个epochs的0.001初始lr的余弦退火训练结果:

未加入SE,50个epochs的0.001初始lr的余弦退火训练结果:

未加入SE,25+25个epochs的0.0005和0.0001初始lr的余弦退火训练结果:

任务1总结：

从训练结果可以看出,加入了SE模块的网络,比未加入的更快收敛.并且在训练集上达到了更高的准确率.并且测试集最优准确率达到91+(达到训练要求89+)

但是同样也有缺点存在,就是在我们这种小样本的情况下,模型出现了很明显的过拟合情况,这一点是小样本+注意力很难去解决的

其次,SE模块的sigmoid输出易饱和(接近0或1),且与DenseNet的特征累积机制叠加后,导致深层网络出现极端数值放大,少数样本logits爆炸使loss骤增但acc不变。

任务2：改进思路

减少注意力机制的影响,改用残差连接

复制代码

        self.alpha = nn.Parameter(torch.tensor(alpha))
        .
        .
        .
        return x * (1 - self.alpha + self.alpha * y)

通过约束权重值的分配方式不让他太小来降低模型依赖

能看到抗拟合性能有明显的提升

SE注意力机制——学习记录

声明：

相关介绍：

SE注意力机制（Squeeze-and-Excitation Networks）

一、什么是SE？

二、为什么需要SE？

三、SE的三个核心步骤

第一步：Squeeze（挤压）

第二步：Excitation（激发）