注意力机制

主要参考:

注意力机制的应用_哔哩哔哩_bilibili 视觉 注意力机制------通道注意力、空间注意力、自注意力-CSDN博客

神经网络学习小记录64------Pytorch 图像处理中注意力机制的解析与代码详解_注意力机制 bubbliiiing-CSDN博客

注意力机制的核心重点就是让网络关注到它更需要关注的地方。

一般而言,注意力机制可以分为通道注意力机制,空间注意力机制,以及二者的结合。

一、SENet 通道注意力

  1. 对输入进来的特征进行全局平均池化;
  2. 进行两次全连接:第一次进行神经元个数较少的全连接;第二次进行的全连接和输入参数量相同;
  3. 经过两次全连接之后,经过sigmoid函数将值固定到0-1之间,因此获得输入特征层每一个通道的权值。

也可以理解成压缩和激励两个部分:(压缩部分)对全局空间信息进行压缩,在通道维度进行特征学习;(激励部分)对激励部分的各个通道进行权重分配,具体来说:

  1. 压缩部分:输入特征维度为H×W×C,分别代表高度、宽度、通道数,通过全局平均池化将维度压缩成1×1×C,即把H×W压缩成1×1
  2. 激励部分:将压缩得到的1×1×C维度融入全连接层,得到各个通道的重要程度,并使用sigmoid函数规范到0-1之间。
python 复制代码
class SENet(nn.module):
    def __init__(self, channel, ratio=16):
        super().__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel / ratio)
            nn.ReLU()
            nn.Linear(channel / ratio, channel)
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, h, w = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, h, w)
        return x * y
        

二、CBAM 通道注意力+空间注意力

CBAM对输入进来的特征层分别进行通道注意力和空间注意力处理,先通道后空间。

通道注意力模块:对输入特征进行全局最大值池化和全局平均池化(在空间维度进行池化压缩,压缩空间尺寸),然后将得到的特征送入多层感知机MLP学习(共享的全连接层),然后对结果进行相加,取sigmoid(0-1之间),获得通道注意力的权值。B C H W → B C 1 1 → B C H W

空间注意力模块:对输入特征进行全局最大值池化和全局平均池化(在通道维度上进行池化压缩,压缩通道大小);将全局平均池化和全局最大值池化的结果,按照通道进行拼接,得到H×W×2的特征图;然后对拼接结果进行卷积操作,得到H×W×1的特征图;接着取一个sigmoid(0-1之间)。B C H W →B 1 H W →B 2 H W →B 1 H W →B C H W

python 复制代码
class ChannelAttention(nn.Module):
    def __init__(self, channel, ratio=16):
        super().__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        self.fc1 = nn.Conv2d(channel, channel//ratio, 1, bias=False)
        self.relu = nn.ReLU()
        self.fc2 = nn.Conv2d(channel//ratio, channel, 1, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.sigmoid(self.fc2(self.relu(self.fc1(self.avg_pool(x)))))
        max_out = self.sigmoid(self.fc2(self.relu(self.fc1(self.max_pool(x)))))
        out = torch.cat((avg_out, max_out), 1)
        return out

class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super().__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        assert kernel_size in [3, 7]
        padding = 3 if kernel_size == 7 else 1
        self.conv = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out = torch.max(x, dim=1, keepdim=True)
        out = torch.cat((avg_out, max_out), 1)
        out = self.sigmoid(self.conv(out))
        return out

class CBAM(nn.Module):
    def __init__(self, channel, ratio=8, kernel_size=7):
        super().__init__()
        self.channelattention = ChannelAttention(channel,ratio=ratio)
        self.spatialattention = SpatialAttention(kernel_size=kernel_size)

    def forward(self, x):
        x = x * self.channelattention(x)
        x = x * self.spatialattention(x)
        return x
相关推荐
i查拉图斯特拉如是38 分钟前
Coze工作流意图识别
人工智能·大模型·工作流·意图识别·coze
创客匠人老蒋39 分钟前
穿越周期的发展动力:创始人IP与AI融合下的成长路径解析
人工智能·创客匠人全球ip+ai高峰论坛·全球创始人ip+ai万人峰会
m0_6501082443 分钟前
Don’t Shake the Wheel: 端到端自动驾驶中的动量感知规划(MomAD)
人工智能·自动驾驶·端到端·实时性·动量感知机制·闭环性能·长时域预测
懂AI的老郑43 分钟前
自动驾驶之眼:动态目标理解的关键突破
人工智能
大模型服务器厂商44 分钟前
挥手示意车辆先行,自动驾驶为何常 “不知所措”? Alpamayo-R1给出新解法
人工智能·机器学习·自动驾驶
古城小栈1 小时前
AI驱动的手机自动化开源项目技术解析
人工智能·智能手机·自动化
北京耐用通信1 小时前
传感器“断联”拖垮产线?耐达讯自动化网关让Ethernet IP转CCLink秒通!
人工智能·科技·物联网·网络协议·自动化
roman_日积跬步-终至千里1 小时前
【模式识别与机器学习(15)】主成分分析
机器学习·信息可视化·数据分析
学术小白人1 小时前
【落幕通知】2025年能源互联网与电气工程国际学术会议(EIEE 2025)在大连圆满闭幕
大数据·人工智能·机器人·能源·信号处理·rdlink研发家