【Block总结】FCA,自适应细粒度通道注意|即插即用

论文信息

论文标题:Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing

论文链接:https://www.x-mol.com/paper/1785364146451894272?adv

Github链接:https://gitee.com/lose_recall/ubrfc-net

引言

图像去雾是计算机视觉中的一个重要任务,旨在从模糊或雾霾的图像中恢复出清晰的图像。近年来,无监督学习方法在图像去雾领域取得了显著的进展。然而,现有的一些方法,如CycleGAN和DisentGAN,存在生成器学习混淆和图像内容细节丢失等问题。为了解决这些问题,Hang Sun等人提出了一种新的无监督双向对比重建和自适应细粒度通道注意网络(UBRFC-Net),该方法在多个基准数据集上表现出色。

方法概述

1. 无监督双向对比重建框架(BCRF)

UBRFC-Net的核心是无监督双向对比重建框架(BCRF),其主要目标是建立双向对比重建约束。这一框架不仅避免了CycleGAN中生成器学习的混淆,还增强了对清晰图像的约束能力和无监督去雾网络的重建能力。具体来说,BCRF通过对比学习的方式,利用真实图像和生成图像之间的相似性来优化网络的学习过程,从而提高去雾效果。

2. 自适应细粒度通道注意(FCA)

自适应细粒度通道注意(FCA)是UBRFC-Net的另一个重要组成部分。FCA通过利用相关矩阵来捕捉全局和局部信息之间的相关性,促进它们之间的交互。这种机制使得网络能够在不同粒度上进行特征权重分配,从而提高去雾效果的准确性。与传统的仅使用全连接层的通道注意机制不同,FCA能够更有效地整合全局和局部信息,避免了特征权重分配不准确的问题。

自适应细粒度通道注意(FCA)

自适应细粒度通道注意(FCA)机制是一种新兴的注意力机制,旨在提高深度学习模型在图像处理任务中的性能,尤其是在图像去雾、图像增强和图像分类等领域。FCA机制通过捕捉全局和局部信息之间的交互,优化特征权重分配,从而提升模型的表现。

FCA机制的基本原理

FCA机制的核心思想是通过相关矩阵在不同粒度级别上捕捉全局和局部信息之间的关联。这一机制的设计旨在克服传统通道注意力机制(如SE通道注意力)在特征权重分配时的不足,尤其是缺乏全局信息与局部信息的有效互动。

1. 全局与局部信息的交互

FCA机制通过以下步骤实现全局与局部信息的交互:

  • 全局平均池化:首先,对输入特征图进行全局平均池化,以提取全局特征信息。

  • 一维卷积:接着,使用一维卷积对全局特征进行处理,以捕捉通道间的关系。

  • 特征融合:通过将全局特征与局部特征进行融合,FCA机制能够动态调整特征的权重,从而更好地反映输入图像的细节和上下文信息。

2. 特征权重分配

FCA机制通过自适应的方式分配特征权重,确保模型能够在不同的任务中灵活调整关注的特征。这种自适应性使得FCA机制在处理复杂场景时表现出色,能够有效捕捉细粒度的局部特征,同时保持对全局上下文的理解。

FCA机制的实现

在实现FCA机制时,通常会使用以下组件:

  • 自适应池化层:用于提取全局特征。

  • 卷积层:用于处理和融合特征。

  • 激活函数:如Sigmoid函数,用于生成特征权重。

  • 混合模块:将不同来源的特征进行加权融合,以生成最终的输出特征。

FCA机制的应用

FCA机制在多个计算机视觉任务中表现出色,尤其是在以下领域:

  • 图像去雾:通过增强图像的细节和对比度,FCA机制能够有效改善去雾效果。

  • 图像增强:在低光照条件下,FCA机制能够提升图像的可视性和细节。

  • 图像分类:通过优化特征权重,FCA机制能够提高分类模型的准确性。

自适应细粒度通道注意(FCA)机制通过有效捕捉全局和局部信息的交互,优化了特征权重分配,提升了深度学习模型在图像处理任务中的表现。随着计算机视觉技术的不断发展,FCA机制有望在更多应用场景中发挥重要作用。未来的研究可以进一步探索FCA机制在其他领域的应用潜力,以及与其他深度学习技术的结合。

实验结果

在多个具有挑战性的基准数据集上进行的实验表明,UBRFC-Net在去雾效果上优于现有的无监督图像去雾方法。具体而言,实验结果显示该方法在图像清晰度、细节保留和色彩还原等方面均表现出色。这些结果验证了BCRF和FCA的有效性,表明它们能够有效地解决传统方法中的一些关键问题。

结论

UBRFC-Net通过引入无监督双向对比重建框架和自适应细粒度通道注意机制,成功地克服了现有无监督图像去雾方法的局限性。该方法不仅提高了去雾效果,还为未来的研究提供了新的思路。随着计算机视觉技术的不断发展,UBRFC-Net有望在实际应用中发挥重要作用。

未来工作

未来的研究可以进一步探索如何将UBRFC-Net与其他深度学习技术结合,以提高去雾效果。此外,研究人员还可以考虑在不同的应用场景中测试该方法的适用性,例如在自动驾驶、遥感图像处理等领域。

代码

python 复制代码
import math
import torch
from torch import nn
#from torchstat import stat  # 查看网络参数

class Mix(nn.Module):
    def __init__(self, m=-0.80):
        super(Mix, self).__init__()
        w = torch.nn.Parameter(torch.FloatTensor([m]), requires_grad=True)
        w = torch.nn.Parameter(w, requires_grad=True)
        self.w = w
        self.mix_block = nn.Sigmoid()

    def forward(self, fea1, fea2):
        mix_factor = self.mix_block(self.w)
        out = fea1 * mix_factor.expand_as(fea1) + fea2 * (1 - mix_factor.expand_as(fea2))
        return out

class FCAttention(nn.Module):
    def __init__(self,channel,b=1, gamma=2):
        super(FCAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)#全局平均池化
        #一维卷积
        t = int(abs((math.log(channel, 2) + b) / gamma))
        k = t if t % 2 else t + 1
        self.conv1 = nn.Conv1d(1, 1, kernel_size=k, padding=int(k / 2), bias=False)
        self.fc = nn.Conv2d(channel, channel, 1, padding=0, bias=True)
        self.sigmoid = nn.Sigmoid()
        self.mix = Mix()


    def forward(self, input):
        x = self.avg_pool(input)
        x1 = self.conv1(x.squeeze(-1).transpose(-1, -2)).transpose(-1, -2)#(1,64,1)
        x2 = self.fc(x).squeeze(-1).transpose(-1, -2)#(1,1,64)
        out1 = torch.sum(torch.matmul(x1,x2),dim=1).unsqueeze(-1).unsqueeze(-1)#(1,64,1,1)
        #x1 = x1.transpose(-1, -2).unsqueeze(-1)
        out1 = self.sigmoid(out1)
        out2 = torch.sum(torch.matmul(x2.transpose(-1, -2),x1.transpose(-1, -2)),dim=1).unsqueeze(-1).unsqueeze(-1)

        #out2 = self.fc(x)
        out2 = self.sigmoid(out2)
        out = self.mix(out1,out2)
        out = self.conv1(out.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1)
        out = self.sigmoid(out)

        return input*out

if __name__ == '__main__':
    input = torch.rand(1,64,256,256)
    Attention= FCAttention(channel=64)
    y = Attention(input)
    print(y.size())

应用案例

https://jingjing.blog.csdn.net/article/details/145296636?spm=1001.2014.3001.5502

https://jingjing.blog.csdn.net/article/details/145296616?spm=1001.2014.3001.5502

https://jingjing.blog.csdn.net/article/details/145273623?spm=1001.2014.3001.5502

https://jingjing.blog.csdn.net/article/details/145273558?spm=1001.2014.3001.5502

相关推荐
XianxinMao23 分钟前
AI视频生成技术:Sora的突破与挑战
人工智能
衫水27 分钟前
在Windows系统中本地部署属于自己的大语言模型(Ollama + open-webui + deepseek-r1)
人工智能·windows·语言模型
西猫雷婶1 小时前
神经网络|(一)加权平均法,感知机和神经元
人工智能·深度学习·神经网络
智识世界Intelligence1 小时前
探索与创新:DeepSeek R1与Ollama在深度研究中的应用
经验分享·深度学习·神经网络·自然语言处理·学习方法
弥树子5 小时前
TensorFlow实现逻辑回归模型
人工智能·tensorflow·逻辑回归
迪娜学姐5 小时前
DeepSeek学术写作测评第二弹:数据分析、图表解读,效果怎么样?
人工智能·chatgpt·数据分析
明明真系叻6 小时前
2025.1.26机器学习笔记:C-RNN-GAN文献阅读
人工智能·笔记·深度学习·机器学习·生成对抗网络·1024程序员节
PPT百科8 小时前
参照和谐色调为PPT图形设置统一格式的要点
人工智能·经验分享·powerpoint·ppt
有小肚子的三眼桥墩8 小时前
从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑
人工智能·llama·llama-factory
Always_Shine8 小时前
llama-2-7b权重文件转hf格式及模型使用
深度学习·神经网络·自然语言处理·大模型·llama2