【论文阅读笔记】Wavelet Convolutions for Large Receptive Fields

1.论文介绍

Wavelet Convolutions for Large Receptive Fields

大感受野的小波卷积

2024 EECV
Paper Code

2.摘要

近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受野。然而,这种方法很快就达到了上限和饱和,在实现了一个全局感受野之前。本文证明,通过利用小波变换(WT),有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。

Keywords: 全局感受野、小波变换、多频率

引入WTConv层 :提出了一种新的卷积层WTConv,通过结合小波变换扩展感受野,使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
多频率响应 :WTConv层利用小波分解将输入分成不同频带,允许卷积层在低频和高频分量上分别进行处理,增强了模型对低频成分(即形状特征)的响应。
低参数增长率 :与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同,WTConv实现了参数的对数增长,使得在大感受野的情况下保持参数效率。
即插即用性:WTConv被设计为可以直接替换现有CNN中的深度卷积操作,无需对架构进行额外修改,具有广泛适用性。

3.Introduction

在过去的十年中,卷积神经网络(CNNs)在很大程度上主导了计算机视觉的许多领域。尽管如此,随着视觉转换器(Vision Transformers,ViT)的出现,CNN面临着激烈的竞争。视觉转换器是对自然语言处理中使用的Transformer架构的改编。具体地说,人们现在认为,ViT优于CNN的优势主要归因于它们的多头自注意层。该层便于特征的全局混合,这与通过构造而被限制为特征的局部混合的卷积形成对比。因此,最近的几项工作试图弥合CNNs和ViT之间的性能差距。Liu等人重新构建了ResNet架构及其训练例程,以跟上Swin Transformer的步伐。还有一个改进是增加卷积的核大小。然而,根据经验,该方法在内核大小为7×7时达到饱和 ,这意味着进一步增加内核并没有帮助,甚至在某个时候开始恶化性能。虽然单纯地将大小增加到7 × 7以上是没有用的,但Ding等人已经表明,如果构造得更好,甚至可以从更大的核中得到。尽管如此,最终内核变得过度参数化,并且性能在到达全局感受域之前就饱和了。在[11]中分析的一个有趣的特性是,使用较大的核使得CNN更偏向于形状,这意味着它们捕获图像中的低频的能力得到了提高。这一发现有些令人惊讶,因为卷积层通常倾向于对输入中的高频做出响应。这与注意力头不同,注意力头更倾向于低频,如其他研究所示。上面的讨论提出了一个很自然的问题:我们能不能利用信号处理工具来有效地增加卷积的感受域,而不遭受过度参数化的影响?换句话说,我们是否可以使用非常大的过滤器-例如,全局的感受野--同时还能改善性能?本文对这一问题给出了肯定的回答。我们提出的方法利用了小波变换(WT),一种基于时频分析的成熟工具,使卷积的感受域很好地按比例放大,并通过级联,引导CNNs更好地响应低频。在某种程度上,我们将解决方案基于WT的动机在于(不同于傅里叶变换),它保留了一些空间分辨率。这使得空间操作(例如,卷积)更有意义。

更具体地说,本文提出了WTConv,这是一个使用级联WT分解并执行一组小核卷积的层,每个卷积集中在越来越大的感受野中的输入的不同频带上。该过程允许在输入中更加强调低频,同时仅添加少量可训练参数。事实上,对于一个k × k的感受野,可训练参数的数量只随k的对数增长。总结一下,本文的主要贡献是:-一个新的层,称为WTConv,它使用WT来有效地增加卷积的感受域。- WTConv被设计为给定的CNN内的插入式替换(用于深度卷积)。

4.方法详解

作为卷积的小波变换

在这项工作中,本文采用Haar WT,因为它高效和简单。然而,本文的方法并不局限于它,因为可以使用其他小波基,尽管计算成本增加。

给定一个图像X,在一个空间维度(宽度或高度)上的一维Haar WT通过与核[1,1]/ √ 2和[1,−1]/ √ 2的深度卷积给出,随后是因子为2的标准下采样算子。

一维WT是在一个维度上处理,是深度卷积与下采样的结合。

为了执行2D Haar WT,我们在两个维度上组合操作,使用以下四个滤波器的集合产生步长为2的深度卷积:

注意,fLL是低通滤波器,fLH(水平高频)、fHL(垂直高频)、fHH(对角高频)是一组高通滤波器。对于每个输入通道,卷积的输出:

有四个通道,每个通道(在每个空间维度上)的分辨率是X的一半。XLL是X的低频分量,而XLH、XHL、XHH是其水平、垂直和对角高频分量。由于等式最上面中的核1形成正交基,应用逆小波变换(IWT)通过转置卷积获得:

然后通过递归分解低频分量给出级联小波分解。分解的每一级由下式给出:

其中X(0)LL = X,i是当前层级。这导致了对于较低频率,频率分辨率增加和空间分辨率减小。

级联小波分解的过程是:每次分解后,只对低频分量(即 LL 分量)进行进一步的小波分解,而不是对四个分量都进行分解。因此,级联小波分解的层次结构会随着每次分解产生新的 LL、LH、HL 和 HH 分量,但这些新分量只来自于上一次分解的 LL 部分。

小波域中的卷积

增加卷积层的核大小会二次增加参数的数量(因此,自由度也会增加)。为了缓解这种情况:首先,使用WT对输入的低频和高频成分进行滤波和降频。然后,在使用IWT构造输出之前,对不同的频率图执行小核深度卷积。换句话说,该过程由下式给出:

其中X是输入张量,W是具有四倍于X的输入通道的k×k深度核的权重张量。该运算不仅分离了频率分量之间的卷积,而且允许更小的核在原始输入的更大区域中操作,即增加其接受场w.r.t。输入。

将每个频率分量(即小波分解得到的四个频率分量)分别使用一个小卷积核(k × k)进行卷积操作。这里使用的是深度卷积,即在通道维度上逐个卷积。

我们采用该1级组合操作,并通过使用来自等式(1)的相同级联原理进一步增加它。该过程由下式给出:

其中X(0)LL是层的输入,X(i)H表示第i层的所有三个高频图。为了将不同频率的输出联合收割机组合,我们使用WT及其逆是线性运算的事实,这意味着IWT(X + Y)= IWT(X)+ IWT(Y)。因此,执行

由于小波变换(WT)和逆变换(IWT)都是线性操作,利用线性叠加的性质可以直接进行叠加

导致不同级别的卷积的总和,其中Z(i)是从级别i向前的聚合输出。其中不同大小卷积的两个输出被求和作为输出。我们不能对Y(i)LL、Y(i)H中的每一个进行归一化,因为它们的单独归一化不对应于原始域中的归一化。相反,我们发现,仅执行通道式缩放来加权每个频率分量的贡献就足够了。图3显示了2级WT情况下的WTConv。

首先输入一个input,然后进行WT得到四个分量,再对低频分量再进行WT,直至最后一层。对于每一层,先把四个分量经过深度卷积变换,再cat到一起经过IWT得到该层的结果,再把下一层的低频分量与之相加(最后一层的下一层是0),传回上一层,直至第一层。第一层是input经过卷积,与下一层相加得到输出结果。


使用小波变换的优势

将WTConv合并到给定的CNN中有两个主要的技术优势。首先,每一级WT都增加了层的感受野的大小,而可训练参数的数量只有少量增加。也就是说,WT的第三级级联频率分解,以及每个级的固定大小的核k,允许参数的数量在级别的数量(k· 4 · c · k2)中线性缩放,而感受野以指数方式增长(2 k· k)。

第二个好处是,WTConv层的构造可以比标准卷积更好地捕获低频。

5.结果与总结

语义分割:

分类:

我的理解是本文构建了一个基于小波变换的卷积块,可以代替深度卷积使用。因为小波变换不同于傅里叶变换,它包含空间域与频域的信息。做法是首先选定Haar WT作基底,2D变换每次都会分成低频、水平高频、垂直高频、对角高频四个分量;后续还会级联操作,对得到的四个分量中的低频分量会再次进行小波变换,得到更低一级的四个分量。逆变换时,首先会对它们先进行卷积操作(深度卷积),然后低频分量与低一级的四个分量相加,再把这一级的四个分量作逆小波变换。

相关推荐
bnsarocket1 小时前
Verilog和FPGA的自学笔记6——计数器(D触发器同步+异步方案)
笔记·fpga开发·verilog·自学·硬件编程
取酒鱼食--【余九】2 小时前
深度学习经典网络解析:ResNet
网络·人工智能·深度学习·神经网络·resnet·卷积神经网络·残差神经网络
LK_072 小时前
【Open3D】Ch.3:顶点法向量估计 | Python
开发语言·笔记·python
li星野2 小时前
打工人日报#20251011
笔记·程序人生·fpga开发·学习方法
摇滚侠2 小时前
Spring Boot 3零基础教程,yml配置文件,笔记13
spring boot·redis·笔记
QT 小鲜肉2 小时前
【个人成长笔记】在Ubuntu中的Linux系统安装 anaconda 及其相关终端命令行
linux·笔记·深度学习·学习·ubuntu·学习方法
QT 小鲜肉2 小时前
【个人成长笔记】在Ubuntu中的Linux系统安装实验室WIFI驱动安装(Driver for Linux RTL8188GU)
linux·笔记·学习·ubuntu·学习方法
急急黄豆2 小时前
MADDPG学习笔记
笔记·学习
人机与认知实验室3 小时前
触摸大语言模型的边界
人工智能·深度学习·机器学习·语言模型·自然语言处理
Chloeis Syntax3 小时前
栈和队列笔记2025-10-12
java·数据结构·笔记·