ICCV 2023 | 中科大联合 MSRA 提出轻量级神经网络架构 AFFNet: 自适应频率滤波器

导读

论文：《Adaptive Frequency Filters As Efficient Global Token Mixers》

TL;DR : 本文主要通过使用卷积定理，揭示自适应频率滤波器可以作为有效的全局token混合器。这使得全局token混合可以作为潜在空间中的大核卷积，并通过在频率域中进行Hadamard乘积操作高效实现。

问题定义

目前主流的三大视觉基础架构：CNN、Transformer 和 MLP，在各大视觉任务上均表现良好，很大一部分原因功于它们在全局范围内有效的信息融合。然而，由于自注意力机制、大卷积核和全连接层的高计算成本，特别是在移动设备上的高效部署仍然存在挑战。

解决方案

为此，今天引入一种新颖的自适应频率滤波器。该方法将潜在表示转移到频率域 ，并通过元素乘法进行语义自适应频率滤波。这一操作在数学上等于在原始潜在空间中使用动态卷积核进行token混合操作。此外，作者进一步使用AFF token mixer作为主要神经运算符构建了轻量级神经网络，称为AFFNet，并通过实验展示了其有效性和效率。

最终，通过将token转移到频率域并在其中执行操作，可以有效地进行全局混合。另一方面，通过采用快速傅立叶变换（FFT），我们可以有效地将 token 混合的复杂性从 $O ( N 2 ) O(N^{2})$ O(N2) 减小到 $O ( N l o g N ) O(N logN)$ O(NlogN)。

方法

在许多主流神经网络中，token 混合是至关重要的，因为学习非局部表示对于视觉理解是关键。文中首先描述了一个统一的 token 混合方法，通过在其上下文区域进行混合来更新 token。作者审查了 CNNs、Transformers 和 MLPs 中不同类型的网络架构的现有 token 混合方法，并指出了它们的效率和效果的问题。感兴趣的同学可以查阅原文，此处不再详述。

那么，什么是令牌混合？

在处理图像的神经网络中，输入通常被划分为小方块或"令牌"。这些令牌通过网络的各层进行处理。令牌混合是指这些小方块之间相互交互和组合信息的方式。可以将其看作图像的不同部分之间的对话，它们共享信息以更好地理解整个图像。

其次，如何理解"自适应频率滤波"？

自适应：这意味着系统可以根据正在处理的数据进行更改和调整。这不是一刀切的方法，而是根据图像的具体内容进行动态调整，通常情况下是根据已有的信息算出一个类似于"权重"的东西再施加到感兴趣区域。
频率滤波：在图像和信号的上下文中，"频率"是指构成图像的不同模式或波形。滤波意味着有选择地关注某些频率或模式并忽略其它的。没理解？大家可以想象成将以前我们小时候在调整收音机来通过滤除所有其他噪声清晰地收听特定电台。

那么，AFF 是如何工作的？

转换图像

AFF 令牌混合器使用叫做傅里叶变换的武器，将图像从空间描述转变为频率描述。就像用描述图像中的模式和波形的不同语言来翻译图像。

过滤频率

一旦进入这种频率"语言"，AFF 系统应用一个已学习的滤波器，集中注意图像的重要部分并忽略不重要的部分。这个滤波器是自适应的，这意味着它会根据正在查看的特定图像内容进行更改。

重建图像

最后，系统将过滤后的频率重新翻译为常规的基于像素的描述，但此刻不"需要"的部分会被过滤掉，重要部分则会得到强调。

整个过程以计算效率的方式完成，意味着它可以快速完成，而不需要大量的计算能力。简单来说，AFF 令牌混合器为神经网络提供了更有效和有效地理解和处理图像的方法。通过关注重要的模式并忽略噪声，它使网络能够更清晰地看到"全局"，并进行更准确的预测或分析。

我们可以尝试从另一个角度去理解它。自适应频率滤波令牌混合器就像神经网络中的智能翻译和编辑器。通过将深度学习与频率域分析结合，这项工作成功地设计了一种全新的token混合方法。它通过FFT和逆FFT，将图像翻译成频率语言，适应并关注关键部分，去除噪音，然后再翻译回来。如此一来便能够将全局 token 混合操作简化为频率域中的元素乘法，从而实现了更高的效率和灵活性。这为深度学习领域提供了一种新的视角和可能的优化方向。你学废了没？

以下是整体框架图：

可以看出，AFFNet 是基于多个 AFF Blocks构建的轻量级主干网络。以下是它的主要特点：

AFFNet通过堆叠多个AFF Blocks构建。
卷积茎（Convolution Stem）：用于令牌化。
原始融合（Plain Fusion）：用于在每个阶段组合局部和全局特征。

此外，AFFNet 针对不同应用场景提供三个版本，它们的通道数量不同，从而产生不同的参数规模。

AFFNet: 5.5M
AFFNet-T（Tiny）：2.6M
AFFNet-ET（Extremely Tiny）：1.4M

实验

定量分析

定性分析

对小目标的检测效果好像还不错。

总结

通过引入自适应频率滤波（AFF）token混合器，本文提出了一种新颖的全局token混合方法，并构建了一种轻量级视觉网络架构AFFNet。该方法有效地克服了传统深度学习模型在移动和边缘设备上的计算挑战，并展示了在广泛视觉任务上的卓越性能。

写在最后

如果有对神经网络架构相关研究感兴趣的童鞋，非常欢迎扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友，备注：学校/公司-研究方向-昵称，与更多小伙伴一起交流学习！