深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现

Rethinking Mobile Block for Efficient Attention-based Models

PDF: https://arxiv.org/pdf/2301.01146.pdf

PyTorch代码: https://github.com/shanglianlm0525/CvPytorch

PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

EMO是高效、轻量级的模型，以在参数、FLOPs和性能之间实现平衡，适用于密集预测任务。文章从倒立残差块(IRB)和Transformer的有效组件的统一角度出发，将基于CNN的IRB扩展到基于注意力的模型，并抽象出一个用于轻量级模型设计的单残留元移动块(MMB)。

EMO为轻量级模型设计提供了一个新的思路，通过将CNN和Transformer的有效组件统一起来，实现了高效的模型性能。大量实验验证了所提出的方法的有效性和优越性。

2 ResNetlike Efficient MOdel (EMO)

2-1 Criteria for General Efficient Model

在为移动应用设计高效的视觉模型时，提出以下四个标准，即，一个高效的模型应尽可能满足：

➀Usability 可用性。简单的实现不使用复杂的运算符，并且易于为应用程序进行优化。
➁Uniformity 统一性。尽可能少的核心模块以减少模型复杂性并加快部署速度。
➂Effectiveness有效性。对于分类和密集预测具有良好的性能。
➃Efficiency 效率。参数和计算量较少，但需要在准确性上进行权衡。

2-2 Meta Mobile Block

通过对 MobileNetv2 中的 Inverted Residual Block 以及 Transformer 中的核心 MHSA 和 FFN 模块进行抽象，提出了一种统一的 Meta Mobile (M2) Block 对上述结构进行统一的表示，通过采用参数扩展率 λ 和高效算子 F 来实例化不同的模块。