MobileNetV4 (MNv4)

这是一篇关于 MobileNetV4 (MNv4) 的论文总结。这是 Google 推出的最新一代高效移动端视觉模型。

核心目标：

该论文旨在解决移动端硬件碎片化的问题（CPU, GPU, DSP, NPU 等各有不同的性能瓶颈），设计出在整个移动生态系统中都能达到"通用高效"的模型，而不仅仅是针对某一类特定的硬件优化。

以下是文章的主要创新点和成果总结：

1. 核心架构创新

UIB (Universal Inverted Bottleneck) 通用反向瓶颈层：
- 这是 MNv4 的核心搜索模块。它统一了之前流行的架构组件，如 Inverted Bottleneck (IB, MobileNetV2), ConvNext, 和 FFN (Feed Forward Network)。
- 引入了一种新的变体 ExtraDW (Extra Depthwise)，能够以极低的成本增加网络深度和感受野。
- UIB 具有高度灵活性，NAS（神经架构搜索）可以根据不同硬件的需求，自动选择最佳的实例化方式（例如在某些层使用 ConvNext 风格，在其他层使用 IB 风格）。
Mobile MQA (Mobile Multi-Query Attention)：
- 针对移动端加速器（如 NPU, DSP）优化的注意力机制。
- 传统的 MHSA（多头自注意力）受限于内存访问带宽。Mobile MQA 通过共享 Key 和 Value 头，大幅提升了算术强度（Operational Intensity）。
- 结合了非对称空间下采样 和定制的 Einsum 优化 ，在移动加速器上实现了比传统 MHSA 快 39% 的推理速度。

2. 设计与搜索方法论

改进的 NAS (Neural Architecture Search) 配方：
- 采用了两阶段搜索策略（粗粒度搜索 Filter 大小，细粒度搜索 UIB 配置），提高了搜索效率和模型质量。
- 针对特定硬件（如 Pixel EdgeTPU, CPU）进行优化，最终模型在多种硬件上都表现出色。
Roofline Model (屋顶线模型) 分析：
- 作者利用 Roofline Model 分析了不同硬件的算力与内存带宽瓶颈（Ridge Point）。
- 分析发现，要实现"通用高效"，模型必须在低 Ridge Point 硬件（如 CPU，受限于算力）和高 Ridge Point 硬件（如 NPU，受限于内存带宽）上都能平衡表现。MNv4 的设计正是基于这一理论。

3. 新的蒸馏技术 (Distillation Recipe)

为了进一步提升精度，作者提出了一种新的蒸馏方案。
引入了 动态数据集混合 (Dynamic Dataset Mixing)，在训练过程中混合不同的增强策略（如 ImageNet, Mixup, JFT 数据集）。
这使得 MNv4-Hybrid-Large 模型达到了 87% 的 ImageNet-1K Top-1 准确率，且在 Pixel 8 EdgeTPU 上的延迟仅为 3.8ms。

4. 模型系列与性能

MNv4 系列主要包含两类模型，均在各个平台上实现了帕累托最优（Pareto Optimal）：

MNv4-Conv (纯卷积模型)：
- 包含 S, M, L 三个版本。
- 设计用于广泛的通用性，兼容性极好（包括对不支持复杂算子的 DSP）。
- 在 CPU 上比 MobileNetV3 快约 2 倍。
MNv4-Hybrid (混合模型)：
- 包含 M, L 版本。
- 在卷积的基础上加入了 Mobile MQA。
- 专为高端移动加速器设计，提供极高的精度和效率。

总结：

MobileNetV4 通过统一的 UIB 模块、针对加速器优化的 Mobile MQA 注意力机制、以及深入的硬件性能理论分析，成功打造了一套在手机 CPU、GPU、DSP 和专用加速器（如 EdgeTPU, Apple Neural Engine）上都能保持高性能的通用模型，重新定义了移动端视觉模型的 SOTA 标准。