CVPR Efficient ViM：视觉 Mamba 的轻量化

2025 CVPR 的新 Paper《Efficient ViM》，专门解决轻量级视觉模型中 Attention 计算太慢和标准 Mamba 参数冗余的痛点！提出了一种在"隐状态"空间做混合的高效算法。

1️⃣ 核心痛点：Attention 太慢，Mamba 还不够快

CNN：提取局部特征快，但看完全局很吃力。

ViT：能看全局，但计算量是，Token 一多直接卡死。

标准 Mamba：虽然是线性复杂度，但投影层的计算量依然很大，且内存访问是瓶颈。

2️⃣ 核心架构：Efficient ViM

宏观：采用 4 阶段的金字塔结构，逐步降低分辨率。

微观：引入了 HSM-SSD 模块替代传统的 Attention 或卷积模块。

单头设计：作者发现"多头"机制在轻量级模型上会增加显存读写负担，所以改成了更高效的"单头"模式。

3️⃣ 核心创新：HSM-SSD

传统 SSD：是在庞大的 Token 序列上做通道混合，计算量大。

HSM-SSD："曲线救国"。它先不急着混合，而是把特征压缩到极小的隐状态里，然后在隐状态空间里做混合。

效果：因为隐状态维度远小于序列长度，计算量直接暴跌，实现了"在压缩空间做昂贵运算"。

4️⃣ 增强魔法：MSF (多阶段隐状态融合)

原理：把浅层的隐状态直接传给深层。

作用：就像给模型装了"记忆体"，让深层网络能回忆起图像的纹理细节，弥补了轻量级模型表征能力弱的短板。

5️⃣ 实验结果：吊打 MobileNet 和 SHVIT

速度/精度权衡：Efficient ViM-S 在精度达到 75.3% 的同时，推理延迟仅 0.6ms。

对比竞品：相比于最新的轻量级 SOTA 模型 SHVIT-S1，Efficient ViM 在相同精度下，推理速度快了 1.3 倍；相比于经典的 MobileNetV3，精度大幅提升。

总结：Efficient ViM 证明了 "隐状态操作" 是轻量级 Mamba 的正确打开方式。

#深度学习 #计算机视觉 #科研 #科研日常 #论文 #论文分享 #mamba #算法 #科研学习