CVPR Efficient ViM:视觉 Mamba 的轻量化

2025 CVPR 的新 Paper《Efficient ViM》,专门解决轻量级视觉模型中 Attention 计算太慢 和 标准 Mamba 参数冗余 的痛点!提出了一种在"隐状态"空间做混合的高效算法。

论文原文 :https://arxiv.org/pdf/2411.15241

代码:https://github.com/mlvlab/EfficientViM

即插即用代码仓库:https://github.com/AITricks/AITricks

1️⃣ 核心痛点:Attention 太慢,Mamba 还不够快

CNN:提取局部特征快,但看完全局很吃力。

ViT:能看全局,但计算量是,Token 一多直接卡死。

标准 Mamba:虽然是线性复杂度 ,但投影层的计算量依然很大,且内存访问是瓶颈。

2️⃣ 核心架构:Efficient ViM

宏观:采用 4 阶段的金字塔结构,逐步降低分辨率。

微观:引入了 HSM-SSD 模块 替代传统的 Attention 或卷积模块。

单头设计:作者发现"多头"机制在轻量级模型上会增加显存读写负担,所以改成了更高效的"单头"模式。

3️⃣ 核心创新:HSM-SSD

传统 SSD:是在庞大的 Token 序列上做通道混合,计算量大。

HSM-SSD:"曲线救国"。它先不急着混合,而是把特征压缩到极小的隐状态里,然后在隐状态空间里做混合。

效果:因为隐状态维度远小于序列长度,计算量直接暴跌,实现了"在压缩空间做昂贵运算"。

4️⃣ 增强魔法:MSF (多阶段隐状态融合)

原理:把浅层的隐状态直接传给深层。

作用:就像给模型装了"记忆体",让深层网络能回忆起图像的纹理细节,弥补了轻量级模型表征能力弱的短板。

5️⃣ 实验结果:吊打 MobileNet 和 SHVIT

速度/精度权衡:Efficient ViM-S 在精度达到 75.3% 的同时,推理延迟仅 0.6ms。

对比竞品:相比于最新的轻量级 SOTA 模型 SHVIT-S1,Efficient ViM 在相同精度下,推理速度快了 1.3 倍;相比于经典的 MobileNetV3,精度大幅提升。

总结:Efficient ViM 证明了 "隐状态操作" 是轻量级 Mamba 的正确打开方式。

#深度学习 #计算机视觉 #科研 #科研日常 #论文 #论文分享 #mamba #算法 #科研学习

相关推荐
左左右右左右摇晃1 小时前
计算机网络笔记整理
笔记·计算机网络
腾阳1 小时前
99%的人忽视了这一点:活着本身就是人生的意义,别让抑郁和内耗成为你的枷锁!
经验分享·程序人生·职场和发展·跳槽·学习方法·媒体
不吃西红柿的851 小时前
[职场] 内容运营求职简历范文 #笔记#职场发展
笔记·职场和发展·内容运营
似水明俊德2 小时前
02-C#.Net-反射-学习笔记
开发语言·笔记·学习·c#·.net
智者知已应修善业3 小时前
【51单片机独立按键控制数码管移动反向,2片74CH573/74CH273段和位,按键按下保持原状态】2023-3-25
经验分享·笔记·单片机·嵌入式硬件·算法·51单片机
C羊驼3 小时前
C语言:两天打鱼,三天晒网
c语言·经验分享·笔记·算法·青少年编程
sheeta19983 小时前
苍穹外卖Day04笔记
笔记
CC数分5 小时前
电商领域备考CDA数据分析师经验分享
经验分享·数据分析
有点傻的小可爱6 小时前
【MATLAB】新安装并口如何实现能通过PTB启用?
开发语言·windows·经验分享·matlab
今儿敲了吗7 小时前
46| FBI树
数据结构·c++·笔记·学习·算法