提示+掩膜+注意力=Mamba三连击,跨模态任务全面超越

来gongzhonghao**【图灵学术计算机论文辅导】**,快速拿捏更多计算机SCI/CCF发文资讯~

Mamba 今年继续横扫顶刊顶会,CVPR、ICCV、IEEE TPAMI统统拿下,比如在多模态任务 中表现亮眼的扩展模型,性能全面领先同类方法。作为SSM的重要分支,它们在效率与精度平衡上优势突出,理论拓展性强,在医疗影像、视频分析 等领域应用广泛,创新空间巨大,想冲击高区的研究者可从混合架构设计和跨域适配入手探索

本文精选了3篇前沿论文,拆解其思路、创新点,帮你一键复现、快速延伸。满满干货,点赞收藏不迷路~

Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking

**方法:**先用Patch Embedding把RGB帧和事件体素统一为Token序列,再由Prompt Generator根据两模态特征动态产生RGB提示Pr与事件提示Pe;这两个提示分别被注入到并行的Vision Mamba子网络中,在每一层的C矩阵位置相加,完成跨模态信息传播;融合后的特征经Conv-BN-ReLU跟踪头输出分类与回归结果,并辅以动态模板更新策略,在整个框架仅用30 M参数、29 FPS的条件下,在FE108、FELT V2、COESOT三大基准上均夺魁。

创新点:

  • 首次把Vision Mamba引入RGB-Event跟踪,替代ViT,用O(L)复杂度实现全局建模。

  • 提出Prompt Generator,用共享池+路由机制动态生成模态专属提示,引导跨模态交互而不增加参数量。

  • 设计FEMamba骨干,在State-Space核心C矩阵上交叉注入对方模态提示,实现轻量且稳定的特征融合。

**总结:**这篇文章将"帧-事件"双模态跟踪从Transformer算力枷锁中解放,用线性复杂度Mamba实现又快又准的目标定位。

MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction

**方法:**作者先把人体模板顶点按身体部位IUV或xyz轴进行多路排序,将3D网格转成有序1D序列;随后用堆叠的Mamba块作为主干,在扩散框架中逐层去噪或在HMR框架中回归顶点坐标;训练时结合顶点、法向、边缘与拉普拉斯正则,推理阶段通过泊松融合进一步平滑,最终在单张A100上仅用30 M参数、1--4.5 s即可生成或重建完整高保真人体网格。

创新点:

  • 提出MeshMamba,将Mamba-SSM引入3D网格任务,复杂度由O(N²)降至O(N),可直接处理10 000+顶点。

  • 设计基于DensePose IUV与模板坐标的多重顶点序列化策略,让SSM在关节结构先验下高效学习局部与全局形变。

  • 构建MambaDiff3D扩散模型与Mamba-HMR单图重建框架,6--9×加速生成并首次在非参数化设置中覆盖全身、面部与手部。

**总结:**这篇文章用线性复杂度的MeshMamba一举攻破了Transformer在万级顶点3D人体网格面前的速度与显存瓶颈,首次实现实时级衣物褶皱+手部姿态的稠密重建与生成。

纠结选题?导师放养?投稿被拒?对论文有任何问题的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】,获取顶会顶刊前沿资讯~

Selective Structured State Space for Multispectral-fused Small Target Detection

**方法:**文章以线性复杂度的Mamba为主干,将可见光与红外图像经MEPF融合后送入ESTVSS骨干;ESTVSS在每个阶段先用ESTD强化局部感受野,再用CARG进行通道-空间加权过滤背景,最终由YOLOv8n检测头输出结果。

创新点:

  • 提出MEPF模块,仅用1650个参数完成可见光-红外像素级对齐融合,兼顾细节与实时性。

  • 设计ESTD模块,在Mamba全局建模中注入局部增强机制,精准捕获微小目标的细粒度线索。

  • 构建CARG模块,通过通道-空间双重注意力门控,在复杂背景下显著抑制噪声并突出小目标特征。

**总结:**这篇文章用仅17 MB的轻量模型,在千像素级遥感图中把小目标检测推上81.2% mAP,同时跑出43 FPS,一举打破Transformer算力枷锁。

来gongzhonghao**【图灵学术计算机论文辅导】**,快速拿捏更多计算机SCI/CCF发文资讯~

相关推荐
蓝桉8024 分钟前
opencv学习(视频读取)
人工智能·opencv·学习
Hcoco_me14 分钟前
具身智能 && 自动驾驶相关岗位的技术栈与能力地图
人工智能·机器学习·自动驾驶
cosX+sinY15 分钟前
10 卷积神经网络
python·深度学习·cnn
草莓熊Lotso41 分钟前
【数据结构初阶】--排序(一):直接插入排序,希尔排序
c语言·数据结构·经验分享·其他·排序算法
yinyan131441 分钟前
一起学springAI系列一:初体验
java·人工智能·ai
亦世凡华、1 小时前
React--》实现 PDF 文件的预览操作
经验分享·pdf·react·pdf预览
CodeShare1 小时前
多模态统一框架:基于下一帧预测的视频化方法
深度学习·计算机视觉·多模态学习
一只鹿鹿鹿1 小时前
【网络安全】信息网络安全建设方案(WORD)
人工智能·安全·spring·web安全·低代码
小拇指~1 小时前
梯度下降的基本原理
人工智能·算法·计算机视觉
AndrewHZ2 小时前
【图像处理基石】如何对遥感图像进行实例分割?
图像处理·人工智能·python·大模型·实例分割·detectron2·遥感图像分割