提示+掩膜+注意力＝Mamba三连击，跨模态任务全面超越

来gongzhonghao**【图灵学术计算机论文辅导】**，快速拿捏更多计算机SCI/CCF发文资讯～

Mamba 今年继续横扫顶刊顶会，CVPR、ICCV、IEEE TPAMI统统拿下，比如在多模态任务 中表现亮眼的扩展模型，性能全面领先同类方法。作为SSM的重要分支，它们在效率与精度平衡上优势突出，理论拓展性强，在医疗影像、视频分析 等领域应用广泛，创新空间巨大，想冲击高区的研究者可从混合架构设计和跨域适配入手探索。

本文精选了3篇前沿论文，拆解其思路、创新点，帮你一键复现、快速延伸。满满干货，点赞收藏不迷路~

Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking

**方法：**先用Patch Embedding把RGB帧和事件体素统一为Token序列，再由Prompt Generator根据两模态特征动态产生RGB提示Pr与事件提示Pe；这两个提示分别被注入到并行的Vision Mamba子网络中，在每一层的C矩阵位置相加，完成跨模态信息传播；融合后的特征经Conv-BN-ReLU跟踪头输出分类与回归结果，并辅以动态模板更新策略，在整个框架仅用30 M参数、29 FPS的条件下，在FE108、FELT V2、COESOT三大基准上均夺魁。

创新点：

首次把Vision Mamba引入RGB-Event跟踪，替代ViT，用O(L)复杂度实现全局建模。
提出Prompt Generator，用共享池+路由机制动态生成模态专属提示，引导跨模态交互而不增加参数量。
设计FEMamba骨干，在State-Space核心C矩阵上交叉注入对方模态提示，实现轻量且稳定的特征融合。

**总结：**这篇文章将"帧-事件"双模态跟踪从Transformer算力枷锁中解放，用线性复杂度Mamba实现又快又准的目标定位。

MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction

**方法：**作者先把人体模板顶点按身体部位IUV或xyz轴进行多路排序，将3D网格转成有序1D序列；随后用堆叠的Mamba块作为主干，在扩散框架中逐层去噪或在HMR框架中回归顶点坐标；训练时结合顶点、法向、边缘与拉普拉斯正则，推理阶段通过泊松融合进一步平滑，最终在单张A100上仅用30 M参数、1--4.5 s即可生成或重建完整高保真人体网格。

创新点：

提出MeshMamba，将Mamba-SSM引入3D网格任务，复杂度由O(N²)降至O(N)，可直接处理10 000+顶点。
设计基于DensePose IUV与模板坐标的多重顶点序列化策略，让SSM在关节结构先验下高效学习局部与全局形变。
构建MambaDiff3D扩散模型与Mamba-HMR单图重建框架，6--9×加速生成并首次在非参数化设置中覆盖全身、面部与手部。

**总结：**这篇文章用线性复杂度的MeshMamba一举攻破了Transformer在万级顶点3D人体网格面前的速度与显存瓶颈，首次实现实时级衣物褶皱+手部姿态的稠密重建与生成。

纠结选题？导师放养？投稿被拒？对论文有任何问题的同学，欢迎来gongzhonghao【图灵学术计算机论文辅导】，获取顶会顶刊前沿资讯~

Selective Structured State Space for Multispectral-fused Small Target Detection

**方法：**文章以线性复杂度的Mamba为主干，将可见光与红外图像经MEPF融合后送入ESTVSS骨干；ESTVSS在每个阶段先用ESTD强化局部感受野，再用CARG进行通道-空间加权过滤背景，最终由YOLOv8n检测头输出结果。

创新点：

提出MEPF模块，仅用1650个参数完成可见光-红外像素级对齐融合，兼顾细节与实时性。
设计ESTD模块，在Mamba全局建模中注入局部增强机制，精准捕获微小目标的细粒度线索。
构建CARG模块，通过通道-空间双重注意力门控，在复杂背景下显著抑制噪声并突出小目标特征。

**总结：**这篇文章用仅17 MB的轻量模型，在千像素级遥感图中把小目标检测推上81.2% mAP，同时跑出43 FPS，一举打破Transformer算力枷锁。

来gongzhonghao**【图灵学术计算机论文辅导】**，快速拿捏更多计算机SCI/CCF发文资讯～