提示+掩膜+注意力=Mamba三连击,跨模态任务全面超越

来gongzhonghao**【图灵学术计算机论文辅导】**,快速拿捏更多计算机SCI/CCF发文资讯~

Mamba 今年继续横扫顶刊顶会,CVPR、ICCV、IEEE TPAMI统统拿下,比如在多模态任务 中表现亮眼的扩展模型,性能全面领先同类方法。作为SSM的重要分支,它们在效率与精度平衡上优势突出,理论拓展性强,在医疗影像、视频分析 等领域应用广泛,创新空间巨大,想冲击高区的研究者可从混合架构设计和跨域适配入手探索

本文精选了3篇前沿论文,拆解其思路、创新点,帮你一键复现、快速延伸。满满干货,点赞收藏不迷路~

Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking

**方法:**先用Patch Embedding把RGB帧和事件体素统一为Token序列,再由Prompt Generator根据两模态特征动态产生RGB提示Pr与事件提示Pe;这两个提示分别被注入到并行的Vision Mamba子网络中,在每一层的C矩阵位置相加,完成跨模态信息传播;融合后的特征经Conv-BN-ReLU跟踪头输出分类与回归结果,并辅以动态模板更新策略,在整个框架仅用30 M参数、29 FPS的条件下,在FE108、FELT V2、COESOT三大基准上均夺魁。

创新点:

  • 首次把Vision Mamba引入RGB-Event跟踪,替代ViT,用O(L)复杂度实现全局建模。

  • 提出Prompt Generator,用共享池+路由机制动态生成模态专属提示,引导跨模态交互而不增加参数量。

  • 设计FEMamba骨干,在State-Space核心C矩阵上交叉注入对方模态提示,实现轻量且稳定的特征融合。

**总结:**这篇文章将"帧-事件"双模态跟踪从Transformer算力枷锁中解放,用线性复杂度Mamba实现又快又准的目标定位。

MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction

**方法:**作者先把人体模板顶点按身体部位IUV或xyz轴进行多路排序,将3D网格转成有序1D序列;随后用堆叠的Mamba块作为主干,在扩散框架中逐层去噪或在HMR框架中回归顶点坐标;训练时结合顶点、法向、边缘与拉普拉斯正则,推理阶段通过泊松融合进一步平滑,最终在单张A100上仅用30 M参数、1--4.5 s即可生成或重建完整高保真人体网格。

创新点:

  • 提出MeshMamba,将Mamba-SSM引入3D网格任务,复杂度由O(N²)降至O(N),可直接处理10 000+顶点。

  • 设计基于DensePose IUV与模板坐标的多重顶点序列化策略,让SSM在关节结构先验下高效学习局部与全局形变。

  • 构建MambaDiff3D扩散模型与Mamba-HMR单图重建框架,6--9×加速生成并首次在非参数化设置中覆盖全身、面部与手部。

**总结:**这篇文章用线性复杂度的MeshMamba一举攻破了Transformer在万级顶点3D人体网格面前的速度与显存瓶颈,首次实现实时级衣物褶皱+手部姿态的稠密重建与生成。

纠结选题?导师放养?投稿被拒?对论文有任何问题的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】,获取顶会顶刊前沿资讯~

Selective Structured State Space for Multispectral-fused Small Target Detection

**方法:**文章以线性复杂度的Mamba为主干,将可见光与红外图像经MEPF融合后送入ESTVSS骨干;ESTVSS在每个阶段先用ESTD强化局部感受野,再用CARG进行通道-空间加权过滤背景,最终由YOLOv8n检测头输出结果。

创新点:

  • 提出MEPF模块,仅用1650个参数完成可见光-红外像素级对齐融合,兼顾细节与实时性。

  • 设计ESTD模块,在Mamba全局建模中注入局部增强机制,精准捕获微小目标的细粒度线索。

  • 构建CARG模块,通过通道-空间双重注意力门控,在复杂背景下显著抑制噪声并突出小目标特征。

**总结:**这篇文章用仅17 MB的轻量模型,在千像素级遥感图中把小目标检测推上81.2% mAP,同时跑出43 FPS,一举打破Transformer算力枷锁。

来gongzhonghao**【图灵学术计算机论文辅导】**,快速拿捏更多计算机SCI/CCF发文资讯~

相关推荐
jooloo15 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户51914958484515 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
小小杨树15 小时前
读懂色彩:拍照调色不再难
算法·计算机视觉·配色
用户51914958484516 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户0183493016916 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气20 小时前
Function Calling 格式漂移
人工智能
onething36520 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething36520 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒21 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯1 天前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek