【计算机视觉前沿研究 热点 顶会】ECCV 2024中Mamba有关的论文

MambaIR:状态空间模型图像恢复的简单基线

近年来,图像恢复技术取得了长足的进步,这在很大程度上归功于现代深度神经网络的发展,如 CNN 和 Transformers。然而,现有的修复骨干往往面临全局接受域和高效计算之间的两难困境,阻碍了它们在实践中的应用。最近,选择性结构化状态空间模型,特别是改进的 Mamba 模型,在线性复杂度的长程依赖建模方面显示出了巨大的潜力,为解决上述困境提供了一条途径。然而,标准的 Mamba 在低层视觉方面仍然面临着一定的挑战,如局部像素遗忘和通道冗余。在这项工作中,我们引入了一种简单但有效的基线,称为 MambaIR,它同时引入了局部增强和通道注意来改进普通的 Mamba。

VideoMamba:高效视频理解的状态空间模型

针对视频理解中局部冗余和全局依赖的双重挑战,该工作创新性地将 Mamba 适配到视频域。提出的 VideoMamba 克服了现有 3D 卷积神经网络和视频转换器的局限性。 它的线性复杂性算子支持高效的长期建模,这对于高分辨率的长视频理解至关重要。广泛的评估揭示了 VideoMamba 的四项核心能力。

Motion Mamba:高效且长序列的运动生成

人类运动生成是生成性计算机视觉中的一个重要目标,而实现长序列和高效的运动生成仍然具有挑战性。状态空间模型(SSM)的最新进展,特别是 MAMBA,通过高效的硬件感知设计在长序列建模方面展示了相当大的前景,这似乎是在此基础上建立运动生成模型的一个有前途的方向。然而,由于缺乏专门的运动序列建模设计架构,使 SSMS 适应运动生成面临着障碍。为了应对这些多方面的挑战,我们介绍了三个关键贡献。

ReMuber:使用 Mamba Twister 参考图像分割

利用 Transformers 的参考图像分割(RIS)在复杂视觉语言任务的解释上取得了巨大的成功。然而,二次计算代价使得捕获远程视觉语言依赖关系变得困难,这对于具有长文本描述的大尺寸图像的上下文尤其重要。幸运的是, Mamba 在处理过程中以高效的线性复杂性解决了这个问题。然而,直接将 MAMBA 应用于多模式交互带来了挑战,主要是由于渠道交互不足以有效融合多模式数据。在本文中,我们提出了一种新的 RIS 体系结构,它将 Mamba 的效率与多模式 Mamba Twister 块相结合。

Mamba-ND:多维数据的选择性状态空间建模

近年来, Transformers 已经成为对文本和各种多维数据(如图像和视频)进行序列建模的事实上的架构。然而,在 Transformers 中使用自注意力层会导致令人望而却步的计算和内存复杂性。最近的一种基于状态空间模型的体系结构 Mamba 已经被证明在建模文本序列方面取得了类似的性能,同时随着序列长度的线性扩展。在这项工作中,我们提出了 Mamba-ND,这是一种将 Mamba 体系结构扩展到任意多维数据的通用设计。

VideoMamba:时空选择性状态空间模型

我们介绍 VideoMamba,这是纯 Mamba 架构的新颖改编,专为视频识别而设计。与依赖自注意机制导致二次复杂性导致高计算成本的 Transformers 不同, VideoMamba利用 Mamba 的线性复杂性和选择性的 ESM 机制来实现更高效的处理。提出的时空前向和后向的 RSM 使模型能够有效地捕捉视频中非顺序空间和顺序时间信息之间的复杂关系。因此, VideoMamba 不仅资源高效,而且在捕捉视频中的长期依赖性方面也有效,这一点在各种视频理解基准上的竞争性能和出色效率上得到了证明。

MTMamba:通过基于 Mamba 的解码器增强多任务密集场景理解

多任务密集场景理解是为多个密集预测任务学习一个模型,具有广泛的应用场景。建立远程依赖模型和增强跨任务交互是实现多任务密集预测的关键。提出了一种新的基于 Mamba 的多任务场景理解体系结构 MTMamba。 它包含两种类型的核心块:自任务 Mamba(STM)块和跨任务 Mamba(CTM)块。

ECCV 2024论文合集PDF版

由于判断依据的差异,这篇博客可能无法全面地囊括您需要的论文。

下面的资料中收录并翻译了ECCV 2024所有论文的题目与摘要,它为您扫清了语言障碍,让您能够充分地利用碎片时间、随时随地跟踪计算机视觉与模式识别领域最前沿的研究。

ECCV 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

相关推荐
搞科研的小刘选手1 天前
【厦门大学主办】第六届计算机科学与管理科技国际学术会议(ICCSMT 2025)
人工智能·科技·计算机网络·计算机·云计算·学术会议
fanstuck1 天前
深入解析 PyPTO Operator:以 DeepSeek‑V3.2‑Exp 模型为例的实战指南
人工智能·语言模型·aigc·gpu算力
萤丰信息1 天前
智慧园区能源革命:从“耗电黑洞”到零碳样本的蜕变
java·大数据·人工智能·科技·安全·能源·智慧园区
世洋Blog1 天前
更好的利用ChatGPT进行项目的开发
人工智能·unity·chatgpt
serve the people1 天前
机器学习(ML)和人工智能(AI)技术在WAF安防中的应用
人工智能·机器学习
0***K8921 天前
前端机器学习
人工智能·机器学习
陈天伟教授1 天前
基于学习的人工智能(5)机器学习基本框架
人工智能·学习·机器学习
m0_650108241 天前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
zandy10111 天前
2025年11月AI IDE权深度测榜:深度分析不同场景的落地选型攻略
ide·人工智能·ai编程·ai代码·腾讯云ai代码助手
欢喜躲在眉梢里1 天前
CANN 异构计算架构实操指南:从环境部署到 AI 任务加速全流程
运维·服务器·人工智能·ai·架构·计算