MambaIR:状态空间模型图像恢复的简单基线
近年来,图像恢复技术取得了长足的进步,这在很大程度上归功于现代深度神经网络的发展,如 CNN 和 Transformers。然而,现有的修复骨干往往面临全局接受域和高效计算之间的两难困境,阻碍了它们在实践中的应用。最近,选择性结构化状态空间模型,特别是改进的 Mamba 模型,在线性复杂度的长程依赖建模方面显示出了巨大的潜力,为解决上述困境提供了一条途径。然而,标准的 Mamba 在低层视觉方面仍然面临着一定的挑战,如局部像素遗忘和通道冗余。在这项工作中,我们引入了一种简单但有效的基线,称为 MambaIR,它同时引入了局部增强和通道注意来改进普通的 Mamba。
VideoMamba:高效视频理解的状态空间模型
针对视频理解中局部冗余和全局依赖的双重挑战,该工作创新性地将 Mamba 适配到视频域。提出的 VideoMamba 克服了现有 3D 卷积神经网络和视频转换器的局限性。 它的线性复杂性算子支持高效的长期建模,这对于高分辨率的长视频理解至关重要。广泛的评估揭示了 VideoMamba 的四项核心能力。
Motion Mamba:高效且长序列的运动生成
人类运动生成是生成性计算机视觉中的一个重要目标,而实现长序列和高效的运动生成仍然具有挑战性。状态空间模型(SSM)的最新进展,特别是 MAMBA,通过高效的硬件感知设计在长序列建模方面展示了相当大的前景,这似乎是在此基础上建立运动生成模型的一个有前途的方向。然而,由于缺乏专门的运动序列建模设计架构,使 SSMS 适应运动生成面临着障碍。为了应对这些多方面的挑战,我们介绍了三个关键贡献。
ReMuber:使用 Mamba Twister 参考图像分割
利用 Transformers 的参考图像分割(RIS)在复杂视觉语言任务的解释上取得了巨大的成功。然而,二次计算代价使得捕获远程视觉语言依赖关系变得困难,这对于具有长文本描述的大尺寸图像的上下文尤其重要。幸运的是, Mamba 在处理过程中以高效的线性复杂性解决了这个问题。然而,直接将 MAMBA 应用于多模式交互带来了挑战,主要是由于渠道交互不足以有效融合多模式数据。在本文中,我们提出了一种新的 RIS 体系结构,它将 Mamba 的效率与多模式 Mamba Twister 块相结合。
Mamba-ND:多维数据的选择性状态空间建模
近年来, Transformers 已经成为对文本和各种多维数据(如图像和视频)进行序列建模的事实上的架构。然而,在 Transformers 中使用自注意力层会导致令人望而却步的计算和内存复杂性。最近的一种基于状态空间模型的体系结构 Mamba 已经被证明在建模文本序列方面取得了类似的性能,同时随着序列长度的线性扩展。在这项工作中,我们提出了 Mamba-ND,这是一种将 Mamba 体系结构扩展到任意多维数据的通用设计。
VideoMamba:时空选择性状态空间模型
我们介绍 VideoMamba,这是纯 Mamba 架构的新颖改编,专为视频识别而设计。与依赖自注意机制导致二次复杂性导致高计算成本的 Transformers 不同, VideoMamba利用 Mamba 的线性复杂性和选择性的 ESM 机制来实现更高效的处理。提出的时空前向和后向的 RSM 使模型能够有效地捕捉视频中非顺序空间和顺序时间信息之间的复杂关系。因此, VideoMamba 不仅资源高效,而且在捕捉视频中的长期依赖性方面也有效,这一点在各种视频理解基准上的竞争性能和出色效率上得到了证明。
MTMamba:通过基于 Mamba 的解码器增强多任务密集场景理解
多任务密集场景理解是为多个密集预测任务学习一个模型,具有广泛的应用场景。建立远程依赖模型和增强跨任务交互是实现多任务密集预测的关键。提出了一种新的基于 Mamba 的多任务场景理解体系结构 MTMamba。 它包含两种类型的核心块:自任务 Mamba(STM)块和跨任务 Mamba(CTM)块。
ECCV 2024论文合集PDF版
由于判断依据的差异,这篇博客可能无法全面地囊括您需要的论文。
下面的资料中收录并翻译了ECCV 2024所有论文的题目与摘要,它为您扫清了语言障碍,让您能够充分地利用碎片时间、随时随地跟踪计算机视觉与模式识别领域最前沿的研究。
ECCV 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx
CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt