双剑合璧：融合视觉基础与语言模型，勇闯未知领域的语义分割新框架

近期，视觉基础模型和视觉语言模型的出现，成为实现多领域泛化的重要工具。一些研究通过引入参数高效微调的方法，有效地将这些基础模型适配到领域泛化语义分割任务中。

此外，也有部分工作利用扩散模型生成多样化风格的图像，用于训练更具泛化能力的分割模型。尤其是视觉语言模型，凭借文本嵌入提供的语义和领域不变特性，在多域泛化中表现出优异能力，进一步推动了图像分类和语义分割领域的发展。

然而，目前针对视觉基础模型与视觉语言模型在领域泛化语义分割背景下具体差异的系统性探讨仍较为有限。为了结合文本与图像对齐的问题，本文总结了四类相关文献，并加以分析和归纳。

优点与创新:

1.我们提出了一种新型融合框架 MFuser，能够协同任意组合的视觉基础模型（VFM）和视觉语言模型（VLM）用于领域泛化语义分割（DGSS），在不引入显著计算开销的前提下，整合二者的优势。

2.我们设计了 MVFuser，一个基于Mamba结构的联合适配器，支持VFM和VLM的联合微调，弥合两种模型之间的差异，并增强它们的互补特征交互。同时，我们提出了 MTEnhancer，一个混合Attention-Mamba模块，用视觉先验细化文本嵌入，确保卓越的跨模态一致性与稳健对齐效果。

3.大量实验表明，所提出的MFuser在多个领域泛化语义分割基准上均显著超越现有先进方法，在合成到真实（synthetic-to-real）和真实到真实（real-to-real）任务中，分别取得了68.20%的mIoU和71.87%的mIoU成绩。

优点与创新:

1.打破了以往对小尺寸普通Transformer模型（Plain ViT）性能的低估，证明即便是小规模模型，也能在充分预训练后达到非常强的性能。

2.借鉴了语言模型中最新的纯Transformer设计思想（如更合理的深度、宽度、归一化策略等），进一步优化视觉Transformer的表现。

使用基于EVA-CLIP的大规模公开数据，通过掩码图像建模（MIM）方式进行深度预训练，提升了模型的表征能力，尤其在小数据或零样本（zero-shot）场景下表现突出。
在仅使用约1/6参数量和训练数据量的情况下，EVA-02在零样本任务中超越了此前最大的开源CLIP模型，显著提升了小模型在少量资源条件下的实用性。
不仅在分类任务（如ImageNet-1K）上取得优异成绩，还在目标检测、实例分割（COCO、LVIS）和语义分割（COCO-stuff-164K、ADE20K）等任务上刷新了多个基准指标。

优点与创新:

在诸如复制（copying）和归纳头（induction heads）等关键合成任务上，这些任务被认为是大型语言模型的重要能力指标，Mamba不仅能够轻松完成，而且能将解决方案无限外推到超过100万tokens的超长序列上。
在建模音频波形和DNA序列方面，Mamba在预训练质量和下游任务指标上均超越了以往最先进的模型，如SaShiMi、Hyena和Transformers（例如，在一个具有挑战性的语音生成数据集上，将FID指标降低了一半以上）。在这两个领域中，Mamba的性能会随着序列长度的增加持续提升，支持长达百万级tokens的上下文建模。
Mamba是第一个真正实现Transformer级别性能的线性时间序列模型，无论是在预训练困惑度（perplexity）还是下游评测中都达到了这一标准。通过扩展到10亿参数规模的训练，我们展示了Mamba在各项指标上超越了大量基线方法，包括基于现代强力Transformer训练策略（如LLaMa）的模型。Mamba语言模型在生成速度上比同规模的Transformer快5倍，而Mamba-3B模型在常识推理等任务上的质量得分，比Pythia-3B高出4分，甚至超过了Pythia-7B的性能，显示了极强的规模效能优势。

优点与创新:

1.我们提出了VMamba，一种基于状态空间模型（SSM）的视觉骨干网络，用于视觉表征学习，具有线性时间复杂度。通过一系列架构和实现上的改进，进一步提升了VMamba的推理速度。

2.我们引入了二维选择性扫描（2D Selective Scan, SS2D），用于连接一维数组扫描与二维平面遍历，从而实现选择性SSM在处理视觉数据中的扩展应用。

3.VMamba在多种视觉任务中展现了优异的性能，包括图像分类、目标检测和语义分割。同时，它对于输入序列长度展现出了出色的适应性，计算复杂度随着序列长度呈线性增长。