多模态理解-梳理近6个月最新进展

挑选了近3-6个月的多模态理解相关文献，并概括了创新点。适合同学们快速过一遍，挑选自己感兴趣的文献进行精读~

多模态大语言模型进展的时间线 ：

1.什么是多模态：多模态指的是数据或者信息的多种表现形式：Verbal(文本)、Vocal(语音) 和 Visual(视觉)

2.多模态大语言模型：多模态大模型是指在一个统一的框架下，集成了多种不同类型数据处理能力的大型神经网络模型。这些模型能够处理图像、文本、音频等不同的数据模态，并在这些模态之间进行有效的交互和信息整合。与传统的单模态模型相比，多模态大模型更加灵活和全面，能够更好地模拟人类对于不同感知模态信息的整合和理解能力。

3.多模态理解 分为三个模块：模态编码器，输入映射模块，大语言模型 （多模态包括多模态理解和多模态生成，本文不涉及多模态生成）

模态编码器（The Modality Encoder） 对来自不同模态的输入Ix进行编码，以获得相应的编码特征Fx。常用的视觉编码器是ViT视觉编码器。
输入映射模块（Input Projector） 将其他模态的编码特征Fx与文本特征空间T对齐，用于后续作为Prompt输入进大模型。
大语言模型（Large Language Model） 作为核心代理负责处理来自不同模态的表示，参与关于输入的语义理解、推理和决策，最终产生文本输出和来自其他模态的信号标记，这些信号标记指导后面的模态生成器生成内容。多模态大模型（MultiModal Large Language Models, MM-LLMs）可以继承大模型的零样本泛化、少样本上下文学习（In-Context Learning, ICL）、思维链（Chain-of-Thought, CoT）和指令跟随（Instruction Following）能力。

4.模态编码器最新进展：

1）LLaVA-NeXT: Improved reasoning, OCR, and world knowledge [Jan 30, 2024]

创新点 ：为了提高ViT视觉编码器的分辨率，以前的方法大多选择基于位置嵌入的插值方法，需要微调期间使ViT预训练模型适应新的分辨率。传统方法缺点：需要大规模的图像-文本配对数据集上对模型进行微调，而且图像的分辨率限制在LMM在推理过程中可以接受的固定大小。如下图所示，本工作提出LLaVA-1.5-HD，主要创新方法是将图像分割成更小的图像块，这些图像块的分辨率是视觉编码器最初训练的分辨率，然后对它们进行独立编码。在生成单个图像块的特征图后将它们组合成目标分辨率的单个大特征图，并将其输入LLM。该方法可以将输入扩展到任何任意分辨率并保持数据效率，将输入图像分辨率提高到4倍以上；支持三种纵横比，最高分辨率为672x672、336x1344和1344x336；更好的视觉推理和OCR功能和更多场景的可视化对话。

2）How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [29 Apr 2024 ]

创新点 ：①目前视觉编码器ViT使用的预训练数据集是从互联网上抓取的大多是低分辨率图片，所以处理高分辨率图片相关的任务时性能会下降。该工作为视觉编码器基础模型InternViT-6B探索了一种持续学习策略，使用高质量图片和OCR数据集对视觉编码器和输入映射层的参数进行持续预训练，增强了其鲁棒性，OCR能力和高分辨率图片处理等视觉理解能力，并且还可以在不同的LLM中转移和重用。②动态高分辨率：为了在图片处理过程保持原始的纵横比，该工作从预定义的纵横比率中动态匹配最接近的纵横比，将图像划分为448×448像素的区块，并且为全局上下文创建缩略图。这种方法根据输入图像的纵横比和分辨率进行动态匹配，最大限度地减少了纵横比失真，并在训练过程中自动适应不同的分辨率输入。

3）AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention [18 Jun 2024]

创新点 ：大视觉语言模型仍普遍面临着对象幻觉的问题，即生成的文本响应与给定图像中的真实对象不一致。该工作指出对有判别能力的局部图像特征的注意力不足是对象幻觉的根本原因之一。具体而言，LVLMs主要关注与提示无关的全局图像特征，而未能捕捉到与提示相关的局部特征，从而削弱了LVLMs的视觉基础能力并导致幻觉。该工作提出一种全局和局部注意力集成方法（AGLA），这是一种无需训练的即插即用方法，同时探索了用于对输入反应而生成的全局特征和用于视觉识别的局部特征的集成方法来缓解对象幻觉。该方法是一种图像提示匹配策略，如下图所示。该策略从图像中捕获与提示相关的局部特征，从而获得输入图像的增强视图，其中保留了与提示相关内容，同时屏蔽了不相关的干扰。对于增强视图，可以通过集成来自原始图像的生成全局特征和来自增强图像的判别局部特征来导出校准的解码分布。实验表明，AGLA在各种判别和生成基准中一致地减轻了物体幻觉，并增强了LVLMs的总体感知能力。

5.输入映射模块最新进展：

1）MobileVLM V2: Faster and Stronger Baseline for Vision Language Model [ 6 Feb 2024]

创新点 ：受MobileVLM的下采样投影模块（LDP）设计的启发，本工作引入了一种新的输入映射模块，以更少的参数实现更好的视觉语言特征对齐。MobileVLM V2的整体架构如下图所示，它包括一个预训练的视觉编码器，用于提取图像特征；一个预培训的大型语言模型MobileLLaMA，用于处理多模态token并生成最终答案；以及一个轻量级下采样投影仪（LDPv2），用于将图像特征与语言模型对齐。首先在图像标记上使用两个逐点卷积层来匹配LLM的特征维度。然后引入一个平均池化层来极大地压缩图像标记的数量。最后应用具有跳跃连接的，简单有效的PEG模块来增强位置信息。与LDP相比，该定位部件效率更高，参数数量减少了99.8%，运行速度更快；而且便于部署，因为它由主流推理框架支持的运算符组成。

2）LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment [3 Oct 2023]

创新点 ：目前的VL预训练框架很难扩展到视觉和语言之外的多种模式（N种模式，N>=3），本工作把文本模态作为跨模态的纽带，冻结VL预训练获得的语言编码器，然后通过对比学习为其他模态训练编码器，最终将所有模态都映射到一个共享的特征空间，实现了多模态语义对齐。LanguageBind方法如下图：语言编码器参数被冻结，而多模式的编码器参数可以使用LoRA技术进行调整。通过在语言和其他模态之间进行对比学习，LanguageBind成功地实现了多模态联合学习，从而促进不同模式之间的语义对齐。

3）VideoLLaMA 2 Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs [11 Jun 2024]

创新点 ：该工作提出了VideoLLaMA2，旨在增强面向视频和音频的任务中的时空建模和音频理解。VideoLLaMA 2在其前身的基础上，引入一个时空卷积（Spatial-Temporal Convolution, STC）连接器，可以有效地捕捉视频数据复杂的时空动态特征。另外，我们通过联合训练将音频分支特征集成到模型中，通过无缝合并音频线索来丰富模型的多模式理解能力。VideoLLaMA 2的整体流程如下图。对于视觉分支，视频被视觉编码器逐帧编码，再通过STC连接器生成特征，最后输入到一个大型语言模型中，以基于文本提示生成响应。对于音频分支，首先将音频信号转换为对数MEL声谱图，再编码提取听觉特征，然后通过多层感知器（MLP）块来处理这些特征，以将音频模态与大型语言模型对准。对多项选择视频问答（MC-VQA）、开放式视频问答（OE-VQA）和视频字幕（VC）任务的综合评估表明，VideoLLaMA2在开源模型中都能取得有竞争力的结果，甚至在几个基准上接近一些专有模型。此外，与现有模型相比，VideoLLaMA 2在纯音频和音频视频问答（AQA&OE-AVQA）基准方面表现出合理的改善。这些进步突出了VideoLLaMA2在多模式理解方面的卓越性能，为智能视频分析系统树立了新标准。

6.大语言模型最新进展：

1）VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization [12 Feb 2024]

创新点 ：当前的MMLMs在多模式任务中表现出令人印象深刻的零样本能力，但它们的性能在很大程度上取决于指令的质量。VisLingInstruction通过上下文学习自主评估和优化教学文本来提高指令质量，提高MMLMs中视觉感知和语言表达之间的协同作用。该工作提出的指令比较优化方法如下图所示：通过比较优化，处理初始指令和重写指令以生成优化指令，并被用于MMLM中的答案生成。

2）Beyond Embeddings: The Promise of Visual Table in Visual Reasoning [27 Mar 2024]

创新点 ：尽管CLIP类型的视觉嵌入方法取得了成功，但它们往往缺乏对视觉推理至关重要的世界知识。这项工作提出了为视觉推理量身定制的新型视觉表示形式：视觉表（Vision Table），具有场景描述和多个以对象为中心的描述，这些描述涵盖了类别、属性和知识。视觉表比单纯的视觉嵌入提供了独特的优势，如可解释性和可控编辑，并且可以一定的粒度（如实例级的世界知识）和丰富性（如各种形式的语言和属性）提取视觉知识。这些知识和属性对视觉推理至关重要。创建视觉表的方法如下图。左图：设计专门的提示词来小范围收集图像的视觉表注释。这些注释用于训练我们的视觉表生成器（Visual Table Generator），该生成器由一个被冻结参数的视觉编码器、视觉语言连接器和一个预训练的LLM组成。中图：视觉表生成器用于为下游任务中的图像生成视觉表格，将生成的可视化表作为独立的或附加的可视化表示，输入LLM执行推理并输出文本响应。右图：在不同的测试基准上，生成的视觉表都显著提高多模态大型语言模型的能力。

3）Cantor : Inspiring Multimodal Chain-of-Thought of MLLM [24 Apr 2024]

创新点 ：由于视觉信息不足和低级感知工具的限制，传统的思维链（CoT）范式面临着决策中潜在的"确定幻觉"的挑战，因为这些工具无法提供全面推理所需的抽象摘要。该工作深入研究了多模态的CoT领域，利用多模态大语言模型（MLLM）及其认知能力来解决复杂的视觉推理任务。为此，我们提出了一种创新的多模式CoT框架：Cantor。Cantor首先充当决策生成器，并集成视觉输入来分析图像和问题，确保与实际环境更加一致。此外，Cantor利用MLLMs的高级认知功能，可以作为多方面的专家来获得更高层级的信息，增强CoT的生成过程。下图展示了Cantor框架流程：左图：Cantor通过决策生成器（Decision Generator）分析图像和问题，提供问题的原理分析，并提供模块选择和理由，以及具体的任务分配。随后，MLLM充当各种专家模块（Expert Modules）来执行子任务。最后，Cantor通过答案生成器（Answer Generator）进行综合和思考，提供最终答案。右图：比较了GPT3.5和Cantor决策的视觉信息以及不同视觉工具获取的感知数据，大量实验表明Cantor的有效性，显示出在复杂的视觉推理数据集上多模态CoT性能的显著提高，而无需进行微调或基本事实依据。

4）Visual In-Context Learning for Large Vision-Language Models [18 Feb 2024]

创新点 ：在大型视觉语言模型（LVLMs）中，上下文学习（ICL）的有效性仍然受到跨模态交互和表征差异的限制。为了克服这些限制，我们介绍了一种新的视觉上下文学习（VICL）方法，包括视觉演示检索、面向意图的图像摘要和面向意图的演示合成。我们的方法通过"检索和重新排序"范式检索图像，总结具有任务意图和特定任务视觉解析的图像，并编写基于文字语言的演示，以减少token数量并缓解跨模态交互问题。VICL在五个视觉推理数据集上的实验评估证明了其有效性。下图是视觉上下文学习（VICL）方法概述。视觉编码器（Visual Encoder）用于对图像进行编码以供检索，CLIP用于图像和字幕的跨模态重新排序；LVLM用于为输入图像生成字幕，生成面向意图的图像摘要，并根据合成的提示生成答案。

该篇博文参考了最新多模态综述：

1.MM-LLMs: Recent Advances in MultiModal Large Language Models 2.github.com/BradyFU/Awe...