Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models论文解读

文章目录

前言
一、摘要
二、引言
三、文献
四、模型方法与结果
- [1、Dual Vision Encoders](#1、Dual Vision Encoders)
- [3、Patch Info Mining](#3、Patch Info Mining)
- [4、Text and Image Generation](#4、Text and Image Generation)
- - [1、Text-image Instructions](#1、Text-image Instructions)
  - [2、Generation-related Instructions](#2、Generation-related Instructions)
五、实验结果
六、总结

前言

随着大型语言模型（LLMs）的快速发展，将多模态输入的强大能力融入视觉语言模型（VLMs）已成为当前模型的核心部分。为了弥合模态鸿沟，已有研究尝试将视觉与LLMs结合，从图像到视频都有涉及。尽管取得了进步，但学术界的努力与GPT-4和Gemini等成熟模型的强大性能之间仍存在显著差距，这些模型是基于大量数据和资源训练的。基于此，Mini-Gemini论文通过高分辨率、高质量数据和结合生成模型(high-resolution visual tokens, high-quality data, and VLMguided generation)，实现多模态任务与生成任务，也就是论文说任何到任何输入输出(any to any)，而至于模型较小是采用gemma的2b作为LLM语言模型。介于此，我将解读本篇论文，供读者参考。

论文地址：https://arxiv.org/pdf/2403.18814.pdf

代码github:https://github.com/dvlab-research/MiniGemini

demo位置：http://103.170.5.190:7860/

一、摘要

在这项工作中，我们介绍了Mini-Gemini，这是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs）。尽管VLMs在促进基本视觉对话和推理方面取得了进展，但与GPT-4和Gemini等先进模型相比仍存在绩效差距。我们尝试通过挖掘VLMs的潜力，从高分辨率视觉tokens、高质量数据和VLM引导生成的三个方面，缩小这一差距。为了增强视觉token，我们提出利用额外的视觉编码器进行高分辨率特征提炼，而不增加视觉token数量。我们进一步构建了一个高质量数据集，促进了对图像的精确理解和基于推理的生成，扩大了VLMs的任务范围(指生成任务)。总的来说，Mini-Gemini进一步挖掘了VLMs的潜力，并同时赋予现有框架图像理解、推理和生成的能力。Mini-Gemini支持从2B到34B的一系列密集和MoE大型语言模型（LLMs）。已经证明在几个零样本基准测试中取得了领先的表现，甚至超过了已开发的未公开模型。

注：干了三件事，其一高分辨率增强视觉特征提取；其二高质量数据合并；其三通过指令实现生成任务。

二、引言

随着大型语言模型（LLMs）的快速发展，为多模态输入给了令人深刻印象，正成为当前视觉语言模型（VLMs）的重要组成部分。为了弥合模态差距，已经进行了几项研究，将视觉与语言模型LLMs结合起来，从图像到视频领域。尽管取得了这些进展，但在学术研究模型与像GPT-4和Gemin成熟模型仍然存在显著差距gap，然后者模型经过大量数据和资源的训练。

对于视觉本身，尽管周围环境导致很小视觉幻觉，而图像分辨率是核心部分。为此，研究者通过一些尝试来进一步提高当前VLMs的视觉理解。例如，LLaVA-Next和Otter-HD提出了通过提高图像分辨率来增强能力的方法，他们是基于之前工作的[7，13]，使用更高分辨率图像，增加视觉tokens数量，无疑会丰富视觉特征嵌入LLMs中。然而，这种改进随着计算需求和相关成本的提升而增加，特别是在处理多个图像情景。此外，现有的数据质量、模型能力和应用范围仍然不足以加速训练和进一步发展。这种情况引发了一个关键的问题：如何在学术环境中以可接受的成本推动VLMs接近成熟模型？

为了回答这个问题，我们从三个方面探索了VLMs的潜力，即有效的高分辨率视觉、高质量的数据和扩展应用范围(生成能力)。首先，我们利用ConvNet有效地生成更高分辨率的候选candidates，从而维持tokens情况下增强视觉细节visual detail。为了获得高质量数据，我们从更多公开数据集获取，并合并成高质量的数据集，确保了丰富和多样化的数据基础。此外，我们的方法将这些增强与尖端的LLMs和生成模型相结合，旨在提升VLMs的性能和用户体验。这种多方面的策略使我们能够深入挖掘VLMs的能力，在可管理的资源约束下取得重大进展。

总的来说，我们的方法采用了任意到任意的范式，熟练处理图像和文本输入和输出。特别是，我们为输入图像引入了一个高效的视觉token增强pipeline，其特点是双路径编码系统。它包括两个编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入，反映了Gemini系列的合作功能。在推断期间，它们在注意机制中工作，其中低分辨率编码器生成视觉查询，而高分辨率对应提供候选键和值供参考。为了增强数据质量，我们根据公共资源收集和生成更多数据，包括高质量的响应、任务导向的指令和生成相关的数据。增加的数量和质量，提高了整体性能，并扩展了模型的能力。此外，我们的模型的LLM使用多个领先的LLM模型和生成模型，提高VLM性能与用户体验。

Mini-Gemini框架可以轻松实例化为一系列参数规模从2B到34B的LLMs，详细说明见第3节。在第4节中进行了大量的实证研究，以揭示所提方法的有效性。值得注意的是，我们的方法在各种设置中都取得了领先的性能，甚至在复杂的MMB和MMU数据集中超过了成熟的Gemini Pro、Qwen-VL-Plus和GPT 4V，这些结果突显了Mini-Gemini在VLM领域设立新的基准的潜力，并突出了其在处理复杂的多模态任务中的先进能力。

三、文献

1、大语言模型文献

大型语言模型。最近自然语言处理（NLP）领域的进展在很大程度上得益于大型语言模型（LLMs）的发展。Transformer框架的重要引入作为一个里程碑，掀起一波新的语言模型浪潮，如BERT和OPT等，使这些模型展现出深刻的语言理解能力。生成式预训练Transformer（GPT）的出现引入了一个新的范式，通过自回归语言建模在语言预测和生成方法中建立了一种稳定范式。像ChatGPT、GPT-4、LLaMA和Mixtral等模型的出现进一步展示了该领域的快速发展，每个模型都在复杂语言处理任务上表现出色，归功于它们在大量文本数据集上的训练。指令调优instruction tuning已经成为关键技术对于fituneLLMs模型，该技术已在开源模型Alpaca和Vicuna的应用中被证明。它们通过自定义指令集迭代改进LLaMA。此外，LLMs与特定的视觉任务工具的集成突显了它们的适应性和广泛应用潜力，强调了LLMs在扩展到超越传统文本处理，包括多模态交互方面的实用性。在这项工作中，我们以几个预训练LLMs作为基准，并在其基础上构建多模态框架，以进一步扩展其令人印象深刻的推理能力。

2、视觉语言模型文献

视觉语言模型。计算机视觉和自然语言处理的融合催生了VLMs，将视觉和语言模型相结合，实现了跨模态理解和推理能力。这种整合在推动需要同时具备视觉理解和语言处理的任务方面发挥了关键作用，如通过在多样化数据集上进行训练的模型所证实的[37]和[16, 38, 39]。开创性的模型如CLIP进一步缩小了语言模型和视觉任务之间的差距，展示了跨模态应用的可行性。最近的发展强调了在VLM领域内利用LLMs强大能力的不断增长的趋势。像Flamingo和BLIP-2这样的创新利用了大量的图像文本对来优化跨模态对齐，显著提高了学习效率。在这些进展的基础上，一些模型专注于生成基于BLIP-2的高质量指令数据，从而实现了性能的显著提升。此外，LLaVA采用了简单的线性投影器来促进图像文本空间的对齐，参数少，利用定制的指令数据，展示了一种高效的策略，彰显了模型的强大能力。与它们不同，我们旨在探索理解和生成的潜力。

3、LLM作为生成助手文献

LLM作为生成助手。将LLMs与图像输出相结合已成为最近多模态研究的一个潜在领域。像InternLM-XComposer这样的方法利用图像检索产生交替的文本和图像输出，绕过直接生成。相反，自动回归token预测方法，像EMU和SEED通过大量的图像文本数据使LLMs能够直接解码图像。这些方法需要大量的训练资源，而它们的自回归属性导致不可取的延迟。最近的研究力求与潜在扩散模型相一致，以简化图像生成。它们通常需要设计文本嵌入和额外的优化来实现期望的生成效果。这种联合训练可能会影响VLMs在文本生成方面的性能。Mini-Gemini通过采用文本数据驱动的方法，在不影响VLMs基本性能的情况下，使模型能够生成高质量的图像。我们利用了仅有的13K纯文本数据激活了LLMs作为高质量重新标题化器的能力，而不会削弱VLMs的基本性能。
注：它不是联合训练实现生成任务，而是在后面Tv结合其它模型实现生成。

四、模型方法与结果

Mini-Gemini的框架概念简单：它采用双视觉编码器，分别提供低分辨率的视觉嵌入和高分辨率的候选区域；提出了一种区域信息挖掘方法，用于在高分辨率区域与低分辨率视觉查询之间进行像素级挖掘；利用大规模语言模型(MLM) 同时实现文本与图像的理解和生成。

1、Dual Vision Encoders

在Mini-Gemini框架中，可以处理文本和图像输入，可选择单独处理它们或结合处理。为了说明清楚，我们考虑同时处理这两种模态。如图2所示，处理始于一个高分辨率图像XH ∈ RH×W×3（表示高宽通道，后面也是类似），通过双线性插值生成对应的低分辨率图像XL ∈ RH′×W′×3，确保H′ ≤ H。然后，我们将它们处理并编码成两个并行的图像流的多网格视觉嵌入。特别地，对于低分辨率（LR）流程，我们保持传统的流水线，并采用一个CLIP预训练的ViT来编码视觉嵌入XL' ∈ RN×C，其中N表示视觉块的数量。通过这种方式，N个视觉块之间的长距离关系可以在后续的LLMs中得到很好的保留和交互。至于高分辨率（HR）流程，我们采用基于CNN的编码器进行自适应和高效的HR图像处理。例如，为了与LR视觉嵌入对齐，我们使用LAION预训练的ConvNeXt作为HR视觉编码器。因此，通过对特征进行上采样和连接不同卷积阶段的特征到1/4的输入尺度，我们可以获得HR特征图XH' ∈ RN'×N'×C。这里，N' = H/4 × W/4 = N × M^2表示HR特征的数量，其中M反映了每个HR段内的逐像素特征计数，如图2所示。
N' = H/4 × W/4 = N × M^2类似vit的patch理解

我的理解：

3、Patch Info Mining

基于上述生成的低分辨率嵌入XL'和高分辨率特征XH'，我们提出了patch信息挖掘来扩展VLMS潜力，增强视觉token。特别地，为了保持最终视觉输出tokens数量不变以实现高效嵌入LLM，我们将低分辨率视觉嵌入XL'作为查询Q ∈ RN×C，旨在从高分辨率HR候选中检索相关的视觉线索。同时，将HR特征图XH'分别作为键K ∈ RN×M2×C(表示NM平方C，后面表示类似)和值V ∈ RN×M2×C，如图2所示。这里，Q中的低分辨率块与K和V中的相应高分辨率子区域相关联，包含M平方个逐像素特征。因此，补丁信息挖掘过程可以被形式化为：

python 复制代码

TV = MLP(Q + Softmax(ϕ(Q) × ϕ(K)T ) × ϕ(V)),

其中ϕ和MLP分别表示投影层和多层感知器。如图3a所示，这个公式封装了合成和精炼视觉特征的过程，导致生成增强的视觉token TV用于后续的LLMs处理。它确保每个查询的挖掘被限制在其相应的XH'中具有M2特征的子区域内，从而保持效率。这种设计允许提取HR细节，而不扩展TV的视觉tokens数量，保持了细节丰富和计算灵活性的平衡(说白了tokens不变，保持结构与视觉特征进一步增强方法)。

此外，设计的patch信息挖掘还支持视觉tokens的扩展。如图3b所示，我们可以将视觉tokens扩展到5N以捕获更多细节。这种实现可通过将原始图像与其对应上采样2×一起合并，导致批输入得到批处理输入XL ∈ R5×H'×W'×3(看出来就是5个HW3的输入)。并且我们可以使用LR视觉编码器得到编码的视觉嵌入XL' ∈ R5×N×C（这里和上面就不一样了，query为5了），详见第3.1节。由于基于CNN的HR视觉编码器的灵活设计，它可以在patch信息挖掘过程中熟练处理扩增的视觉tokens数量。在上述过程中唯一的区别是XH'中的子区域应根据扩展的视觉嵌入XL'进行更改。如果需要，我们也可以对HR输入进行上采样以更好地支持更高的分辨率，正如表2中实验分析的那样。

4、Text and Image Generation

通过挖掘的视觉tokens TV和输入文本tokens TT，我们将它们连接起来作为LLMs的输入，进行自回归生成，如图2所示。与传统的VLMs不同，Mini-Gemini支持文本-图像生成作为输入和输出，即任意到任意推理。尽管存在图像理解，但我们将Mini-Gemini生成图像的能力锚定在其出色的图像-文本理解和推理能力上。与最近的研究不同，后者解决了LLMs和生成模型之间的文本嵌入域之间的差距，我们选择在语言提示的领域优化这个差距。准确地说，Mini-Gemini将用户指令转化为能够在潜在扩散模型中产生上下文相关图像的高质量提示。这种方法体现在随后的高质量图像生成框架中，如DALLE 3和SORA，它们利用VLMs的生成和理解能力获得用于生成任务的更高质量的文本条件。(我理解是生成tokens指令去调用其它模型或做多模态任务)

1、Text-image Instructions

文本-图像指令。为了实现更好的跨模态对齐和指令微调，我们从公开来源收集了高质量的数据集。特别是，对于跨模态对齐，我们利用了LLaVA过滤的CC3M数据集[58]中的558K图像-标题对和ALLaVA数据集[15]中的695K样本的GPT-4V回复的标题。总共约有120万个图像标题用于投影器预训练。至于指令微调，我们从LLaVA数据集中采样了643K单轮和多轮对话（不包括21K的TextCaps数据），从ShareGPT4V[14]中采样了10万个QA对，从LAION-GPT-4V [60]中采样了10K标题，从ALLaVA数据集[15]中采样了70万个GPT-4V回应的指令对，以及从LIMA[20]和OpenAssistant2[21]中采样了6K个仅文本的多轮对话。为了增强OCR相关的能力，我们进一步收集了包括10K DocVQA[17]，4K ChartQA[18]，10K DVQA[61]和4K AI2D[19]数据在内的28K QA对。总的来说，约有150万个与图像理解相关的指令对话。此外，我们还收集了13K对图像相关的生成数据，后续将详细介绍。

生成相关的指令。为了支持图像生成，我们使用GPT-4 Turbo构建了一个包含13K个指令的数据集。如图4所示，训练数据包括两个任务：（a）简单指令重新标题：我们采用了来自LAION-GPT-4V [60]的8K描述性图像标题，并让GPT-4逆向推断出相应用户的短输入和目标标题在稳定扩散（SD）域中的。（b）上下文提示生成：基于LIMA[20]和OpenAssistant2[21]中的一些高质量现实对话上下文，我们生成能够产生适合对话上下文的提示，总共提供5K个指令。对于这两种数据，在对GPT-4的每次查询中，我们随机从GigaSheet [62]中采样5个高质量的SD文本到图像提示作为上下文示例，以获取生成的目标提示。我们将我们的数据格式化为使用作为触发器来启动生成过程，并将目标标题包含在...中。在文本生成后，Mini-Gemini提取目标标题并利用SDXL[22]生成相应的图像。更多细节请参见附录A。

注意：你会发现图上prompt是 Capture a playful child pretending to talk on the phone，模型回答Young boy with a brightsmile, mimicking a phone call, dressed in agrey sweater and colorful tie, whitebackground,no text, advertisement style cean and simple.在通过模型回答生成图片。感觉模型将我们提的问题转为能更好生成图片模型输入指令内容。

五、实验结果

模型实验就自己看论文，我这里贴一个。

之所以模型小，是因为使用了不同LLM方法，其中最小一个为Gemma-2B的大语言模型。

六、总结

我们介绍了Mini-Gemini，这是一个简化而强大的多模态VLMs框架。Mini-Gemini的精髓在于通过战略性的框架设计、丰富的数据质量和扩展的功能范围来发挥VLMs的潜在能力。在其核心，补丁信息挖掘通过与高分辨率候选交互，实现了对详细视觉线索的高效提取。从数据角度来看，我们精心编制的高质量数据集确保了准确的视觉-语言对齐，并增强了强大的指令跟随能力。此外，我们支持基于推理的生成，在Mini-Gemini中为当前的VLMs赋予了任意到任意的工作流程。在几个零样本基准上进行的大量实验证明了所提方法的优越性，超越了先前领先的方法甚至是私有模型。我们希望Mini-Gemini能够成为图像理解和VLM引导生成的强大基准。

尽管Mini-Gemini取得了不错的结果，但仍有很大的潜力可以进一步探索。对于视觉理解，计数能力和复杂的视觉推理能力仍然远未达到令人满意的水平。这可能归因于特别是在预训练阶段缺乏相应的训练数据。同时，对于基于推理的生成，在这项工作中我们使用文本来桥接VLM和扩散模型，因为我们并没有发现基于嵌入的方法带来明显的收益。我们将尝试找到更先进的方式来进行视觉理解、推理和生成。