Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

相关链接：arxiv

关键字：Vision Language Models 、Multi-modality 、High-Resolution Visual Tokens 、High-Quality Data 、VLM-guided Generation

摘要

在这项工作中，我们介绍了Mini-Gemini，这是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs）。尽管VLMs在促进基本视觉对话和推理方面取得了进展，但与先进的模型如GPT-4和Gemini相比，性能差距仍然存在。我们试图通过挖掘VLMs的潜力，以实现更好的性能和任何到任何的工作流程，从三个方面缩小这一差距，即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌，我们提出使用额外的视觉编码器进行高分辨率细化，而不增加视觉令牌计数。我们进一步构建了一个高质量的数据集，以促进精确的图像理解和基于推理的生成，扩大了当前VLMs的操作范围。总的来说，Mini-Gemini进一步挖掘了VLMs的潜力，并赋予了当前框架图像理解、推理和生成的能力。Mini-Gemini支持一系列密集和MoE大型语言模型（LLMs）从2B到34B。它在几个零样本基准测试中取得了领先的性能，甚至超过了开发的私人模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

核心方法

双视觉编码器：Mini-Gemini框架使用双视觉编码器来提供低分辨率的视觉嵌入和高分辨率候选，类似于Gemini星座的合作功能。在推理过程中，低分辨率编码器生成视觉查询，而高分辨率编码器提供候选键和值进行参考。
补丁信息挖掘：为了增强视觉令牌，我们提出了补丁信息挖掘，通过高分辨率区域和低分辨率视觉查询之间的挖掘来扩展VLMs的潜力。
文本和图像生成：通过挖掘得到的视觉令牌和输入文本令牌，我们将其连接为LLMs的输入进行自回归生成。Mini-Gemini支持任何到任何的推理，即可以处理图像和文本作为输入和输出。

实验说明

实验结果如下表所示，展示了不同配置的Mini-Gemini在多个基准测试中的性能：

| 方法 | LLM | 分辨率 | VQAT | MMB | MME | MM-Vet | MMMUv | MMMUt | MathVista |

|------|-----|--------|------|-----|-----|---------|---------|-----------|

| Mini-Gemini | Gemma-2B | 336 | 56.2 | 59.8 | 1341/312 | 31.1 | 31.7 | 29.1 | 29.4 |

| Mini-Gemini | Vicuna-7B | 336 | 65.2 | 69.3 | 1523/316 | 40.8 | 36.1 | 32.8 | 31.4 |

| ... | ... | ... | ... | ... | ... | ... | ... | ... |

数据来源包括从公开资源收集的1.2M图像标题对用于模态对齐，以及1.5M单轮或多轮对话用于指令微调。实验中使用了多种数据增强和正则化技术，如RandAugment、Mixup、CutMix和Random Erasing等。此外，还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

我们提出了Mini-Gemini，这是一个流线型且强大的框架，用于多模态视觉语言模型。Mini-Gemini的核心是通过战略性框架设计、丰富的数据质量和扩展的功能范围来挖掘VLMs的潜在能力。我们的精心编译的高质量数据集确保了准确的视觉-语言对齐，并增强了强大的指令遵循能力。此外，我们支持基于推理的生成，并赋予当前VLMs任何到任何的工作流程。在几个零样本基准测试中的广泛实验证明了所提出方法的优越性，它超过了以前的领先方法甚至私人模型。我们希望Mini-Gemini能够成为图像理解和VLM引导生成的强大基准。