Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

相关链接:arxiv

关键字:Vision Language ModelsMulti-modalityHigh-Resolution Visual TokensHigh-Quality DataVLM-guided Generation

摘要

在这项工作中,我们介绍了Mini-Gemini,这是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs)。尽管VLMs在促进基本视觉对话和推理方面取得了进展,但与先进的模型如GPT-4和Gemini相比,性能差距仍然存在。我们试图通过挖掘VLMs的潜力,以实现更好的性能和任何到任何的工作流程,从三个方面缩小这一差距,即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌,我们提出使用额外的视觉编码器进行高分辨率细化,而不增加视觉令牌计数。我们进一步构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,扩大了当前VLMs的操作范围。总的来说,Mini-Gemini进一步挖掘了VLMs的潜力,并赋予了当前框架图像理解、推理和生成的能力。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs)从2B到34B。它在几个零样本基准测试中取得了领先的性能,甚至超过了开发的私人模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

核心方法

  1. 双视觉编码器:Mini-Gemini框架使用双视觉编码器来提供低分辨率的视觉嵌入和高分辨率候选,类似于Gemini星座的合作功能。在推理过程中,低分辨率编码器生成视觉查询,而高分辨率编码器提供候选键和值进行参考。

  2. 补丁信息挖掘:为了增强视觉令牌,我们提出了补丁信息挖掘,通过高分辨率区域和低分辨率视觉查询之间的挖掘来扩展VLMs的潜力。

  3. 文本和图像生成:通过挖掘得到的视觉令牌和输入文本令牌,我们将其连接为LLMs的输入进行自回归生成。Mini-Gemini支持任何到任何的推理,即可以处理图像和文本作为输入和输出。

实验说明

实验结果如下表所示,展示了不同配置的Mini-Gemini在多个基准测试中的性能:

| 方法 | LLM | 分辨率 | VQAT | MMB | MME | MM-Vet | MMMUv | MMMUt | MathVista |

|------|-----|--------|------|-----|-----|---------|---------|-----------|

| Mini-Gemini | Gemma-2B | 336 | 56.2 | 59.8 | 1341/312 | 31.1 | 31.7 | 29.1 | 29.4 |

| Mini-Gemini | Vicuna-7B | 336 | 65.2 | 69.3 | 1523/316 | 40.8 | 36.1 | 32.8 | 31.4 |

| ... | ... | ... | ... | ... | ... | ... | ... | ... |

数据来源包括从公开资源收集的1.2M图像标题对用于模态对齐,以及1.5M单轮或多轮对话用于指令微调。实验中使用了多种数据增强和正则化技术,如RandAugment、Mixup、CutMix和Random Erasing等。此外,还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

我们提出了Mini-Gemini,这是一个流线型且强大的框架,用于多模态视觉语言模型。Mini-Gemini的核心是通过战略性框架设计、丰富的数据质量和扩展的功能范围来挖掘VLMs的潜在能力。我们的精心编译的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令遵循能力。此外,我们支持基于推理的生成,并赋予当前VLMs任何到任何的工作流程。在几个零样本基准测试中的广泛实验证明了所提出方法的优越性,它超过了以前的领先方法甚至私人模型。我们希望Mini-Gemini能够成为图像理解和VLM引导生成的强大基准。

相关推荐
朴马丁9 分钟前
构建日化数字创新平台:PLM如何融合AI、物联网数据,驱动智能研发与精准营销
人工智能·物联网·流程行业plm·日化行业
我不介意孤独10 分钟前
04-记忆系统为什么向量数据库不够用
数据库·人工智能·资源隔离·agent infra
小程故事多_8016 分钟前
从人工编写到自主迭代进化,SkillEvolver重构大模型智能体技能生成新范式
人工智能·重构
wengad20 分钟前
机器学习实践理论基础|算法、模型和数据集
人工智能·算法·机器学习
kishu_iOS&AI20 分钟前
LLM —— Prompt提示词工程
人工智能·prompt
li-xun26 分钟前
2026年6月7日博客精选
人工智能·chatgpt·每日阅读
人工智能AI技术37 分钟前
【VibeCoding系列教程12】 AI代码编辑器
人工智能
zhangfeng11331 小时前
ai训练 顿悟“总数据量是 m²,训练所需要的数据量是 log m
人工智能
半兽先生1 小时前
05阶段:NLP自然语言处理基础
人工智能·自然语言处理
盈飞无限1 小时前
SPC选型:智能VS传统,谁更懂中国制造?
人工智能·制造