Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

相关链接:arxiv

关键字:Vision Language ModelsMulti-modalityHigh-Resolution Visual TokensHigh-Quality DataVLM-guided Generation

摘要

在这项工作中,我们介绍了Mini-Gemini,这是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs)。尽管VLMs在促进基本视觉对话和推理方面取得了进展,但与先进的模型如GPT-4和Gemini相比,性能差距仍然存在。我们试图通过挖掘VLMs的潜力,以实现更好的性能和任何到任何的工作流程,从三个方面缩小这一差距,即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌,我们提出使用额外的视觉编码器进行高分辨率细化,而不增加视觉令牌计数。我们进一步构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,扩大了当前VLMs的操作范围。总的来说,Mini-Gemini进一步挖掘了VLMs的潜力,并赋予了当前框架图像理解、推理和生成的能力。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs)从2B到34B。它在几个零样本基准测试中取得了领先的性能,甚至超过了开发的私人模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

核心方法

  1. 双视觉编码器:Mini-Gemini框架使用双视觉编码器来提供低分辨率的视觉嵌入和高分辨率候选,类似于Gemini星座的合作功能。在推理过程中,低分辨率编码器生成视觉查询,而高分辨率编码器提供候选键和值进行参考。

  2. 补丁信息挖掘:为了增强视觉令牌,我们提出了补丁信息挖掘,通过高分辨率区域和低分辨率视觉查询之间的挖掘来扩展VLMs的潜力。

  3. 文本和图像生成:通过挖掘得到的视觉令牌和输入文本令牌,我们将其连接为LLMs的输入进行自回归生成。Mini-Gemini支持任何到任何的推理,即可以处理图像和文本作为输入和输出。

实验说明

实验结果如下表所示,展示了不同配置的Mini-Gemini在多个基准测试中的性能:

| 方法 | LLM | 分辨率 | VQAT | MMB | MME | MM-Vet | MMMUv | MMMUt | MathVista |

|------|-----|--------|------|-----|-----|---------|---------|-----------|

| Mini-Gemini | Gemma-2B | 336 | 56.2 | 59.8 | 1341/312 | 31.1 | 31.7 | 29.1 | 29.4 |

| Mini-Gemini | Vicuna-7B | 336 | 65.2 | 69.3 | 1523/316 | 40.8 | 36.1 | 32.8 | 31.4 |

| ... | ... | ... | ... | ... | ... | ... | ... | ... |

数据来源包括从公开资源收集的1.2M图像标题对用于模态对齐,以及1.5M单轮或多轮对话用于指令微调。实验中使用了多种数据增强和正则化技术,如RandAugment、Mixup、CutMix和Random Erasing等。此外,还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

我们提出了Mini-Gemini,这是一个流线型且强大的框架,用于多模态视觉语言模型。Mini-Gemini的核心是通过战略性框架设计、丰富的数据质量和扩展的功能范围来挖掘VLMs的潜在能力。我们的精心编译的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令遵循能力。此外,我们支持基于推理的生成,并赋予当前VLMs任何到任何的工作流程。在几个零样本基准测试中的广泛实验证明了所提出方法的优越性,它超过了以前的领先方法甚至私人模型。我们希望Mini-Gemini能够成为图像理解和VLM引导生成的强大基准。

相关推荐
网络研究院2 分钟前
国土安全部发布关键基础设施安全人工智能框架
人工智能·安全·框架·关键基础设施
数字化营销工兵5 分钟前
大语言模型(LLM)安全:十大风险、影响和防御措施
llm·大语言模型·数据安全·隐私保护
不去幼儿园1 小时前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习
想成为高手4991 小时前
生成式AI在教育技术中的应用:变革与创新
人工智能·aigc
YSGZJJ2 小时前
股指期货的套保策略如何精准选择和规避风险?
人工智能·区块链
无脑敲代码,bug漫天飞2 小时前
COR 损失函数
人工智能·机器学习
HPC_fac130520678163 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
小陈phd6 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao7 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
gz7seven9 小时前
BLIP-2模型的详解与思考
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former