Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

发表时间:27 Mar 2024

论文链接:https://arxiv.org/pdf/2403.18814

作者单位:The Chinese University of Hong Kong

Motivation 尽管 VLM 的进步促进了基本的视觉对话和推理,但与 GPT-4 和 Gemini 等高级模型相比,性能差距仍然存在。如何在学术环境中以可接受的成本推动VLM接近成熟的模型?

解决方法 :我们试图通过从高分辨率视觉token、高质量数据和VLM-guided生成三个方面挖掘 VLMs 以获得更好的性能和任何工作流程的潜力来缩小差距。

  1. 为了增强视觉标记,我们建议在不增加视觉token数量的情况下使用额外的视觉 编码器 进行高分辨率细化

  2. 我们进一步构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,扩展了当前VLM的操作范围。

  3. 总的来说,Mini-Gemini 进一步挖掘 VLM 的潜力,并使当前框架能够同时理解、推理和生成。我们的方法将这些增强与cutting-edge(尖端的) LLMs 生成模型 相结合,旨在提高VLM的性能和用户体验。

实现方式 **:**总的来说,我们的方法采用了任何到任何范式,它擅长将图像和文本作为输入和输出处理。

  • 特别是,我们为输入图像引入了一种高效的视觉标记增强管道,具有双 编码器 系统。它包括孪生编码器,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入,反映了 Gemini 系列的协同功能。

  • 在推理过程中,他们在 注意力机制 中工作,其中低分辨率生成视觉查询,高分辨率对应物为参考提供候选键和值。

模型结构:

  1. Dual Vision Encoders: Mini-Gemini的框架在概念上:利用双视觉编码器来提供低分辨率的和高分辨率的视觉嵌入;提出patch信息挖掘以在高分辨率区域和低分辨率视觉query之间进行patch-level挖掘;LLM 用于将文本与图像结合起来,同时进行理解和生成。 高分辨率图像、低分辨率图像(高分辨率双线性插值而来),然后双编码器并行处理成多网格视觉嵌入。对于 LR (低分辨率图像),使用CLIP vit ,这样,N个视觉块之间的长程关系就可以很好地保留下来,以便后续在LLM中进行交互。对于 HR (高分辨率图像),采用基于 CNN 的编码器进行自适应且高效的 HR 图像处理使用 LAION 预训练 ConvNeXt作为 HR 视觉编码器 。因此,可以通过将不同卷积阶段的特征上采样并concate到1/4输入尺度来获得HR特征图。
  1. Patch Info Mining: 为了维持 LLM 中最终visual tokens的数量以提高效率,将低分辨率LR的visual embedding作为query,高分辨率HR作为Key和Value,旨在从 HR visual embedding中检索相关视觉线索。

如图 3a 所示,该公式封装了合成和细化视觉线索的过程,从而生成增强的视觉标记 Tv ,用于后续的 LLM 处理。它确保每个query的挖掘仅限于 HR 具有 M^2 个特征的相应子区域,从而保持效率。这种设计允许在不扩展视觉标记数量的情况下(Q还是从低分辨率的图像来的,只是与K,V进行计算的时候计算量增加了,但是保持放入LLM的视觉的token数量不变)提取 HR 细节,保持细节丰富度和计算可行性之间的平衡。

此外,还支持视觉令牌扩展。如图 3b 所示,可以将视觉标记扩展到 5N 以捕获更多细节。这是通过将原始图像与其 2× 放大的对应图像合并来实现的,从而产生批量输入 XL∈R5×H′×W′×3。可以使用 LR 视觉编码器得到编码后的视觉嵌入 X′ L ∈ R5×N×C,如第 3.1 节所述。

  1. Text and Image Generation 通过挖掘的视觉标记 Tv 和输入文本标记 Tt ,将它们拼接起来作为 LLM 的输入以进行 自回归 **生成。**Mini-Gemini 支持纯文本和文本图像生成作为输入和输出,即任意到任意的推理。Mini-Gemini 将用户指令转化为高质量的prompt,从而在潜在扩散模型中生成上下文相关的图像。这种方法反映在后续的高质量图像生成框架中,例如DALLE 3和SORA,它们利用VLM的生成和理解能力来获取用于生成任务的更高质量的文本条件。

实验 为高效训练,固定两个视觉 编码器 ,并优化各个阶段的Patch Info Mining的projector。 同时,仅在 指令 调优阶段对 LLM 进行优化。对于模型优化,构建高质量数据以进行跨模态理解和生成。它主要包括用于模态对齐的 1.2M 标题对和用于指令调整的 1.5M 单轮或多轮对话。此外,我们报告了广泛采用的基于零镜头图像的基准测试的结果,包括VQAT (TextVQA)、MMB (MMBench)、MME、MM-Vet、MMMU和MathVista数据集.

结论 仍有很大的潜力需要进一步挖掘。对于视觉理解来说,计数能力和复杂的视觉推理能力还远远不能令人满意。这可能是由于缺乏相应的 训练数据 **,特别是在预训练阶段。**同时,对于基于推理的生成,在这项工作中使用文本来桥接 VLM 和扩散模型,因为没有发现基于嵌入的方法有明显的增益。将尝试寻找一种更先进的方式来进行视觉理解、推理和生成。

高分辨率的编码方法来理解图像细节和文字图等,也是一个技术改进,最近很多新发布 VLM 在做类似的工作。

相关推荐
小程故事多_8013 小时前
Agent+Milvus,告别静态知识库,打造具备动态记忆的智能AI助手
人工智能·深度学习·ai编程·milvus
code_pgf13 小时前
Llama 3详解
人工智能·llama
ComputerInBook13 小时前
数字图像处理(4版)——第 3 章——(图像的)强度变换和空间滤波(Rafael C.Gonzalez&Richard E. Woods)
图像处理·人工智能·计算机视觉·强度变换和空间滤波
爱写代码的小朋友13 小时前
生成式人工智能(AIGC)在开放式教育问答系统中的知识表征与推理机制研究
人工智能·aigc
技术专家13 小时前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
m0_4889130113 小时前
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3,看这一篇就够了!
人工智能·学习·机器学习·大模型·产品经理·llama·uml
helpme流水13 小时前
LLaMA Factory 从入门到精通,一篇讲完
人工智能·ai·语言模型·llama
段一凡-华北理工大学13 小时前
【大模型+知识图谱+工业智能体技术架构】~系列文章01:快速了解与初学入门!!!
人工智能·python·架构·知识图谱·工业智能体
Swift社区13 小时前
AI Governance:从 Policy Engine 到完整治理体系
人工智能·openclaw
田井中律.13 小时前
知识图谱(BILSTM+CRF项目完整实现)【第六章】
人工智能·知识图谱