Img-Diff: 多模态大型语言模型的对比数据合成

Img-Diff：

Contrastive Data Synthesis for Multimodal Large Language Models

Abstract

High-performance Multimodal Large Language Models (MLLMs) rely heavily on data quality. This study introduces a novel dataset named Img-Diff, designed to enhance fine-grained image recognition in MLLMs by leveraging insights from contrastive learning and image difference captioning. By analyzing object differences between similar images, we challenge models to identify both matching and distinct components. We utilize the Stable-Diffusion-XL model and advanced image editing techniques to create pairs of similar images that highlight object replacements. Our methodology includes a Difference Area Generator for object differences identifying, followed by a Difference Captions Generator for detailed difference descriptions. The result is a relatively small but high-quality dataset of "object replacement" samples. We use the the proposed dataset to finetune state-of-the-art (SOTA) MLLMs such as MGM-7B, yielding comprehensive improvements of performance scores over SOTA models that trained with larger-scale datasets, in numerous image difference and Visual Question Answering tasks. For instance, our trained models notably surpass the SOTA models GPT-4V and Gemini on the MMVP benchmark. Besides, we investigate alternative methods for generating image difference data through "object removal" and conduct thorough evaluation to confirm the dataset's diversity, quality, and robustness, presenting several insights on synthesis of such contrastive dataset. To encourage further research and advance the field of multimodal data synthesis and enhancement of MLLMs' fundamental capabilities for image understanding, we release our codes and dataset at https://github.com/modelscope/data-juicer/tree/ImgDiff.

高性能多模态大型语言模型（MLLMs）高度依赖于数据质量。

本研究引入了一个名为Img-Diff的新型数据集，旨在通过利用对比学习和图像差异描述的见解来增强MLLMs中的细粒度图像识别能力。通过分析相似图像之间的对象差异，挑战模型以识别匹配和不同的组件。

本文利用Stable-Diffusion-XL模型和先进的图像编辑技术来创建突出显示对象替换的相似图像对。

本文的方法包括一个差异区域生成器，用于识别对象差异，随后是一个差异描述生成器，用于提供详细的差异描述。结果是生成了一个相对较小但高质量的"对象替换"样本数据集。

本文使用该数据集对最先进（SOTA）的MLLMs（如MGM-7B）进行微调，在多个图像差异和视觉问答任务中，相较于使用更大规模数据集训练的SOTA模型，实现了性能得分的全面提升。例如，在MMVP基准测试中，训练的模型显著超越了SOTA模型GPT-4V和Gemini。

此外，本文还研究了通过"对象移除"生成图像差异数据的替代方法，并进行了全面评估以确认数据集的多样性、质量和鲁棒性，同时就此类对比数据集的合成提出了几项见解。

为了鼓励进一步的研究并推动多模态数据合成领域的发展，以及提升MLLMs在图像理解方面的基本能力，在https://github.com/modelscope/data-juicer/tree/ImgDiff 上发布了代码和数据集。

动机

当前的多模态大语言模型主要通过两个步骤来提升性能：模型架构的改进和数据集质量的提升。尽管预训练阶段的海量图像-文本对使得模型能够在基本视觉任务上表现优异，但在面对复杂视觉问答（VQA）等下游任务时，现有模型仍然显得力不从心。这主要是因为当前的视觉指令调优数据集未能充分锻炼模型在细微图像差异识别上的能力。

Img-Diff 数据集的诞生正是为了解决这一问题。它通过生成仅在对象层面存在细微差异的成对图像，要求模型分析这些差异并给出详细描述，从而显著提升 MLLMs 在细粒度图像识别方面的能力。

方法

Img-Diff 数据集的构建主要遵循三个步骤：图像对生成、差异区域生成和差异描述生成。

图像对生成

为了生成图像对，研究团队采用了 Stable-Diffusion-XL 模型和 Prompt-to-Prompt 图像编辑技术。首先，他们从 MS COCO 数据集中提取了 118K 个图像描述作为原始输入。接着，利用 LLM Vicuna-1.5-13B 模型对这些描述进行对象替换，生成新的描述对。最后，根据这些描述对，Stable-Diffusion-XL 生成了相应的图像对，其中只有少量对象被替换。

差异区域生成

差异区域生成阶段的目标是找出图像对中差异对象的位置。为了实现这一目标，研究团队开发了基于图像分割和图像相似度比较的差异区域生成器。具体过程包括：

图像相似度过滤：确保图像对具有高相似性但并非完全相同。

图像分割：使用 FastSAM 模型对图像进行分割，提取图像中的不同区域。

有效差异区域检测：通过计算区域间的交并比（IoU）和图像-文本匹配分数，确定真正的差异区域。

差异描述生成

差异描述生成阶段则利用了现有的 MLLM，如 LLaVA-1.5 或 MGM，为差异区域生成详细的文本描述。这些描述不仅要指出对象发生了替换，还要具体说明替换的对象是什么。这些文本描述不仅作为训练数据，还可以被用来构造问题-答案对，以进一步提升模型的能力。

实验

研究团队将 Img-Diff 数据集应用于 LLaVA-1.5-7B 和 MGM-7B 模型的视觉指令调优中，并在多个图像差异和视觉问答基准上进行了评估。结果显示，经过 Img-Diff 数据集调优的模型在 MMVP、Spot-the-Diff 和 Image-Edit-Request 等基准上的表现显著优于使用更大规模数据集训练的模型，如 GPT-4V 和 Gemini。

此外，研究团队还进行了数据集的多样性和质量评估，以及多种过滤强度的消融研究，以确保 Img-Diff 数据集的有效性和可靠性。

结论

Img-Diff 数据集通过创新的对比数据合成方法，显著提升了多模态大语言模型在细粒度图像识别方面的能力。通过丰富的实验和评估，该数据集展现了其在多种基准任务上的优越性能。研究团队已经将 Img-Diff 数据集和相关代码开源，鼓励更多研究者在此基础上进一步探索和优化多模态大语言模型的能力。

Img-Diff 数据集不仅为多模态数据合成提供了新的思路，也为多模态大语言模型的发展注入了新的动力。随着更多高质量数据集的出现，期待 MLLMs 在未来的研究和应用中能够展现出更加强大的能力。