AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.15-2024.02.20

论文目录~

[1.Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection](#1.Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection)
[2.Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models](#2.Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models)
[3.DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models](#3.DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models)
[4.Zero shot VLMs for hate meme detection: Are we there yet?](#4.Zero shot VLMs for hate meme detection: Are we there yet?)
[5.Evaluating Image Review Ability of Vision Language Models](#5.Evaluating Image Review Ability of Vision Language Models)
[6.Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models](#6.Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models)
[7.LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation](#7.LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation)
[8.ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model](#8.ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model)
[9.Visual In-Context Learning for Large Vision-Language Models](#9.Visual In-Context Learning for Large Vision-Language Models)
[10.CoLLaVO: Crayon Large Language and Vision mOdel](#10.CoLLaVO: Crayon Large Language and Vision mOdel)
[11.II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering](#11.II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering)
[12.Control Color: Multimodal Diffusion-based Interactive Image Colorization](#12.Control Color: Multimodal Diffusion-based Interactive Image Colorization)
[13.LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition](#13.LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition)
[14.Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation](#14.Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation)

1.Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection

标题:你的视觉语言模型本身就是一个强大的过滤器：利用数据选择实现高质量的指令调整
author:Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He, Tianyi Xiong, Chenxi Liu, Junfeng Guo, Heng Huang
publish:9 pages, 3 figures, 4 tables
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12501v1

摘要：

指令调整中的数据选择是获取高质量数据和训练指令跟踪大型语言模型（LLM）的关键过程，但对于视觉语言模型（VLM）来说，这仍然是一个尚未开发的新研究领域。现有的 LLM 数据选择方法要么依赖于单一的不可靠分数，要么使用下游任务进行选择，这不仅耗时，而且可能导致所选评估数据集的潜在过拟合。为了应对这一挑战，我们引入了一种新颖的数据集选择方法--自滤波器，它利用 VLM 本身作为滤波器。这种方法的灵感来自于一个观察结果，即 VLM 可以从最具挑战性的指令训练中获益。Self-Filter 分两个阶段运行。在第一阶段，我们设计了一个评分网络来评估训练指令的难度，该网络与 VLM 共同训练。在第二阶段，我们使用训练有素的评分网络来衡量每条指令的难度，选择最具挑战性的样本，并对相似样本进行惩罚，以鼓励多样性。在 LLaVA 和 MiniGPT-4 上进行的综合实验表明，与全数据设置相比，Self-Filter 只需约 15% 的样本就能获得更好的结果，并能在竞争基线中取得优异的性能。

2.Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

标题:稳健的 CLIP：针对稳健的大型视觉语言模型对视觉嵌入进行无监督对抗性微调
author:Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12336v1

摘要：

OpenFlamingo、LLaVA 和 GPT-4 等多模式基础模型越来越多地被用于各种实际任务。先前的研究表明，这些模型极易受到针对视觉模式的恶意攻击。这些攻击可被用来传播虚假信息或欺骗用户，从而构成重大风险，这使得大型多模态基础模型的鲁棒性成为一个亟待解决的问题。在许多视觉语言模型（VLM）（如 LLaVA 和 OpenFlamingo）中，CLIP 模型或其变体之一被用作冻结视觉编码器。我们提出了一种无监督对抗性微调方案，以获得稳健的 CLIP 视觉编码器，该编码器在依赖 CLIP 的所有视觉下游任务（VLM、零镜头分类）中都具有稳健性。我们特别指出，一旦用我们的鲁棒性模型取代原始的 CLIP 模型，恶意第三方提供的篡改图像对 VLM 用户的隐形攻击就不再可能。无需对 VLM 进行重新训练或微调。有关代码和稳健模型，请访问 https://github.com/chs20/RobustVLM。

3.DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

标题:DriveVLM：自动驾驶与大型视觉语言模型的融合
author:Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu, Yang Wang, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao
publish:Project Page: https://tsinghua-mars-lab.github.io/DriveVLM/
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12289v2

摘要：

在城市环境中实现自动驾驶的一个主要障碍是理解复杂的长尾场景，例如具有挑战性的路况和微妙的人类行为。我们介绍的 DriveVLM 是一种利用视觉语言模型（VLM）增强场景理解和规划能力的自动驾驶系统。DriveVLM 集成了独特的思维链 (CoT) 模块组合，用于场景描述、场景分析和分层规划。此外，由于认识到 VLM 在空间推理方面的局限性和繁重的计算要求，我们提出了 DriveVLM-Dual，这是一种混合系统，可将 DriveVLM 的优势与传统的自动驾驶流水线协同增效。DriveVLM-Dual 实现了强大的空间理解能力和实时推理速度。在 nuScenes 数据集和我们的 SUP-AD 数据集上进行的广泛实验证明了 DriveVLM 的有效性以及 DriveVLM-Dual 的增强性能，在复杂和不可预测的驾驶条件下，它超越了现有方法。

4.Zero shot VLMs for hate meme detection: Are we there yet?

标题:零镜头 VLM 仇恨主题检测：我们到了吗？
author:Naquee Rizwan, Paramananda Bhaskar, Mithun Das, Swadhin Satyaprakash Majhi, Punyajoy Saha, Animesh Mukherjee
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12198v1

摘要：

社交媒体上的多媒体内容正在迅速发展，而漫画作为一种独特的形式日益突出。不幸的是，一些恶意用户利用memes 来攻击个人或弱势社群，因此必须识别和处理这类仇恨memes 事件。为解决这一问题，人们开发了仇恨备忘录检测模型，进行了广泛的研究。然而，传统机器/深度学习模型的一个显著局限是需要标注数据集才能进行准确分类。最近，研究界出现了一些视觉语言模型，它们在各种任务中表现出了卓越的性能。在本研究中，我们旨在研究这些视觉语言模型在处理仇恨备忘录检测等复杂任务时的功效。我们使用各种提示设置，重点关注仇恨/有害备忘录的零镜头分类。通过分析，我们发现大型视觉语言模型在零镜头仇恨备忘录检测中仍然很脆弱。

5.Evaluating Image Review Ability of Vision Language Models

标题:评估视觉语言模型的图像审查能力
author:Shigeki Saito, Kazuki Hayashi, Yusuke Ide, Yusuke Sakai, Kazuma Onishi, Toma Suzuki, Seiji Gobara, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
publish:9pages, under reviewing
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12121v1

摘要：

大规模视觉语言模型（LVLM）是一种语言模型，能够通过单一模型处理图像和文本输入。本文探讨了使用 LVLM 生成图像评论文本的问题。人们对 LVLMs 审阅图像的能力还不完全了解，因此需要对 LVLMs 的审阅能力进行有条不紊的评估。与图像标题不同，评论文本可以从图像构图和曝光等不同角度撰写。由于评论角度的多样性，因此很难为一张图片确定唯一正确的评论。为了应对这一挑战，我们引入了一种基于等级相关性分析的评估方法，即由人类对评论文本进行排序，然后由 LVLMs 对这些排序之间的相关性进行测量。我们通过创建一个基准数据集进一步验证了这种方法，该数据集旨在评估近期 LVLM 的图片评论能力。我们使用该数据集进行的实验表明，LVLM，尤其是那些在其他评价环境中被证明具有优势的 LVLM，在区分高质量和低质量的图片评论方面表现出色。

标题:模型定制：减轻多模态大型语言模型中的灾难性遗忘
author:Didi Zhu, Zhongyi Sun, Zexi Li, Tao Shen, Ke Yan, Shouhong Ding, Kun Kuang, Chao Wu
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.12048v1

摘要：

灾难性遗忘是微调多模态大型语言模型（MLLM）时面临的一个严峻挑战，在这种情况下，提高未见任务的性能往往会导致原有任务的性能大幅下降。本文全面分析了 MLLM 中的灾难性遗忘，并介绍了一种名为 Model Tailor 的训练后调整方法。我们的方法主要保留了预训练参数，同时替换了少量（ ≤ \leq ≤ 10%）微调参数，与预训练相比，在原始任务上保持了 ∼ \sim ∼ 99%的有效性，与标准微调相比，在新任务上实现了 ∼ \sim ∼ 97%的有效性。具体来说，我们基于整合了显著性和敏感性分析的融合策略，推导出一种稀疏掩码来识别 "模型补丁"。随后，我们引入了一种补偿机制来 "装饰补丁"，从而提高模型在目标任务和原始任务中的性能。此外，我们的方法还能适应多任务场景。通过在 InstructBLIP 和 LLaVA-1.5 上对图像字幕和视觉问题解答任务的广泛实验，我们的方法展示了显著的任务适应性，同时保留了固有的预训练能力。

7.LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation

标题:LEMMA：利用外部知识增强实现 LVLM 增强型多模态错误信息检测
author:Keyang Xuan, Li Yi, Fan Yang, Ruochen Wu, Yi R. Fung, Heng Ji
date Time:2024-02-19

paper pdf:http://arxiv.org/pdf/2402.11943v1

摘要：

社交平台上多模态错误信息的兴起给个人和社会带来了重大挑战。与文本错误信息相比，多模态错误信息的可信度更高，影响范围更广，这使得检测工作变得复杂，需要对不同媒体类型进行稳健的推理，并需要渊博的知识才能进行准确的验证。大型视觉语言模型（LVLM）的出现为这一问题提供了潜在的解决方案。LVLM 充分利用其处理视觉和文本信息的能力，在识别复杂信息和展现强大推理能力方面表现出了良好的前景。在本文中，我们首先研究了 LVLM 在多模态错误信息检测方面的潜力。我们发现，尽管 LVLM 比 LLM 性能更优越，但在缺乏证据的情况下，其深刻的推理能力可能有限。基于这些观察结果，我们提出了 LEMMA：LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation（LVLM-外部知识增强多模态错误信息检测）。LEMMA 利用 LVLM 的直觉和推理能力，同时利用外部知识对其进行增强，以提高错误信息检测的准确性。在 Twitter 和 Fakeddit 数据集上，我们的方法比最高基线 LVLM 的准确率分别提高了 7% 和 13%。

8.ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

标题:ALLaVA：利用 GPT4V 合成数据建立简易视觉语言模型
author:Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang
publish:19 pages
date Time:2024-02-18

paper pdf:http://arxiv.org/pdf/2402.11684v1

摘要：

大型视觉语言模型（LVLMs）的最新进展使语言模型能够处理多模态输入，但其部署需要大量计算资源，尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据，缩小传统规模的 LVLM 与资源友好型精简版本之间的性能差距。为此，我们利用 GPT-4V 从图像中生成详细说明、复杂推理指令和详细答案的能力，创建了一个合成数据集。使用我们的数据训练出的模型 ALLaVA 在 12 个基准测试中取得了具有竞争力的性能，最高可达 3B LVLM。这项工作凸显了采用高质量数据创建更高效 LVLM 的可行性。我们的在线演示可在（url{https://allava.freedomai.cn}.

9.Visual In-Context Learning for Large Vision-Language Models

标题:大型视觉语言模型的视觉上下文学习
author:Yucheng Zhou, Xiang Li, Qianning Wang, Jianbing Shen
publish:13 pages, 7 figures
date Time:2024-02-18

paper pdf:http://arxiv.org/pdf/2402.11574v1

摘要：

在大型视觉语言模型（LVLM）中，上下文学习（ICL）的功效仍然受到跨模态交互和表征差异等挑战的限制。为了克服这些挑战，我们推出了一种新颖的视觉上下文学习（VICL）方法，包括视觉演示检索、意图导向图像总结和意图导向演示合成。我们的方法通过 "检索与重排 "范式检索图像，根据任务意图和特定任务的视觉解析总结图像，并合成基于语言的演示，从而减少标记数量并缓解跨模态交互问题。在五个视觉推理数据集上进行的实验评估证明了我们方法的有效性。此外，我们的大量实验利用信息流分析来阐明我们方法的有效性，并研究了演示的长度和位置对 LVLM 的影响。在不重新训练的情况下重置特定模型知识的 "上下文非学习 "方法的使用进一步显示了其前景。

10.CoLLaVO: Crayon Large Language and Vision mOdel

标题:CoLLaVO：蜡笔大型语言和视觉模型
author:Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
date Time:2024-02-17

paper pdf:http://arxiv.org/pdf/2402.11248v2

摘要：

大型语言模型（LLM）和指令调整的巨大成功推动了视觉语言模型（VLM）向多功能通用模型的发展。然而，目前的视觉语言模型是否真正具备高质量的对象级图像理解能力，这一点仍有待探索。我们的研究结果表明，当前 VLM 的图像理解能力与其在视觉语言（VL）任务中的零镜头表现密切相关。这表明，VLM 要想在 VL 任务中取得优异成绩，必须优先考虑基本图像理解能力。为了提高物体级图像理解能力，我们提出了 Crayon Large Language and Vision mOdel（CoLLaVO），它将指令调整与 Crayon Prompt 结合在一起，作为一种基于全景色彩图的新视觉提示调整方案。此外，我们还提出了一种双 QLoRA 学习策略，以在视觉指令调整过程中保留对象级图像理解而不遗忘它，从而在零镜头设置下的众多 VL 基准测试中实现了显著飞跃。

标题:II-MMR：识别和改进视觉问题解答中的多模态多跳推理
author:Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim
date Time:2024-02-16

paper pdf:http://arxiv.org/pdf/2402.11058v1

摘要：

视觉问题解答（VQA）通常涉及视觉和语言（V&L）的不同推理场景。然而，之前的大多数 VQA 研究都只关注评估模型的整体准确性，而没有针对不同的推理案例进行评估。此外，最近的一些研究发现，传统的思维链（CoT）提示无法为 VQA 生成有效的推理，尤其是对于需要多跳推理的复杂场景。在本文中，我们提出了 II-MMR，这是一种在 VQA 中识别和改进多模式多跳推理的新思路。具体来说，II-MMR 使用两种新颖的语言提示：(i) 以答案预测为导向的 CoT 提示，或 (ii) 以知识三元组为导向的提示。然后，II-MMR 通过估算回答问题需要多少次跳跃和哪种类型（即视觉或超视觉）的推理，分析这一路径，从而识别当前 VQA 基准中的不同推理案例。在 GQA 和 A-OKVQA 等流行基准中，II-MMR 发现大多数 VQA 问题都很容易回答，只需要 "单跳 "推理，而只有少数问题需要 "多跳 "推理。此外，最近的 V&L 模型即使使用传统的 CoT 方法，也很难应对这种复杂的多跳推理问题，而 II-MMR 则在所有推理案例中都显示出其在零点和微调设置中的有效性。

12.Control Color: Multimodal Diffusion-based Interactive Image Colorization

标题:控制色彩：基于多模态扩散的交互式图像着色
author:Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, Chen Change Loy
publish:Project Page: https://zhexinliang.github.io/Control_Color/; Demo

Video: https://youtu.be/tSCwA-srl8Q
date Time:2024-02-16

paper pdf:http://arxiv.org/pdf/2402.10855v1

摘要：

尽管目前有许多着色方法，但仍存在一些局限性，如缺乏用户互动、局部着色不灵活、色彩渲染不自然、色彩变化不足以及色彩溢出等。为了解决这些问题，我们引入了控制色彩（CtrlColor），这是一种利用预训练稳定扩散（SD）模型的多模式着色方法，在高度可控的交互式图像着色方面具有广阔的前景。虽然已经提出了几种基于扩散的方法，但支持多种模式的着色仍然不是一件容易的事。在本研究中，我们旨在解决无条件和有条件图像着色（文本提示、笔画、范例）问题，并在统一框架内解决颜色溢出和颜色错误问题。具体来说，我们提出了一种对用户笔画进行编码的有效方法，以实现精确的局部色彩操作，并采用一种类似于范例的实用方法来限制色彩分布。除了接受文本提示作为条件外，这些设计还为我们的方法增添了多功能性。我们还引入了基于自我注意的新模块和内容引导的可变形自动编码器，以解决长期存在的颜色溢出和着色不准确问题。广泛的比较表明，我们的模型在质量和数量上都优于最先进的图像着色方法。

13.LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition

标题:LLMs as Bridges：重构基础多模态命名实体识别
author:Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan
date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09989v2

摘要：

基础多模态命名实体识别（GMNER）是一项新兴的多模态任务，旨在识别命名实体、实体类型及其相应的视觉区域。GMNER 任务有两个具有挑战性的特性：1) 社交媒体中图像-文本对之间的相关性很弱，这导致相当一部分命名实体是不成立的。2) 类似任务中常用的粗粒度指代表达（如短语定位、指代表达理解）与细粒度命名实体之间存在区别。在本文中，我们提出了 RiVEG 这一统一框架，通过利用大型语言模型（LLM）作为连接桥梁，将 GMNER 重新表述为 MNER-VE-VG 联合任务。这种重构带来了两个好处：1) 它保持了最佳的 MNER 性能，并且无需使用对象检测方法来预先提取区域特征，从而自然而然地解决了现有 GMNER 方法的两大局限性。2) 引入实体扩展表达式和 Visual Entailment（VE）模块，将视觉接地（VG）和实体接地（EG）统一起来。它使 RiVEG 能够毫不费力地继承任何当前或未来多模态预训练模型的 Visual Entailment 和 Visual Grounding 功能。广泛的实验证明，在现有的 GMNER 数据集上，RiVEG 的表现优于最先进的方法，并在所有三个子任务中分别取得了 10.65%、6.21% 和 8.83% 的绝对领先优势。

14.Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation

标题:文本定位：分解多概念图像，实现主题驱动的文本到图像生成
author:Junjie Shentu, Matthew Watson, Noura Al Moubayed
date Time:2024-02-15

paper pdf:http://arxiv.org/pdf/2402.09966v1

摘要：

受试者驱动的文本到图像扩散模型使用户能够利用少量样本图像，根据预训练数据集中缺乏的新概念定制模型。然而，流行的主体驱动模型主要依赖于单一概念输入图像，在处理多概念输入图像时，在指定目标概念方面面临挑战。为此，我们引入了文本本地化文本到图像模型（Texual Localization）来处理多概念输入图像。在微调过程中，我们的方法采用了一种新颖的交叉注意引导来分解多个概念，在目标概念的视觉表示和文本提示中的标识符号之间建立了明显的联系。实验结果表明，在多概念输入图像的图像保真度和图像-文本对齐方面，我们的方法优于或相当于基线模型。与 "自定义扩散 "相比，在单概念和多概念生成中，我们的方法在硬引导下的 CLIP-I 分数分别高出 7.04% 和 8.13%，CLIP-T 分数分别高出 2.22% 和 5.85%。值得注意的是，我们的方法生成的交叉注意图与生成图像中的目标概念一致，这是现有模型所不具备的能力。