AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.01-2024.02.05

论文目录~

[1.Generalizable Entity Grounding via Assistance of Large Language Model](#1.Generalizable Entity Grounding via Assistance of Large Language Model)
[2.GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering](#2.GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering)
[3.Image Fusion via Vision-Language Model](#3.Image Fusion via Vision-Language Model)
[4.Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models](#4.Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models)
[5.Déjà Vu Memorization in Vision-Language Models](#5.Déjà Vu Memorization in Vision-Language Models)
[6.Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning](#6.Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning)
[7.MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning](#7.MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning)
[8.Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models](#8.Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models)
[9.Exploring Spatial Schema Intuitions in Large Language and Vision Models](#9.Exploring Spatial Schema Intuitions in Large Language and Vision Models)
[10.Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks](#10.Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks)
[11.A Survey on Hallucination in Large Vision-Language Models](#11.A Survey on Hallucination in Large Vision-Language Models)

1.Generalizable Entity Grounding via Assistance of Large Language Model

标题:通过大型语言模型的帮助实现可通用的实体基础
author:Lu Qi, Yi-Wen Chen, Lehan Yang, Tiancheng Shen, Xiangtai Li, Weidong Guo, Yu Xu, Ming-Hsuan Yang
date Time:2024-02-04

paper pdf:http://arxiv.org/pdf/2402.02555v1

摘要：

在这项工作中，我们提出了一种从长字幕中密集定位视觉实体的新方法。我们利用大型多模态模型（LMM）提取语义名词，利用类无关分割模型生成实体级分割，并利用所提出的多模态特征融合模块将每个语义名词与其相应的分割掩码关联起来。此外，我们还引入了一种将实体分割掩码编码到色谱图中的策略，从而能够保留来自高分辨率掩码特征的细粒度预测。通过这种方法，我们可以使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，这比使用额外编码器处理高分辨率图像的现有方法更具计算效率。我们的综合实验证明了我们的方法的优越性，在三项任务（包括全景叙事接地、指代表情分割和全景分割）上的表现优于最先进的技术。

2.GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering

标题:GeReA：基于知识的视觉问题解答的问题意识提示字幕
author:Ziyu Ma, Shutao Li, Bin Sun, Jianfei Cai, Zuxiang Long, Fuyan Ma
publish:17 pages
date Time:2024-02-04

paper pdf:http://arxiv.org/pdf/2402.02503v1

摘要：

基于知识的视觉问题解答（VQA）需要图像之外的世界知识才能获得准确答案。最近，GPT-3 等大型语言模型（LLM）被用作隐式知识引擎，而不是额外的知识库，通过将图像转换为文本信息（如标题和候选答案）来共同获取和推理回答问题所需的知识。然而，这种转换可能会引入不相关的信息，从而导致 LLM 误解图像并忽略对准确知识至关重要的视觉细节。我们认为，多模态大语言模型（MLLM）是比 LLM 更好的内隐知识引擎，因为它具有更强的视觉理解能力。尽管如此，如何激活多模态大语言模型作为内隐知识引擎的能力仍有待探索。因此，我们提出了 GeReA，这是一个生成-推理框架，它能利用与问题相关的视觉和语言信息促使类似 InstructBLIP 的 MLLM 生成与知识相关的描述，并将这些描述用于基于知识的 VQA。具体来说，与问题相关的图像区域和特定问题的手动提示被编码到 MLLM 中，以生成与知识相关的描述，称为问题感知提示字幕。之后，问题感知提示标题、图像-问题对和类似样本被送入多模态推理模型，以学习用于答案预测的知识-图像-问题联合表征。GeReA 利用 MLLM 作为隐式知识引擎，在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%，超过了以往所有最先进的方法。我们的代码将在 https://github.com/Upper9527/GeReA 上发布。

3.Image Fusion via Vision-Language Model

标题:通过视觉语言模型进行图像融合
author:Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool
date Time:2024-02-03

paper pdf:http://arxiv.org/pdf/2402.02235v1

摘要：

图像融合将多个源图像的基本信息整合到一张合成图像中，强调突出结构和纹理，并细化不完美的区域。现有方法主要侧重于像素级和语义视觉特征的识别。然而，它们对视觉之外的文本层面的深层语义信息探索不足。因此，我们首次引入了一种名为 "通过语言模型进行图像融合"（FILM）的新型融合范式，利用不同源图像中明确的文本信息来指导图像融合。在 FILM 中，首先处理输入图像以生成语义提示，然后将其输入 ChatGPT 以获得丰富的文本描述。这些描述融合在文本领域中，并通过交叉关注引导从源图像中提取关键的视觉特征，从而在文本语义信息的引导下实现更深层次的上下文理解。最终的融合图像由视觉特征解码器生成。这一范例在四种图像融合任务中取得了令人满意的结果：红外-可见光、医疗、多曝光和多焦点图像融合。我们还为四个融合任务中的十个图像融合数据集提出了一个视觉语言数据集，其中包含基于 ChatGPT 的段落描述，为基于视觉语言模型的图像融合的未来研究提供了便利。代码和数据集即将发布。

4.Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

标题:几乎无成本的安全微调：视觉大型语言模型的基线
author:Yongshuo Zong, Ondrej Bohdal, Tingyang Yu, Yongxin Yang, Timothy Hospedales
date Time:2024-02-03

paper pdf:http://arxiv.org/pdf/2402.02207v1

摘要：

当前的视觉大语言模型（VLLM）表现出非凡的能力，但却容易产生有害内容，甚至容易受到最简单的越狱攻击。我们的初步分析发现，这是由于在视觉语言指令微调过程中存在有害数据，而且 VLLM 微调会导致遗忘底层 LLM 先前学习的安全排列。为了解决这个问题，我们首先策划了一个视觉语言安全指令遵循数据集 VLGuard，其中涵盖了各种有害类别。我们的实验证明，将该数据集整合到标准视觉语言微调中，或利用它进行事后微调，都能有效地对 VLLM 进行安全调整。这种对齐的实现对模型的有用性影响最小，甚至可以提高模型的有用性。我们的安全微调数据集用途广泛，是安全测试现有 VLLM、训练新模型或保护预训练 VLLM 的宝贵资源。实证结果表明，微调后的 VLLM 能有效拒绝不安全指令，并大幅降低若干黑盒对抗攻击的成功率，在许多情况下成功率接近于零。代码和数据集可在 https://github.com/ys-zong/VLGuard 上获取。

5.Déjà Vu Memorization in Vision-Language Models

标题:视觉语言模型中的似曾相识记忆法
author:Bargav Jayaraman, Chuan Guo, Kamalika Chaudhuri
date Time:2024-02-03

paper pdf:http://arxiv.org/pdf/2402.02103v1

摘要：

视觉语言模型（VLMs）已成为最先进的表征学习解决方案，在图像分类、检索和生成等下游应用领域有着广泛的应用。一个自然而然的问题是，这些模型是否会记忆训练数据，这对泛化也有影响。我们提出了一种测量 VLM 记忆的新方法，我们称之为 d'ej`a vu 记忆。对于在图像-标题对上训练的 VLM，我们证明了模型确实保留了训练图像中单个物体的信息，而不是从相关性或图像标题中推断出来的信息。我们从样本和群体两个层面评估了 "记忆"，结果表明，对于在多达 5000 万对图像-标题上训练的 OpenCLIP 而言，"记忆 "非常重要。最后，我们证明文本随机化大大减轻了记忆，同时对模型的下游任务性能影响不大。

6.Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning

标题:方差排列得分：用于多模态对比学习的简单但难以击败的数据选择方法
author:Yiping Wang, Yifang Chen, Wendan Yan, Kevin Jamieson, Simon Shaolei Du
publish:17 pages, 4 figures
date Time:2024-02-03

paper pdf:http://arxiv.org/pdf/2402.02055v1

摘要：

近年来，数据选择已成为大规模视觉语言模型预训练的核心问题，尤其是在嘈杂的网络数据集上。一种被广泛采用的策略是为每个样本分配质量分数（如 CLIP 相似度），并保留分数最高的数据对。然而，这些方法与数据分布无关，总是无法选出信息量最大的样本。为了解决这个问题，我们提出了一种简单但理论上有原则的度量方法，名为方差排列得分（Variance Alignment Score，VAS），其形式为： ⟨ Σ t e x t t e s t , Σ i ⟩ \langle \Sigma_{text{test}}, \Sigma_i\rangle ⟨Σtexttest,Σi⟩。这里， Σ t e x t t e s t \Sigma_{text{test}} Σtexttest 表示我们要对齐的目标（交叉）协方差矩阵，可能基于先验知识，而 Σ i \Sigma_i Σi 表示第 i$ 个样本的单模态或多模态表示的张量乘积。我们进一步设计了一种新的数据选择方法，可最大化总 VAS。我们提供了简化设置下的理论分析，以证明 VAS 相对于随机或其他现有数据选择的理论优势。实验结果表明，在噪声数据集 DataComp 的 38 个评估集上，同时应用 VAS 和 CLIP 分数可比基线平均高出 1.3 美元，而在高质量数据集 CC12M 的 VTAB 上则高出 2.5 美元。此外，我们的消融研究还表明，视觉特征比文本更适合计算 VAS，而相关的经典实验设计方法在这种情况下可能会失效。

7.MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning

标题:MLIP：利用发散编码器和知识引导的对比学习增强医学视觉表征
author:Zhe Li, Laurence T. Yang, Bocheng Ren, Xin Nie, Zhangyang Gao, Cheng Tan, Stan Z. Li
date Time:2024-02-03

paper pdf:http://arxiv.org/pdf/2402.02045v1

摘要：

注释数据的稀缺引发了人们对无监督预训练方法的极大兴趣，这种方法利用医疗报告作为医疗视觉表征学习的辅助信号。然而，现有研究忽视了医学视觉表征的多粒度特性，缺乏合适的对比学习技术来提高模型在不同粒度间的泛化能力，导致图像-文本信息利用不足。为了解决这个问题，我们提出了 MLIP，这是一个新颖的框架，利用特定领域的医学知识作为指导信号，通过图像-文本对比学习将语言信息整合到视觉领域。我们的模型包括利用我们设计的发散编码器进行的全局对比学习、局部标记-知识-补丁对齐对比学习，以及利用专家知识进行的知识指导类别级对比学习。实验评估表明，我们的模型能有效提高图像分类、物体检测和语义分割等任务的转移性能。值得注意的是，即使在注释数据有限的情况下，MLIP 也能超越最先进的方法，这凸显了多模态预训练在推进医学表征学习方面的潜力。

8.Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models

标题:跳过在大型视觉语言模型中减少幻觉的简单方法
author:Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou
publish:Technical Report
date Time:2024-02-02

paper pdf:http://arxiv.org/pdf/2402.01345v4

摘要：

大型视觉语言模型（LVLM）的最新进展表明，该模型在利用人类语言理解视觉信息方面具有令人印象深刻的能力。尽管取得了这些进步，大型视觉语言模型在处理多模态幻觉时仍面临挑战，例如生成视觉信息中不存在的物体文字描述。然而，多模态幻觉的根本原因仍未得到充分探究。在本文中，我们提出了一个新的视角，认为 LVLMs 中固有的偏差可能是导致幻觉的一个关键因素。具体来说，我们系统地识别了与段落中断（\n\n）相关的语义偏移，在训练数据中，"\n\n "前后的内容经常表现出显著的语义变化。这种模式导致模型推断"（\n\n）"之后的内容应该与前面的内容明显不同，幻觉描述较少，从而增加了"（\n\n）"之后出现幻觉描述的概率。我们在多个公开的 LVLM 上验证了这一假设。此外，我们发现在生成的描述中故意插入"（\n\n）"会诱发更多的幻觉。我们提出了一种简单的方法，通过跳过'\n'的输出来有效地减轻LVLM的幻觉。

9.Exploring Spatial Schema Intuitions in Large Language and Vision Models

标题:探索大型语言和视觉模型中的空间图式直觉
author:Philipp Wicke, Lennart Wachowiak
publish:Preprint
date Time:2024-02-01

paper pdf:http://arxiv.org/pdf/2402.00956v1

摘要：

尽管大型语言模型（LLMs）在人工智能研究中无处不在，但关于 LLMs 的具身问题仍未得到充分探索，这使它们有别于机器人中的具身系统，在机器人中，感官知觉直接影响物理行动。尽管 LLM 不具有具身性，但我们的研究探索了 LLM 是否能有效捕捉人类对语言基本空间构件的隐性直觉这一引人入胜的领域。我们从早期感觉运动经验中发展起来的空间认知基础中汲取灵感，通过再现三个心理语言学实验来指导我们的探索。令人惊讶的是，模型输出与人类反应之间出现了关联，揭示了与具身体验无形关联的适应性。值得注意的区别包括两极化的语言模型反应和视觉语言模型的相关性降低。这项研究有助于深入理解语言、空间体验和大型语言模型计算之间的相互作用。更多信息，请访问 https://cisnlp.github.io/Spatial_Schemas/

10.Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks

标题:视觉语言识别器可利用自生成的排版攻击欺骗自己
author:Maan Qraitem, Nazia Tasnim, Piotr Teterwak, Kate Saenko, Bryan A. Plummer
date Time:2024-02-01

paper pdf:http://arxiv.org/pdf/2402.00626v2

摘要：

排版攻击涉及在图像上粘贴误导性文字，已被指出会损害 CLIP 等视觉语言模型的性能。然而，最近的大型视觉语言模型对这些攻击的敏感性仍未得到充分研究。此外，之前针对 CLIP 的排版攻击是从一组预定义的类别中随机抽样误导类别。然而，这种简单的策略忽略了利用 LVLM 更强语言技能的更有效攻击。为了解决这些问题，我们首先介绍了针对 LVLM（s）的 Typographic 攻击测试基准。此外，我们还引入了两种新颖且更有效的（textit{Self-Generated}）攻击，它们会促使 LVLM 生成针对自身的攻击：1) 基于类的攻击，即要求 LVLM（如 LLaVA）选择与目标类最相似的欺骗类；以及 2) 描述性攻击，即要求更高级的 LVLM（如 GPT4-V）推荐包含欺骗类和描述的类型学攻击。利用我们的基准，我们发现自生成攻击构成了重大威胁，使 LVLM 的分类性能降低了 33%。我们还发现，由一个模型（如 GPT-4V 或 LLaVA）生成的攻击对该模型本身以及 InstructBLIP 和 MiniGPT4 等其他模型都很有效。代码\url{https://github.com/mqraitem/Self-Gen-Typo-Attack}

11.A Survey on Hallucination in Large Vision-Language Models

标题:大型视觉语言模型中的幻觉调查
author:Hanchao Liu, Wenyuan Xue, Yifei Chen, Dapeng Chen, Xiutian Zhao, Ke Wang, Liping Hou, Rongjun Li, Wei Peng
date Time:2024-02-01

paper pdf:http://arxiv.org/pdf/2402.00253v1

摘要：

最近，大型视觉语言模型（LVLMs）的发展因其实际应用潜力而在人工智能领域引起了越来越多的关注。然而，"幻觉"，或者更具体地说，事实视觉内容与相应文本生成之间的错位，对使用 LVLMs 构成了重大挑战。在这份全面的调查报告中，我们剖析了与 LVLM 相关的幻觉，试图建立一个概览，并促进未来的缓解措施。我们的研究首先澄清了LVLM中幻觉的概念，介绍了各种幻觉症状，并强调了LVLM幻觉所固有的独特挑战。随后，我们概述了专门用于评估 LVLMs 幻觉的基准和方法。此外，我们还深入研究了这些幻觉的根本原因，包括从训练数据和模型组件中获得的见解。我们还对现有的减少幻觉的方法进行了严格审查。最后，我们还讨论了与 LVLM 中的幻觉相关的开放性问题和未来发展方向，以结束本调查。