AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.05-2024.06.10

文章目录～

[1.TRINS: Towards Multimodal Language Models that Can Read](#1.TRINS: Towards Multimodal Language Models that Can Read)
[2.VCR: Visual Caption Restoration](#2.VCR: Visual Caption Restoration)
[3.ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition](#3.ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition)
[4.Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification](#4.Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification)
[5.One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models](#5.One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models)
[6.MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models](#6.MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models)
[7.OVMR: Open-Vocabulary Recognition with Multi-Modal References](#7.OVMR: Open-Vocabulary Recognition with Multi-Modal References)
[8.Learning 1D Causal Visual Representation with De-focus Attention Networks](#8.Learning 1D Causal Visual Representation with De-focus Attention Networks)
[9.Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt](#9.Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt)
[10.Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following](#10.Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following)
[11.Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search](#11.Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search)

1.TRINS: Towards Multimodal Language Models that Can Read

标题:TRINS：建立能够阅读的多模态语言模型
author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
publish:CVPR 2024
date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06730v1

摘要：

大型多模态语言模型在理解和编辑图像方面表现出了非凡的能力。然而，主要由于训练数据的限制，这些经过视觉调整的模型大多难以理解图像中嵌入的文本内容。在这项工作中，我们引入了 TRINS：文本丰富的图像 INStruction 数据集，目的是提高多模态大语言模型的阅读能力。TRINS 以 LAION 为基础，采用混合数据注释策略，包括机器辅助和人工辅助注释过程。它包含 39,153 张富含文本的图像、标题和 102,437 个问题。具体而言，我们发现 TRINS 中每个注释的字数明显多于相关数据集，这给我们带来了新的挑战。此外，我们还介绍了一种简单有效的架构，即语言视图阅读助手（LaRA），它能够很好地理解图像中的文字内容。在 TRINS 数据集以及其他经典基准测试中，LaRA 的表现优于现有的最先进的多模态大型语言模型。最后，我们利用 TRINS 对各种文本丰富的图像理解和生成任务进行了全面评估，证明了它的有效性。

2.VCR: Visual Caption Restoration

标题:VCR：视觉字幕修复
author:Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
publish:18 pages, 2 figures
date Time:2024-06-10

paper pdf:http://arxiv.org/pdf/2406.06462v1

摘要：

我们介绍了视觉字幕还原（VCR），这是一项新颖的视觉语言任务，要求模型利用图像中像素级的提示准确还原部分模糊的文字。这项任务源于我们的观察，即嵌入图像中的文本本质上不同于普通的视觉元素和自然语言，因为需要将视觉、文本和嵌入图像中的文本的模式统一起来。虽然已有许多研究将嵌入图像中的文本整合到视觉问题解答任务中，但这些任务的处理方法通常依赖于光学字符识别或遮蔽语言建模，从而将任务简化为主要基于文本的处理。然而，基于文本的处理在 VCR 中变得无效，因为准确的文本还原取决于所提供图像的综合信息、上下文以及来自遮蔽文本微小暴露区域的微妙线索。我们开发了一个管道，利用图像-标题对生成 VCR 任务所需的合成图像，并可调节标题的可见性以控制任务难度。利用该管道，我们构建了一个名为 VCR-Wiki 的 VCR 数据集，该数据集使用了维基百科中带有标题的图像，包括 211 万个英文实体和 34.6 万个中文实体的易拆分和难拆分变体。我们的研究结果表明，目前的视觉语言模型在 VCR 任务中明显落后于人类的表现，而且仅仅在我们的数据集上对模型进行微调并不能带来显著的改进。我们发布了 VCR-Wiki 和数据构建代码，以促进未来的研究。

3.ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition

标题:ALGO：用于开放世界以自我为中心的动作识别的基于对象的视觉常识推理
author:Sanjoy Kundu, Shubham Trehan, Sathyanarayanan N. Aakur
publish:Extended abstract of arXiv:2305.16602 for CVPR EgoVis Workshop
date Time:2024-06-09

paper pdf:http://arxiv.org/pdf/2406.05722v1

摘要：

在开放世界（即目标 "标签 "未知的环境）中学习推断标签是实现自主性的一个重要特征。在海量数据上预先训练的基础模型通过提示，尤其是在零点推理中，显示出了非凡的泛化能力。然而，它们的表现受限于目标标签搜索空间的正确性。在开放世界中，目标搜索空间可能是未知的，也可能非常大，这严重限制了此类模型的性能。为了解决这个具有挑战性的问题，我们提出了一个名为 ALGO 的神经符号框架（Action Learning with Grounded Object recognition），该框架利用存储在大规模知识库中的符号知识，通过两个步骤在有限的监督下推断以自我为中心的视频中的活动。首先，我们提出了一种神经符号提示方法，该方法将以物体为中心的视觉语言模型作为一种噪声甲骨文，通过基于证据的推理来确定视频中的物体。其次，在先验常识知识的驱动下，我们通过基于能量的符号模式理论框架发现可信的活动，并学习视频中基于知识的动作（动词）概念。在四个公开可用的数据集（EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus）上进行的广泛实验证明了它在开放世界活动推理方面的性能。

4.Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification

标题:将人类知识与视觉概念相结合，实现可解释的医学图像分类
author:Yunhe Gao, Difei Gu, Mu Zhou, Dimitris Metaxas
publish:MICCAI 2024 Early Accept
date Time:2024-06-08

paper pdf:http://arxiv.org/pdf/2406.05596v1

摘要：

虽然可解释性在临床诊断中至关重要，但大多数深度学习模型仍像黑盒子一样，没有阐明其决策过程。在本研究中，我们研究了可解释模型的开发，它可以通过融合明确诊断标准的领域知识来模仿人类专家的决策过程。我们引入了一个简单而有效的框架--Explicd，以实现基于标准的可解释语言诊断。Explicd 通过查询来自大型语言模型（LLM）或人类专家的领域知识来启动流程，从而在各种概念轴（如颜色、形状、纹理或疾病的特定模式）上建立诊断标准。通过利用预训练的视觉语言模型，Explicd 将这些标准作为知识锚注入嵌入空间，从而促进医学图像中相应视觉概念的学习。最终的诊断结果是根据编码的视觉概念与文本标准嵌入之间的相似度得分确定的。通过对五个医学影像分类基准的广泛评估，Explicd 证明了其固有的可解释性，与传统的黑盒模型相比，Explicd 的扩展提高了分类性能。

5.One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

标题:一个扰动就够了：关于针对视觉语言预训练模型生成通用对抗性扰动
author:Hao Fang, Jiawei Kong, Wenbo Yu, Bin Chen, Jiawei Li, Shutao Xia, Ke Xu
date Time:2024-06-08

paper pdf:http://arxiv.org/pdf/2406.05491v1

摘要：

在大规模图像-文本对上训练的视觉语言预训练（VLP）模型在许多实际应用中展现出了前所未有的能力。然而，以往的研究表明，VLP 模型很容易受到恶意对手制作的对抗样本的攻击。虽然现有的攻击在提高攻击效果和可转移性方面取得了巨大成功，但它们都侧重于针对特定实例的攻击，这种攻击会对每个输入样本产生扰动。在本文中，我们展示了 VLP 模型可能会受到针对所有输入样本的新型通用对抗扰动（UAP）的攻击。虽然最初移植现有的 UAP 算法进行攻击显示出了攻击判别模型的有效性，但当应用于 VLP 模型时，结果却不尽人意。为此，我们重新审视了 VLP 模型训练中的多模态排列，并提出了具有跨模态条件的对比训练扰动生成器（C-PGC）。具体来说，我们首先设计了一种生成器，将跨模态信息作为条件输入来指导训练。为了进一步利用跨模态交互，我们建议将训练目标设定为基于我们构建的正反图像-文本对的多模态对比学习范式。通过使用设计的损失来训练条件发生器，我们成功地迫使对抗样本远离 VLP 模型特征空间中的原始区域，从而从本质上增强了攻击。大量实验表明，我们的方法在各种 VLP 模型和视觉语言（V+L）任务中都取得了出色的攻击性能。此外，C-PGC 还展示了出色的黑盒移植能力，在愚弄包括 LLaVA 和 Qwen-VL 在内的普遍大型 VLP 模型方面取得了令人印象深刻的成果。

标题:MLLM-SR：会话符号回归基础多模态大语言模型
author:Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Shu Wei, Yusong Deng
publish:13 pages,
date Time:2024-06-08

paper pdf:http://arxiv.org/pdf/2406.05410v1

摘要：

公式是人与自然交流的语言。从观测数据中找出反映数据中各变量之间关系的表达式，是人工智能的一个重要研究课题，被称为符号回归问题。现有的符号回归方法直接根据给定的观测数据生成表达式，我们无法要求算法根据已知的先验知识生成符合特定要求的表达式。例如，表达式需要包含 sin ⁡ \sin sin 或对称等等。即使可以，也往往需要非常复杂的运算，非常不方便。本文基于多模态大语言模型，提出了一种会话符号回归方法 MLLM-SR，只需用自然语言指令描述需求，就能生成符合要求的表达式。通过在 Nguyen 数据集上的实验，我们可以证明 MLLM-SR 在拟合性能上领先于最先进的基线方法。更值得注意的是，我们通过实验证明，MLLM-SR 可以很好地理解我们添加到自然语言指令中的先验知识。此外，先验知识的添加可以有效地指导 MLLM-SR 生成正确的表达。

标题:OVMR：利用多模态参考进行开放式词汇识别
author:Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian
publish:CVPR2024
date Time:2024-06-07

paper pdf:http://arxiv.org/pdf/2406.04675v1

摘要：

开放词汇识别所面临的挑战在于，模型对其所应用的新类别毫无头绪。现有的研究提出了不同的方法，通过少量的微调，向视觉语言模型提供类别名称或文本描述，从而将类别线索嵌入模型。微调非常耗时，而且会降低泛化能力。文字描述可能模棱两可，无法描述视觉细节。本文从另一个角度出发，参考由文本描述和示例图像组成的多模态线索来解决开放词汇识别问题。我们的方法被命名为 OVMR，它采用了两个创新组件来追求更稳健的类别线索嵌入。首先，通过动态补充文本描述和图像示例生成多模态分类器。然后，基于偏好的细化模块将单模态分类器和多模态分类器融合在一起，以缓解低质量示例图像或文本描述的问题。所提出的 OVMR 是一个即插即用的模块，能很好地处理从互联网上随机抓取的示例图像。广泛的实验证明了OVMR的良好性能，它在各种场景和设置下都优于现有方法。代码可在 \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR} 公开获取。

8.Learning 1D Causal Visual Representation with De-focus Attention Networks

标题:利用去焦点注意力网络学习一维因果视觉表征
author:Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian, Xuan Luo, Gao Huang, Hongsheng Li, Yu Qiao, Jie Zhou, Jifeng Dai
date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.04342v1

摘要：

模态差异导致了视觉和语言模型异构架构的发展。图像通常需要二维非因果建模，而文本则使用一维因果建模。这种区别给构建统一的多模态模型带来了巨大挑战。本文探讨了使用一维因果建模表示图像的可行性。我们在现有的一维因果视觉模型中发现了一个 "过度聚焦 "问题，即注意力过度集中在一小部分视觉标记上。过度聚焦 "问题阻碍了模型提取各种视觉特征和接收有效梯度进行优化的能力。为了解决这个问题，我们提出了去焦点注意力网络，它采用可学习的带通滤波器来创建不同的注意力模式。在训练过程中，我们引入了大量和预定的下降路径率，以及用于全局理解任务的全局集合特征的辅助损失。这两种策略鼓励模型关注更广泛的标记，并加强网络优化。广泛的实验验证了我们方法的有效性，证明在全局感知、密集预测和多模态理解等任务中，一维因果视觉表征的表现可与二维非因果表征相媲美。代码发布于 https://github.com/OpenGVLab/De-focus-Attention-Networks。

标题:通过双模态对抗提示破解视觉语言模型
author:Zonghao Ying, Aishan Liu, Tianyuan Zhang, Zhengmin Yu, Siyuan Liang, Xianglong Liu, Dacheng Tao
date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.04031v1

摘要：

在大型视觉语言模型（LVLMs）领域，越狱攻击是绕过防护栏和揭示安全隐患的一种红队方法。现有的越狱攻击主要集中在视觉模式上，在攻击提示中只扰动视觉输入。然而，面对同时融合视觉和文本特征进行生成的对齐模型时，它们就显得力不从心了。为了解决这一局限性，本文介绍了双模态对抗提示攻击（Bi-Modal Adversarial Prompt Attack，BAP），它通过优化文本和视觉提示来执行越狱。起初，我们在少量的查询识别语料库（如肯定性前缀和否定性抑制）的指导下，在图像中逆向嵌入普遍有害的扰动。这一过程可确保图像提示 LVLM 对任何有害查询做出积极回应。随后，利用对抗性图像，我们优化了具有特定有害意图的文本提示。特别是，我们利用大型语言模型来分析越狱失败，并通过反馈迭代方式运用思维链推理来完善文本提示。为了验证我们的方法的有效性，我们在各种数据集和 LVLM 上进行了广泛的评估，结果表明我们的方法大大优于其他方法（平均攻击成功率+29.03%）。此外，我们还展示了我们对黑盒商用 LVLM（如 Gemini 和 ChatGLM）的攻击潜力。

10.Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following

标题:探索视觉语言模型的 "零误差 "能力，提高目光跟踪能力
author:Anshul Gupta, Pierre Vuillecard, Arya Farkhondeh, Jean-Marc Odobez
publish:Accepted at the GAZE Workshop at CVPR 2024
date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.03907v1

摘要：

None

11.Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search

标题:面向文本属性人物搜索的属性感知隐式模态对齐
author:Xin Wang, Fangfang Liu, Zheng Li, Caili Guo
date Time:2024-06-06

paper pdf:http://arxiv.org/pdf/2406.03721v1

摘要：

文本属性人物搜索旨在通过给定的文本属性找到特定的行人，这在通过目击者描述搜索指定行人的场景中非常有意义。关键的挑战在于文本属性和图像之间存在巨大的模态差距。以往的方法侧重于通过单模态预训练模型实现明确的表示和对齐。然而，这些模型中缺乏模态间的对应关系，可能会导致模态内局部信息的失真。此外，这些方法只考虑了模态间的配准，而忽略了不同属性类别之间的差异。为了缓解上述问题，我们提出了一种 "属性感知隐式模态对齐"（Attribute-Aware Implicit Modality Alignment，AIMA）框架来学习文本属性与图像之间的局部表征对应关系，并结合全局表征匹配来缩小模态差距。首先，我们引入 CLIP 模型作为骨干，并设计提示模板将属性组合转换为结构化句子。这有助于该模型更好地理解和匹配图像细节。其次，我们设计了蒙蔽属性预测（MAP）模块，通过多模态交互，预测图像和蒙蔽文本属性特征交互后的蒙蔽属性，从而实现隐式局部关系对齐。最后，我们提出了属性-IoU 引导的模内对比（A-IoU IMC）损耗，将不同文本属性在嵌入空间中的分布与其 IoU 分布对齐，从而实现更好的语义排列。在 Market-1501 Attribute、PETA 和 PA100K 数据集上进行的大量实验表明，我们提出的方法的性能大大超过了目前最先进的方法。