AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.25-2024.03.31

文章目录~

[1.Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models](#1.Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models)
[2.Are We on the Right Way for Evaluating Large Vision-Language Models?](#2.Are We on the Right Way for Evaluating Large Vision-Language Models?)
[3.Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations](#3.Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations)
[4.H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model](#4.H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model)
[5.Negative Label Guided OOD Detection with Pretrained Vision-Language Models](#5.Negative Label Guided OOD Detection with Pretrained Vision-Language Models)
[6.Context-Aware Integration of Language and Visual References for Natural Language Tracking](#6.Context-Aware Integration of Language and Visual References for Natural Language Tracking)
[7.FairCLIP: Harnessing Fairness in Vision-Language Learning](#7.FairCLIP: Harnessing Fairness in Vision-Language Learning)
[8.Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving](#8.Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving)
[9.Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition](#9.Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition)
[10.Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation](#10.Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation)
[11.Text Data-Centric Image Captioning with Interactive Prompts](#11.Text Data-Centric Image Captioning with Interactive Prompts)
[12.CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models](#12.CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models)
[13.Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models](#13.Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models)
[14.Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models](#14.Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models)
[15.Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding](#15.Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding)
[16.Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP](#16.Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP)
[17.An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM](#17.An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM)
[18.ReMamber: Referring Image Segmentation with Mamba Twister](#18.ReMamber: Referring Image Segmentation with Mamba Twister)
[19.Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models](#19.Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models)
[20.m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt](#20.m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt)
[21.OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation](#21.OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation)

1.Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

标题:无法解决的问题检测：评估视觉语言模型的可信度
author:Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa
publish:Code: https://github.com/AtsuMiyai/UPD
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20331v1

摘要：

本文介绍了视觉语言模型（VLM）面临的一个新颖而重大的挑战，即无法解决的问题检测（UPD）。在视觉问题解答（VQA）任务中，UPD 考察的是视觉语言模型在遇到无法解决的问题时拒绝回答的能力。UPD 包括三种不同的设置：缺失答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD）。为了深入研究 UPD 问题，广泛的实验表明，包括 GPT-4V 和 LLaVA-Next-34B 在内的大多数 VLM 在不同程度上都难以胜任我们的基准测试，这凸显了改进的巨大空间。为了解决 UPD 问题，我们探索了免训练和基于训练的解决方案，对它们的有效性和局限性提出了新的见解。我们希望，我们的见解以及未来在建议的 UPD 设置中的努力，将增强对更实用、更可靠的 VLM 的更广泛理解和开发。

2.Are We on the Right Way for Evaluating Large Vision-Language Models?

标题:我们走在评估大型视觉语言模型的正确道路上吗？
author:Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, Feng Zhao
publish:Project page: https://mmstar-benchmark.github.io/
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20330v1

摘要：

大型视觉语言模型（LVLM）近来取得了飞速发展，引发了大量评估其多模态能力的研究。然而，我们深入研究了当前的评估工作，发现了两个主要问题：1) 许多样本不需要视觉内容。答案可以直接从问题和选项或 LLM 中嵌入的世界知识中推断出来。这种现象在目前的基准中普遍存在。例如，在没有任何视觉输入的情况下，GeminiPro 在 MMMU 基准测试中取得了 42.9% 的成绩，在六项基准测试中平均超过随机选择基准 20% 以上。2) LLM 和 LVLM 训练中存在无意数据泄漏。LLM 和 LVLM 在没有视觉内容的情况下仍能回答一些视觉必需的问题，这表明这些样本在大规模训练数据中已被记忆。例如，Sphinx-X-MoE 在不访问图像的情况下，MMMU 的得分率为 43.6%，超过了其 LLM 骨干的 17.9%。这两个问题都会导致对实际多模态收益的误判，并有可能误导对 LVLM 的研究。为此，我们推出了 MMStar，这是一个不可或缺的精英视觉多模态基准，由人类精心挑选的 1,500 个样本组成。MMStar 对 6 种核心能力和 18 个细节轴进行了基准测试，旨在通过精心平衡和纯化的样本来评估 LVLM 的多模态能力。这些样本首先是通过自动管道从当前基准中粗选出来的，然后再由人工进行审核，以确保每一个精心挑选的样本都具有视觉依赖性、最小的数据泄漏，并且需要先进的多模态能力。此外，我们还开发了两个指标来衡量多模态训练中的数据泄漏和实际性能增益。我们在 MMStar 上对 16 种领先的 LVLM 进行了评估，以评估它们的多模态能力，并在 7 个基准上使用所提出的指标来研究它们的数据泄漏和实际多模态增益。

3.Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations

标题:学会说 "不 "才能更好地说 "是"：通过否定改进视觉语言模型
author:Jaisidh Singh, Ishaan Shrivastava, Mayank Vatsa, Richa Singh, Aparna Bharati
publish:14 pages + 6 figures in main manuscript (excluding references)
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20312v1

摘要：

现有的视觉语言模型（VLM）将文本描述视为一个单元，从而混淆了提示中的各个概念，影响了视觉语义匹配和推理。逻辑和语言推理的一个重要方面就是否定。本文强调了流行的 VLM（如 CLIP）在理解否定词的含义（即 "不是 "一词在给定提示中的效果）方面存在的局限性。为了能够对带有否定词的流畅提示进行 VLM 评估，我们提出了 CC-Neg，这是一个包含 228,246 张图片、真实标题及其相应否定词标题的数据集。利用 CC-Neg 以及对 CLIP 对比损失的修改，我们提出的 CoN-CLIP 框架可以更好地理解否定词。这种训练范式提高了 CoN-CLIP 对语义进行可靠编码的能力，从而使 8 个数据集的零镜头图像分类准确率平均提高了 3.85%。此外，CoN-CLIP 在 SugarCREPE 等具有挑战性的组合性基准上的表现比 CLIP 高出 4.4%，展示了对文本中的对象、关系和属性的组合性理解。总之，我们的工作通过引入数据集和框架，加强了图像和文本之间的语义关联，解决了 VLM 的一个关键局限，展示了经过改进的大规模基础模型，同时显著降低了计算成本，提高了效率和可访问性。

4.H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

标题:H2RSVLM：走向有益和诚实的遥感大型视觉语言模型
author:Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Xingxing Weng, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He
publish:Equal contribution: Chao Pang, Jiang Wu; Corresponding author:

Gui-Song Xia, Conghui He
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20213v1

摘要：

通用的大型视觉语言模型（VLMs）发展迅速，但在遥感（RS）领域仍表现不佳，这是由于遥感图像的独特性和专业性，以及目前的视觉语言模型的空间感知能力相对有限。现有的遥感专用视觉语言模型（RSVLM）仍有很大的改进潜力，这主要是由于缺乏大规模、高质量的遥感视觉语言数据集。我们构建了 HqDC-1.4M，即大规模高质量和详细的 RS 图像标题，其中包含 140 万个图像标题对，这不仅增强了 RSVLM 对 RS 图像的理解，还显著提高了模型的空间感知能力，如定位和计数，从而增加了 RSVLM 的帮助。此外，为了解决 RSVLM 中不可避免的 "幻觉 "问题，我们开发了 RSSA，这是第一个旨在增强 RSVLM 自我认知能力的数据集。通过在典型的 RS 视觉问题解答任务中加入各种无法回答的问题，RSSA 有效地提高了模型输出的真实性并减少了幻觉，从而提高了 RSVLM 的真实性。在这些数据集的基础上，我们提出了 H2RSVLM，即 "有用且诚实的遥感视觉语言模型"。H2RSVLM 在多个 RS 公共数据集上取得了优异的性能，能够识别并拒绝回答无法回答的问题，有效地减少了错误生成。我们将在 https://github.com/opendatalab/H2RSVLM 发布代码、数据和模型权重。

5.Negative Label Guided OOD Detection with Pretrained Vision-Language Models

标题:利用预训练的视觉语言模型进行负标签引导的 OOD 检测
author:Xue Jiang, Feng Liu, Zhen Fang, Hong Chen, Tongliang Liu, Feng Zheng, Bo Han
publish:ICLR 2024 Spotlight
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.20078v1

摘要：

分布外检测（OOD）的目的是识别未知类别的样本，在防止意外输入错误的可信模型中发挥着至关重要的作用。大量研究致力于探索视觉模式下的 OOD 检测。视觉语言模型（VLM）可以同时利用文本和视觉信息来实现各种多模态应用，而很少有 OOD 检测方法考虑到文本模态的信息。在本文中，我们提出了一种名为 NegLabel 的新型事后 OOD 检测方法，该方法从广泛的语料库中获取大量负面标签。我们设计了一种新颖的方案，用于计算与负面标签协作的 OOD 分数。理论分析有助于理解负面标签的机制。广泛的实验证明，我们的方法 NegLabel 在各种 OOD 检测基准上取得了最先进的性能，并且在多种 VLM 架构上具有良好的通用性。此外，我们的方法 NegLabel 对不同领域的变化具有显著的鲁棒性。代码见 https://github.com/tmlr-group/NegLabel。

6.Context-Aware Integration of Language and Visual References for Natural Language Tracking

标题:语境感知整合语言和视觉参考，实现自然语言跟踪
author:Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen
publish:Accepted by CVPR2024
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.19975v1

摘要：

通过自然语言规范（TNL）进行跟踪的目的是，根据初始帧中的语言描述，在视频序列中持续定位目标。现有的方法分别执行基于语言和基于模板的目标推理匹配，并将两个来源的匹配结果合并，当语言和视觉模板与动态目标状态错位时，就会出现跟踪漂移，在后期合并阶段也会出现模糊。为了解决这些问题，我们提出了一个多模态联合跟踪框架，其中包括：1）一个提示调制模块，利用时空视觉模板和语言表达之间的互补性，实现精确的、上下文感知的外观和语言线索；2）一个统一的目标解码模块，整合多模态参考线索，并在搜索图像上执行整合查询，以端到端的方式直接预测目标位置。这种设计通过利用历史视觉信息来确保时空一致性，并引入了集成解决方案，只需一步即可生成预测结果。在 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 上进行的大量实验验证了我们提出的方法的有效性。实验结果表明，与最先进的跟踪和接地方法相比，我们的方法在性能上具有竞争力。

7.FairCLIP: Harnessing Fairness in Vision-Language Learning

标题:FairCLIP：在视觉语言学习中实现公平
author:Yan Luo, Min Shi, Muhammad Osama Khan, Muhammad Muneeb Afzal, Hao Huang, Shuaihang Yuan, Yu Tian, Luo Song, Ava Kouhana, Tobias Elze, Yi Fang, Mengyu Wang
publish:CVPR 2024
date Time:2024-03-29

paper pdf:http://arxiv.org/pdf/2403.19949v1

摘要：

公平性是深度学习中的一个关键问题，尤其是在医疗保健领域，因为这些模型会影响诊断和治疗决策。尽管在纯视觉领域已经对公平性进行了研究，但由于用于研究公平性的医学视觉语言（VL）数据集非常稀少，因此医学视觉语言（VL）模型的公平性仍未得到探索。为了弥补这一研究空白，我们引入了首个公平视觉语言医学数据集 FairVLMed，该数据集提供了详细的人口统计属性、地面实况标签和临床笔记，便于深入研究 VL 基础模型的公平性。利用 FairVLMed，我们对两个广泛使用的 VL 模型（CLIP 和 BLIP2）进行了全面的公平性分析，这两个模型在自然和医学领域都进行过预先训练，涉及四个不同的受保护属性。我们的分析结果表明，所有 VL 模型都存在明显的偏差，在种族、性别、民族和语言等受保护属性方面，亚裔、男性、非西班牙裔和西班牙语分别是优先选择的子群体。为了减轻这些偏差，我们提出了 FairCLIP，这是一种基于最优传输的方法，通过减少总体样本分布与每个人口统计群体对应分布之间的辛克霍恩距离，在性能和公平性之间实现有利的权衡。作为首个同类 VL 数据集，FairVLMed 有潜力推动机器学习模型的发展，使其既具有道德意识，又在临床上行之有效。我们的数据集和代码见 https://ophai.hms.harvard.edu/datasets/fairvlmed10k。

8.Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving

标题:用于自动驾驶中问题解答的多帧轻量级高效视觉语言模型
author:Akshay Gopalkrishnan, Ross Greer, Mohan Trivedi
publish:9 pages, 3 figures
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19838v1

摘要：

视觉语言模型（VLM）和多模态语言模型（MMLM）已成为自动驾驶研究的重点，因为这些模型可以利用交通场景图像和其他数据模态为端到端自动驾驶安全任务提供可解释的文本推理和响应。然而，这些系统的现有方法使用了昂贵的大型语言模型（LLM）骨干和图像编码器，使得这些系统不适合内存受限且需要快速推理的实时自动驾驶系统。为了解决这些问题，我们开发了 EM-VLM4AD，这是一种高效、轻量级的多帧视觉语言模型，可为自动驾驶提供视觉问题解答。与之前的方法相比，EM-VLM4AD 所需的内存和浮点运算至少减少了 10 倍，同时在 DriveLM 数据集上获得的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数也高于现有基线。EM-VLM4AD 还能从交通视图中提取与提示相关的信息，并能回答各种自动驾驶子任务的问题。我们在 https://github.com/akshaygopalkr/EM-VLM4AD 上发布了用于训练和评估模型的代码。

标题:自动语音识别的多阶段多模式预训练
author:Yash Jain, David Chan, Pranav Dheram, Aparna Khare, Olabanji Shonibare, Venkatesh Ravichandran, Shalini Ghosh
publish:Accepted in LREC-COLING 2024 - The 2024 Joint International

Conference on Computational Linguistics, Language Resources and Evaluation
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19822v1

摘要：

机器学习的最新进展表明，与随机初始化模型相比，多模态预训练可以提高自动语音识别（ASR）性能，即使是在单模态任务上对模型进行微调时也是如此。现有的针对 ASR 任务的多模态预训练方法主要集中在单阶段预训练上，即使用单个无监督任务进行预训练，然后在下游任务上进行微调。在这项工作中，我们介绍了一种将多模式和多任务无监督预训练与基于翻译的有监督中期训练方法相结合的新方法。我们通过实证证明，这种多阶段方法在 Librispeech 和 SUPERB 上的相对词错误率 (WER) 比基线提高了 38.45%。此外，我们还分享了选择预训练方法和数据集的几个重要发现。

10.Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation

标题:Img2Loc：利用多模态基础模型和基于图像的检索增强生成重新审视图像地理定位问题
author:Zhongliang Zhou, Jielu Zhang, Zihan Guan, Mengxuan Hu, Ni Lao, Lan Mu, Sheng Li, Gengchen Mai
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19584v1

摘要：

传统方法通常采用分类法（将地球表面划分为网格单元并相应地对图像进行分类）或检索法（通过将图像与图像位置对数据库进行匹配来确定位置）。然而，基于分类的方法受到单元大小的限制，无法得出精确的预测结果，而基于检索的系统通常搜索质量较差，在不同尺度和聚合级别上对全球景观的覆盖范围不足。为了克服这些弊端，我们提出了 Img2Loc，这是一种将图像地理定位重新定义为文本生成任务的新型系统。该系统利用 GPT4V 或 LLaVA 等尖端大型多模态模型，通过检索增强生成来实现这一目标。Img2Loc 首先采用基于 CLIP 的表示法生成基于图像的坐标查询数据库。然后，它将查询结果与图像本身独特地结合起来，形成专为 LMM 定制的详细提示。在 Im2GPS3k 和 YFCC4k 等基准数据集上进行测试时，Img2Loc 不仅超越了以前最先进模型的性能，而且无需进行任何模型训练。

11.Text Data-Centric Image Captioning with Interactive Prompts

标题:以文本数据为中心、带有互动提示的图像字幕制作
author:Yiyu Wang, Hao Luo, Jungang Xu, Yingfei Sun, Fan Wang
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19193v1

摘要：

有监督的图像字幕制作方法取得了长足的进步，但要收集高质量的人类注释图像文本数据却很有挑战性。最近，大规模视觉和语言模型（如 CLIP）和大规模生成语言模型（如 GPT-2）在各种任务中表现出了强劲的性能，这也为使用网络配对数据、非配对数据甚至纯文本数据的图像标题制作提供了一些新的解决方案。其中，主流的解决方案是借助 CLIP 模型中图像-文本对之间的一致表示，将图像嵌入投射到文本嵌入空间。然而，目前的方法在以统一的解决方案适应数据配置的多样性、准确估计图像-文本嵌入偏差以及在推理阶段修正不理想的预测结果等方面仍面临一些挑战。本文提出了一种新的以文本数据为中心的方法，并将其命名为 TIPCap。1) 我们考虑了四种不同的设置，逐步减少对配对数据的依赖。2) 我们构建了一个由多元高斯分布驱动的映射模块，以减少模态差距，该模块适用于上述四种不同的设置。3) 我们提出了一个提示交互模块，可以在生成字幕前加入可选的提示信息。大量实验表明，我们的 TIPCap 优于其他弱监督或无监督图像标题制作方法，并在两个广泛使用的数据集（即 MS-COCO 和 Flickr30K）上取得了新的一流性能。

12.CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models

标题:CLAP4CLIP：视觉语言模型的概率微调持续学习
author:Saurav Jha, Dong Gong, Lina Yao
publish:Work under review
date Time:2024-03-28

paper pdf:http://arxiv.org/pdf/2403.19137v1

摘要：

持续学习（CL）旨在帮助深度神经网络学习新知识，同时保留已学知识。最近，具有强大泛化能力的预训练视觉语言模型（如 CLIP）作为实用的 CL 候选模型受到越来越多的关注。然而，预训练与下游视觉语言任务之间的领域不匹配要求对后者的视觉语言模型进行微调。现有微调方法的确定性使其忽略了各种模态之间可能存在的许多交互作用，因此不适合需要可靠的不确定性估计的高风险 CL 任务。为了解决这些问题，我们的工作提出了具有概率微调功能的持续学习（CLAP）。CLAP 在特定任务模块上开发了具有视觉引导文本特征的概率建模，从而在 CL 中提供更可靠的微调。它利用 CLIP 丰富的预训练知识对特定任务模块进行权重初始化和分布正则化，从而进一步减轻遗忘。通过与现有的各种提示方法合作，CLAP 可以超越使用 CLIP 的主要确定性微调方法。最后，我们研究了 CLAP 在 CL 设置中用于新数据检测和范例选择的卓越不确定性估计能力。我们的代码可在（url{https://github.com/srvCodes/clap4clip}.

13.Envisioning MedCLIP: A Deep Dive into Explainability for Medical Vision-Language Models

标题:设想 MedCLIP：深入研究医学视觉语言模型的可解释性
author:Anees Ur Rehman Hashmi, Dwarikanath Mahapatra, Mohammad Yaqub
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18996v1

摘要：

面对每天都在出现的多模态模型，尤其是在医疗成像等安全关键领域，解释深度学习模型变得越来越重要。然而，由于缺乏对这些模型的可解释性方法性能的详细研究，这些模型的开发与安全部署之间的差距越来越大。在这项工作中，我们分析了各种可解释人工智能方法在视觉语言模型 MedCLIP 上的性能，以揭开其内部运作的神秘面纱。我们还提供了一种简单的方法来克服这些方法的缺点。我们的工作提供了一个不同的新视角，来看待最近在医疗领域中一个著名的 VLM 的可解释性，而且我们的评估方法可以推广到其他当前和未来可能出现的 VLM。

14.Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

标题:迷你双子座：挖掘多模态视觉语言模型的潜力
author:Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
publish:Code and models are available at

https://github.com/dvlab-research/MiniGemini
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18814v1

摘要：

在这项工作中，我们介绍了迷你双子座，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等先进模型相比，性能差距依然存在。我们试图从高分辨率视觉标记、高质量数据和 VLM 引导生成这三个方面挖掘 VLM 的潜力，以提高性能和实现任意对任意的工作流程，从而缩小差距。为了增强视觉标记，我们建议在不增加视觉标记数量的情况下，利用额外的视觉编码器进行高分辨率细化。我们还进一步构建了一个高质量的数据集，以促进精确的图像理解和基于推理的生成，从而扩大当前 VLM 的操作范围。总体而言，Mini-Gemini 进一步挖掘了 VLM 的潜力，并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列密集和 MoE 大型语言模型 (LLM)。事实证明，它在多个零射频基准测试中取得了领先的性能，甚至超过了已开发的私有模型。代码和模型可从 https://github.com/dvlab-research/MiniGemini 获取。

15.Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

标题:在大型视觉-语言模型中利用指令对比解码减轻幻觉
author:Xintong Wang, Jingheng Pan, Liang Ding, Chris Biemann
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18715v1

摘要：

大型视觉语言模型（LVLMs）越来越善于从视觉输入生成上下文详细而连贯的反应。然而，它们在多模态决策和开放式生成中的应用却受到明显的幻觉率的阻碍，即生成的文本不准确地代表了视觉内容。为了解决这个问题，本文介绍了指示对比解码（ICD）方法，这是一种旨在减少 LVLM 推理过程中出现幻觉的新方法。我们之所以采用这种方法，是因为我们观察到所谓的干扰指令会显著加剧多模态融合模块中的幻觉。ICD 将标准和干扰指令的分布进行对比，从而增加对齐的不确定性，并有效地从原始分布中减去幻觉概念。通过对判别基准（POPE 和 MME）和生成基准（LLaVa-Bench）的全面实验，我们证明了 ICD 能显著减轻对象级和属性级幻觉。此外，我们的方法不仅能解决幻觉问题，还能显著增强 LVLM 的一般感知和识别能力。

16.Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP

标题:语言在 CLIP 的对象-属性组合泛化中发挥着关键作用
author:Reza Abbasi, Mohammad Samiei, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah
publish:Oral accepted at OODCV 2023(http://www.ood-cv.org)
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18525v1

摘要：

视觉语言模型（如 CLIP）已在各种类型的分布变化中显示出良好的分布外（OoD）泛化能力。最近的研究试图探究这种能力的主要原因。在这项工作中，我们遵循同样的路径，但将重点放在一种特定类型的 OoD 数据上，即具有属性-对象对的新颖组合的图像，并研究此类模型是否能成功地将这些图像分类到组合类别中。我们精心设计了一个名为 ImageNet-AO 的真实图像测试数据集，其中包含 CLIP 训练集中不太可能遇到的对象属性。我们发现，与监督模型和使用 CC-12M 和 YFCC-15M 等较小数据集训练的 CLIP 相比，使用 OpenAI CLIP、LAION-400M 和 LAION-2B 等大型数据集训练的 CLIP 在有效的构图 OoD 泛化方面有数量级的提高。我们的研究结果证明，训练数据的规模和多样性以及语言监督在释放视觉语言模型的合成泛化能力方面起着关键作用。

17.An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM

标题:一个图像网格可以抵得上一段视频使用 VLM 进行零镜头视频答题
author:Wonkyun Kim, Changin Choi, Wonseok Lee, Wonjong Rhee
publish:Our code is available at https://github.com/imagegridworth/IG-VLM
date Time:2024-03-27

paper pdf:http://arxiv.org/pdf/2403.18406v1

摘要：

在最近的大型语言模型（LLM）的复杂推理能力的刺激下，人们设计出了多种连接视频模式的策略。视频语言模型（VideoLMs）是其中一个突出的策略，它利用视频数据训练可学习的界面，将高级视觉编码器与 LLMs 连接起来。最近，出现了另一种策略，即利用视频语言模型（VideoLMs）和 LLMs 等现成的基础模型，在多个阶段实现模态桥接。在本研究中，我们介绍了一种简单而新颖的策略，即只使用一个视觉语言模型（VLM）。我们的出发点是一个朴素的观点，即视频由一系列图像或帧组成，并与时间信息交织在一起。视频理解的精髓在于对每一帧图像的时间信息和空间信息进行有效管理。起初，我们通过将多个帧按网格布局排列，将视频转换成单一的合成图像。由此产生的单一图像被称为图像网格。这种格式在保持单幅图像外观的同时，有效保留了网格结构中的时间信息。因此，图像网格方法可以直接应用单一的高性能 VLM，而无需任何视频数据训练。我们对 10 个零镜头视频问题解答基准（包括 5 个开放式基准和 5 个多项选择基准）进行了广泛的实验分析，结果表明所提出的图像网格视觉语言模型（IG-VLM）在 10 个基准中的 9 个基准中超越了现有方法。

18.ReMamber: Referring Image Segmentation with Mamba Twister

标题:ReMamber：使用 Mamba Twister 进行参考图像分割
author:Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong, Ya Zhang, Yanfeng Wang
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17839v1

摘要：

利用变换器进行参考图像分割（RIS）在解释复杂的视觉语言任务方面取得了巨大成功。然而，二次计算成本使其在捕捉长距离视觉语言依赖关系时非常耗费资源。幸运的是，Mamba 通过高效的线性处理复杂性解决了这一问题。然而，将 Mamba 直接应用于多模态交互却面临着挑战，这主要是由于有效融合多模态数据所需的信道交互不足。在本文中，我们提出了一种新型 RIS 架构 ReMamber，它将 Mamba 的强大功能与多模态 Mamba Twister 块集成在一起。Mamba Twister 明确地模拟了图像与文本的交互，并通过其独特的通道和空间扭曲机制融合了文本和视觉特征。我们在三个具有挑战性的基准测试中取得了一流的成绩。此外，我们还对 ReMamber 进行了深入分析，并讨论了使用 Mamba 的其他融合设计。这些都为未来的研究提供了宝贵的视角。

19.Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models

标题:双记忆网络：视觉语言模型的多功能自适应方法
author:Yabin Zhang, Wenjie Zhu, Hui Tang, Zhiyuan Ma, Kaiyang Zhou, Lei Zhang
publish:CVPR2024; Codes are available at \url{https://github.com/YBZh/DMN}
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17589v1

摘要：

随着像 CLIP 这样的预训练视觉语言模型的出现，如何将它们适应各种下游分类任务成为近期研究的重要关注点。适配策略通常可分为三种范式：零镜头适配、少镜头适配和最近提出的免训练少镜头适配。大多数现有方法都是为特定环境量身定制的，只能满足其中的一种或两种范式。在本文中，我们介绍了一种多功能适应方法，它能在所有三种情况下有效工作。具体来说，我们提出了由动态和静态存储器组成的双存储器网络。静态内存缓存训练数据知识，实现免训练的少量适应，而动态内存则在测试过程中在线保留历史测试特征，允许探索训练集之外的其他数据洞察。这种新颖的功能增强了模型在少量测试环境中的性能，并实现了模型在没有训练数据的情况下的可用性。这两种记忆网络采用了相同的灵活记忆交互策略，可在无训练模式下运行，并可通过加入可学习投影层进一步增强。我们的方法在三种任务设置下的 11 个数据集上进行了测试。值得注意的是，在 "0-shot "场景下，我们的方法比现有方法优胜3%以上，甚至比利用外部训练数据的方法更胜一筹。此外，我们的方法在应对自然分布变化时表现出了强劲的性能。代码见 \url{https://github.com/YBZh/DMN}。

20.m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt

标题:m3P：利用多模态提示实现多模态多语言翻译
author:Jian Yang, Hongcheng Guo, Yuwei Yin, Jiaqi Bai, Bing Wang, Jiaheng Liu, Xinnian Liang, Linzheng Cahi, Liqun Yang, Zhoujun Li
publish:COLING 2024
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17556v1

摘要：

多语种翻译通过将所有语言投射到一个共享空间来支持多个翻译方向，但在纯文本模式下，语言之间的差异会影响翻译质量，尤其是当语言数量较多时。为了弥补这一缺陷，我们引入了视觉语境作为与语言无关的通用表征，以促进多语言翻译。在本文中，我们提出了一个利用多模态提示来指导多模态多语言神经机器翻译（m3P）的框架，该框架将具有相同含义的不同语言的表征统一起来，并生成用于翻译的条件视觉语言记忆。我们构建了一个支持 102 种语言的多语言多模态指令数据集（InstrMulti102）。我们的方法旨在通过将图像视为中心语言来最小化不同语言的表示距离。实验结果表明，m3P 在很大程度上优于之前的纯文本基线和多语言多模态方法。此外，探测实验验证了我们的方法在低资源和大规模多语言场景下增强翻译的有效性。

标题:OVER-NAV：利用开放式词汇检测和结构化表示提升迭代视觉语言导航能力
author:Ganlong Zhao, Guanbin Li, Weikai Chen, Yizhou Yu
publish:Accepted by CVPR 2024
date Time:2024-03-26

paper pdf:http://arxiv.org/pdf/2403.17334v1

摘要：

迭代视觉与语言导航（IVLN）技术的最新进展，通过在不同场景中保持代理的记忆，为 VLN 引入了一种更有意义、更实用的范例。虽然长期记忆更符合 VLN 任务的持久性，但它对如何利用高度非结构化的导航记忆和极度稀疏的监督提出了更多挑战。为此，我们提出了 OVER-NAV，旨在超越当前的 IVLN 技术。特别是，我们建议结合 LLM 和开放词汇检测器来提炼关键信息，并建立多模态信号之间的对应关系。这种机制引入了可靠的跨模态监督，并能在不需要额外注释和重新训练的情况下，对未见场景进行即时泛化。为了充分利用解读后的导航数据，我们进一步引入了一种结构化表示法（编码为 Omnigraph），以有效整合沿途的多模态信息。配合新颖的全图融合机制，OVER-NAV 能够从全图中提取最相关的知识，以实现更准确的导航操作。此外，OVER-NAV 还能在统一框架下无缝支持离散和连续环境。我们在大量实验中证明了 OVER-NAV 的优越性。