AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.01-2024.07.05

文章目录～

[1.InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output](#1.InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output)
[2.BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations](#2.BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations)
[3.Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation](#3.Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation)
[4.Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective](#4.Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective)
[5.Fine-Grained Scene Image Classification with Modality-Agnostic Adapter](#5.Fine-Grained Scene Image Classification with Modality-Agnostic Adapter)
[6.MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context](#6.MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context)
[7.Light-weight Fine-tuning Method for Defending Adversarial Noise in Pre-trained Medical Vision-Language Models](#7.Light-weight Fine-tuning Method for Defending Adversarial Noise in Pre-trained Medical Vision-Language Models)
[8.D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions](#8.D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions)
[9.Improving Visual Storytelling with Multimodal Large Language Models](#9.Improving Visual Storytelling with Multimodal Large Language Models)
[10.MMedAgent: Learning to Use Medical Tools with Multi-modal Agent](#10.MMedAgent: Learning to Use Medical Tools with Multi-modal Agent)
[11.FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs](#11.FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs)
[12.SADL: An Effective In-Context Learning Method for Compositional Visual QA](#12.SADL: An Effective In-Context Learning Method for Compositional Visual QA)
[13.EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More](#13.EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More)
[14.Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time](#14.Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time)
[15.CLIP the Divergence: Language-guided Unsupervised Domain Adaptation](#15.CLIP the Divergence: Language-guided Unsupervised Domain Adaptation)
[16.FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources](#16.FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources)
[17.Semantic Compositions Enhance Vision-Language Contrastive Learning](#17.Semantic Compositions Enhance Vision-Language Contrastive Learning)
[18.GalLoP: Learning Global and Local Prompts for Vision-Language Models](#18.GalLoP: Learning Global and Local Prompts for Vision-Language Models)
[19.Learning Robust 3D Representation from CLIP via Dual Denoising](#19.Learning Robust 3D Representation from CLIP via Dual Denoising)
[20.From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning](#20.From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning)
[21.LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation](#21.LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation)
[22.Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models](#22.Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models)
[23.How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models](#23.How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models)

1.InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

标题:InternLM-XComposer-2.5：支持长语境输入和输出的多功能大型视觉语言模型
author:Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
publish:Technical Report. https://github.com/InternLM/InternLM-XComposer
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.03320v1

摘要：

我们提出了 InternLM-XComposer-2.5 (IXC-2.5)，它是一种支持长语境输入和输出的多功能大视野语言模型。IXC-2.5 在各种文本图像理解和合成应用中表现出色，只需 7B LLM 后端就能实现 GPT-4V 级别的能力。它以 24K 交错图像-文本上下文进行训练，可通过 RoPE 外推法无缝扩展到 96K 长上下文。这种长上下文能力使 IXC-2.5 在需要大量输入和输出上下文的任务中表现出色。与之前的 2.0 版本相比，InternLM-XComposer-2.5 在视觉语言理解方面有三大升级：(1) 超高分辨率理解，(2) 细粒度视频理解，以及 (3) 多轮多图像对话。除理解外，IXC-2.5 还扩展了两个引人注目的应用，将额外的 LoRA 参数用于文本图像合成：(1) 制作网页和 (2) 撰写高质量的文本图像文章。IXC-2.5 在 28 个基准上进行了评估，在 16 个基准上优于现有的开源先进模型。在 16 项关键任务上，它还超越了 GPT-4V 和 Gemini Pro，或与之不相上下。InternLM-XComposer-2.5 在 https://github.com/InternLM/InternLM-XComposer 上公开发布。

2.BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

标题:BACON：用概念图包为您的 VLM 充电，减少幻觉
author:Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.03314v1

摘要：

本文提出了 "概念图袋"（Bag-of-Concept Graph，BACON），为语言能力有限的模型提供礼物，让它们享受视觉语言模型（Vision Language Models，VLMs）的特权，并促进检测、视觉问题解答（Visual Question Answering，VQA）和图像生成等下游任务。由于物理世界中的视觉场景结构复杂，物体之间的关系错综复杂，因此 BACON 将注释分解为最基本的元素，并以图形结构呈现。按元素排列的风格便于理解，而结构化的组成则减轻了定位的难度。在公共可用的 VLM 和分割方法的帮助下，精心的提示设计诞生了 BACON 字幕。通过这种方式，我们收集了一个包含 10 万张注释图片的数据集，从而赋予了 VLMs 出色的能力，例如准确生成 BACON、将提示转化为 BACON 格式、以 BACONr 的风格设想场景，以及通过交互式对话动态修改 BACON 中的元素等。包括检测、VQA 和图像生成任务在内的大量具有代表性的实验表明，BACON 是实现以往遥不可及的任务或优化当前尖端解决方案的生命线。

3.Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation

标题:通过无监督知识提炼改进学习提示的零点泛化
author:Marco Mistretta, Alberto Baldrati, Marco Bertini, Andrew D. Bagdanov
publish:Accepted for publication at ECCV24
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.03056v1

摘要：

视觉语言模型（VLM）对未见任务的零点泛化效果显著，但在对数据有限的下游任务进行泛化时，其性能却不及监督方法。提示学习作为一种参数效率高的方法正在出现，用于调整 VLM，但最先进的方法需要注释样本。在本文中，我们提出了一种基于从更强大的模型中提炼知识的无监督提示学习新方法。我们将这种方法称为 "知识蒸馏提示学习（KDPL）"，它可以集成到现有的提示学习技术中，在适应过程中无需标注示例。我们在十多个标准基准数据集上进行的实验表明，KDPL 能非常有效地提高所学提示的泛化能力，从而解决零次领域泛化、零次跨数据集泛化和零次从基础到新类别泛化的问题。KDPL 不需要地面实况标签来进行适应性调整，而且我们还证明，即使在不知道任何训练类名称的情况下，它也能有效地传递知识。代码可在 https://github.com/miccunifi/KDPL 公开获取。

4.Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective

标题:图像比语言更有说服力：从因果中介的角度理解和缓解视觉语言模型中的偏差
author:Zhaotian Weng, Zijun Gao, Jerone Andrews, Jieyu Zhao
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.02814v1

摘要：

在大量数据集上预先训练的视觉语言模型（VLM）可能会通过将性别信息与特定物体或场景相关联而无意中学习到偏差。目前的方法侧重于修改输入和监控模型输出概率分数的变化，但往往难以从模型组件的角度全面理解偏差。我们提出了一个结合因果中介分析的框架，用于测量和绘制 VLM 中偏差产生和传播的途径。通过这种方法，我们可以确定干预措施对模型偏差的直接影响，以及干预措施通过不同模型组件对偏差的间接影响。我们的结果表明，图像特征是造成偏差的主要因素，其影响明显高于文本特征，在 MSCOCO 和 PASCAL-SENTENCE 数据集中分别占偏差的 32.57% 和 12.63%。值得注意的是，图像编码器的贡献超过了文本编码器和深度融合编码器。进一步的实验证实，来自语言和视觉模式的贡献是一致的，没有冲突。因此，在 MSCOCO 和 PASCAL-SENTENCE 数据集中，专注于模糊图像编码器中对模型偏差贡献最大的性别表征可分别将偏差有效减少 22.03% 和 9.04%，而性能损失或计算需求的增加却微乎其微。

5.Fine-Grained Scene Image Classification with Modality-Agnostic Adapter

标题:利用模态诊断适配器进行细粒度场景图像分类
author:Yiqun Wang, Zhao Zhou, Xiangcheng Du, Xingjiao Wu, Yingbin Zheng, Cheng Jin
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.02769v1

摘要：

在处理细粒度场景图像分类任务时，以往的大多数研究在进行多模态特征融合时都非常重视全局视觉特征。换句话说，这些模型都是基于对不同模态重要性的先验直觉而刻意设计的。在本文中，我们提出了一种名为 MAA（Modality-Agnostic Adapter，模态诊断适配器）的新多模态特征融合方法，试图让模型自适应地学习不同模态在不同情况下的重要性，而不在模型架构中进行先验设置。更具体地说，我们消除了分布中的模态差异，然后使用模态无关的变换器编码器进行语义级特征融合。我们的实验证明，通过采用与以往方法相同的模态，MAA 在基准测试中取得了最先进的结果。此外，值得一提的是，在使用 MAA 时还可以轻松添加新的模式，从而进一步提高性能。代码见 https://github.com/quniLcs/MAA。

6.MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context

标题:MedVH：在医学背景下对大型视觉语言模型的幻觉进行系统评估
author:Zishan Gu, Changchang Yin, Fenglin Liu, Ping Zhang
date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.02730v1

摘要：

最近，大型视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了优异的表现，这激发了对 LVLMs 进行微调和训练的大量研究。尽管这些模型取得了进步，但在较小的数据集上进行微调时，这些模型针对幻觉的鲁棒性研究却很少。在本研究中，我们引入了一个新的基准数据集--医学视觉幻觉测试（MedVH），以评估特定领域 LVLM 的幻觉能力。MedVH 包含五项任务，用于评估医学背景下 LVLM 的幻觉，其中包括全面理解文本和视觉输入以及生成长文本响应的任务。我们对普通 LVLM 和医学 LVLM 进行了大量实验，结果表明，虽然医学 LVLM 在标准医疗任务中表现出了良好的性能，但它们特别容易出现幻觉，通常比普通模型更容易出现幻觉，这让人对这些特定领域模型的可靠性产生了极大的担忧。要使医疗 LVLM 在实际应用中发挥真正的价值，它们不仅要准确地整合医学知识，还要保持强大的推理能力以防止幻觉。我们的工作为今后评估这些研究铺平了道路。

7.Light-weight Fine-tuning Method for Defending Adversarial Noise in Pre-trained Medical Vision-Language Models

标题:在预训练医学视觉语言模型中防御对抗性噪声的轻量级微调方法
author:Xu Han, Linghao Jin, Xuezhe Ma, Xiaofeng Liu
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02716v1

摘要：

微调预训练视觉语言模型（VLM）在医疗图像和文本描述协同方面表现出了卓越的能力。然而，许多预训练数据集受到患者隐私问题的限制，可能包含对下游性能产生不利影响的噪声。此外，对多模态生成的日益依赖也加剧了这一问题，因为它很容易受到对抗性攻击。为了研究在对抗性噪声数据上训练的 VLM 在下游医疗任务中的表现，我们首先利用多模态对抗性攻击制作了噪声上游数据集。通过综合分析，我们发现适度的噪声能增强模型的鲁棒性和可转移性，但噪声水平的增加会对下游任务的性能产生负面影响。为了缓解这一问题，我们提出了矫正对抗性噪声（RAN）框架，该框架旨在有效防御对抗性攻击，并在微调过程中矫正上游噪声的影响。

标题:D-Rax：利用多模态数据和 eXpert 模型预测的特定领域放射学助手
author:Hareem Nisar, Syed Muhammad Anwar, Zhifan Jiang, Abhijeet Parida, Vishwesh Nath, Holger R. Roth, Marius George Linguraru
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02604v1

摘要：

大型视觉语言模型（VLMs）从研究到应用于一般用途的进展令人难以置信。LLaVA-Med 是用于生物医学的大型语言和视觉助手的先驱，可以执行多模态生物医学图像和数据分析，为放射科医生提供自然语言界面。虽然它具有很强的通用性并能处理多模态数据，但目前却受到大型语言模型领域存在的众所周知的挑战的限制。幻觉和不精确的反应可能会导致误诊，目前这阻碍了 VLM 的临床适应性。为了在医疗保健领域创建精确、用户友好的模型，我们提出了 D-Rax--一种特定领域的、会话式的放射辅助工具，可用于深入了解特定的放射图像。在这项研究中，我们加强了胸部 X 光（CXR）图像的会话分析，以支持放射报告，提供医学影像的全面见解，并帮助制定准确的诊断。D-Rax是通过微调LLaVA-Med架构实现的，LLaVA-Med架构基于我们策划的增强型指令跟踪数据，包括图像、指令，以及从MIMIC-CXR成像数据、CXR相关可视化问题答案（VQA）对和多个专家人工智能模型预测结果中得出的疾病诊断和人口统计学预测。在对开放式和封闭式对话进行评估时，我们观察到回复率在统计学上有明显提高。利用最先进的诊断模型与 VLMs 的结合，D-Rax 使临床医生能够使用自然语言与医学图像进行交互，这有可能简化他们的决策过程、提高诊断准确性并节省他们的时间。

9.Improving Visual Storytelling with Multimodal Large Language Models

标题:利用多模态大语言模型改进视觉故事制作
author:Xiaochuan Lin, Xiangyong Chen
publish:10 pages
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02586v1

摘要：

视觉叙事是一个新兴领域，它将图像与叙事相结合，创造出引人入胜、背景丰富的故事。尽管视觉故事具有巨大的潜力，但由于视觉信息和文本信息的整合非常复杂，因此生成连贯且能引起情感共鸣的视觉故事仍然具有挑战性。本文介绍了一种利用大型语言模型（LLM）和大型视觉语言模型（LVLM）并结合指令调整来应对这些挑战的新方法。我们引入了一个新的数据集，该数据集包含各种视觉故事，并标注了详细的标题和多模态元素。我们的方法采用监督学习和强化学习相结合的方式对模型进行微调，从而增强其叙事生成能力。使用 GPT-4 进行的定量评估和人类的定性评估表明，我们的方法明显优于现有模型，在叙事连贯性、相关性、情感深度和整体质量方面都获得了更高的分数。这些结果凸显了教学调整的有效性，以及 LLMs/LVLMs 在推进视觉叙事方面的潜力。

标题:MMedAgent：通过多模态代理学习使用医疗工具
author:Binxu Li, Tiankai Yan, Yuanting Pan, Zhe Xu, Jie Luo, Ruiyang Ji, Shilong Liu, Haoyu Dong, Zihao Lin, Yixin Wang
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02483v1

摘要：

多模态大语言模型（MLLMs）尽管取得了成功，但其通用性有限，与专业模型相比往往存在不足。最近，人们开发了基于 LLM 的代理，通过根据用户输入选择适当的专业模型作为工具来应对这些挑战。然而，这种进步尚未在医疗领域得到广泛探索。为了弥补这一差距，本文介绍了第一个明确为医疗领域设计的代理，命名为多模态医疗代理（MMedAgent）。我们策划了一个指令调整数据集，其中包括解决七项任务的六种医疗工具，使代理能够为给定任务选择最合适的工具。综合实验证明，与最先进的开源方法甚至闭源模型 GPT-4o 相比，MMedAgent 在各种医疗任务中都取得了卓越的性能。此外，MMedAgent 在更新和整合新的医疗工具方面也表现出了高效率。

标题:FineCLIPER：利用 AdaptERs 进行动态面部表情识别的多模式细粒度 CLIP
author:Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao
publish:Project Page: https://haroldchen19.github.io/FineCLIPER-Page/
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02157v1

摘要：

动态面部表情识别（DFER）对于理解人类行为至关重要。然而，目前的方法表现出的性能有限，主要原因是高质量数据稀缺、对面部动态的利用不足以及表情语义的模糊性等。为此，我们提出了一个新颖的框架，名为 "利用 AdaptERs 进行动态面部表情识别的多模态细粒度 CLIP（FineCLIPER）"，其中包含以下新颖的设计：1) 为了更好地区分相似的面部表情，我们将类标签扩展到正面和负面的文字描述，并通过计算基于 CLIP 模型的跨模态相似度获得监督；2) 我们的 FineCLIPER 采用分层方式，有效地从动态面部表情视频中挖掘有用的线索。具体来说，除了直接嵌入视频帧作为输入（低语义层）外，我们还建议根据每帧提取人脸分割掩码和地标（中语义层），并利用多模态大语言模型（MLLM）进一步生成带有设计提示的跨帧人脸变化详细描述（高语义层）。此外，我们还采用了参数高效微调（PEFT）技术，以实现对大型预训练模型（即 CLIP）的高效适应。我们的 FineCLIPER 在 DFEW、FERV39k 和 MAFW 数据集上实现了 SOTA 性能，在有监督和零拍摄设置下，只需很少的可调参数。分析和烧蚀研究进一步验证了其有效性。

12.SADL: An Effective In-Context Learning Method for Compositional Visual QA

标题:SADL：构图式视觉质量保证的有效情境学习方法
author:Long Hoang Dang, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.01983v1

摘要：

大型视觉语言模型（LVLMs）为视觉质量保证提供了一种执行上下文学习（ICL）的新功能。LVLMs 已经证明，当使用一些图像-问题-答案三连拍的演示进行提示时，LVLMs 能够辨别潜在的模式，并将这些潜在的知识用于回答有关未见图像的新问题，而无需进行昂贵的监督微调。然而，人们对设计有效的视觉语言提示，尤其是针对构图问题的提示，仍然知之甚少。调整纯语言 ICL 技术并不一定奏效，因为我们需要弥合视觉语言语义之间的差距：符号概念必须以视觉内容为基础，而视觉内容并不共享句法语言结构。本文介绍了一种新的视觉语言提示框架--SADL。SADL 围绕三个关键要素展开：图像-问题对的SAmpling、Deliberation和Pseudo-Labeling。给定一个图像-问题查询，我们从训练数据中抽取与查询语义相近的图像-问题对。针对问题的组成性质，审议步骤将复杂问题分解为一系列子问题。最后，每次对一个子问题进行注释，以生成伪标签序列。我们在大型可视化质量保证数据集（即 GQA、GQA-OOD、CLEVR 和 CRIC）上研究了 OpenFlamingo 下的 SADL 行为。评估结果表明，图像附近的采样、复杂问题的分解以及子问题和标签的准确配对都起到了关键作用。这些发现并不总是与纯语言 ICL 中的发现一致，这表明在视觉语言环境中存在新的见解。

13.EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More

标题:EIT-1M：用于人类视觉-文字识别的百万脑电图-图像-文字对及其他内容
author:Xu Zheng, Ling Wang, Kanghao Chen, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang
date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.01884v1

摘要：

最近，脑电图（EEG）信号被积极纳入视觉或文字刺激的大脑活动解码，并在多模态人工智能中实现对象识别。因此，人们一直致力于从视觉或文本单模态刺激中建立基于脑电图的数据集。然而，这些数据集为每个类别提供的脑电图时间有限，而且向参与者呈现的刺激语义复杂，影响了捕捉精确大脑活动的质量和保真度。神经科学研究揭示了脑电图记录中视觉和文字刺激之间的关系，为了解大脑同时处理和整合多模态信息的能力提供了宝贵的见解。受此启发，我们提出了一个新颖的大规模多模态数据集，名为 EIT-1M，其中包含 100 多万个脑电图-图像-文本对。我们的数据集在反映大脑同时处理多模态信息的活动方面具有优势。为此，我们在参与者交替观看来自 60K 幅自然图像和特定类别文本的视觉-文本刺激序列时收集数据对。为了更好地引起参与者大脑的反应，我们还加入了常见的语义类别。同时，为了确保数据的多样性，还加入了基于反应的刺激计时和跨块、跨环节重复。为了验证 EIT-1M 的有效性，我们对从不同类别和参与者的多模态刺激中捕获的脑电图数据进行了深入分析，并提供了数据质量评分以提高透明度。我们在两项任务中证明了它的有效性：1）从视觉或文字刺激或两者中进行脑电图识别；2）脑电图到视觉生成。

14.Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

标题:猫鼬立足时空的视听大语言模型
author:Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
publish:Accepted at ECCV 2024
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01851v2

摘要：

利用大型语言模型在基于文本的任务中的卓越能力，最近有关多模态大型语言模型（MLLM）的研究将其扩展到了其他模态，如视觉和音频。然而，这些方向的进展大多集中在只需要粗粒度理解视听语义的任务上。我们介绍的 Meerkat 是一种视听 LLM，它具备对图像和音频在空间和时间上的细粒度理解。有了基于最优传输的新模态对齐模块和强制实现视听一致性的交叉注意模块，Meerkat 就能处理具有挑战性的任务，如音频参考图像接地、图像引导的音频时间定位和视听事实检查。此外，我们还精心策划了一个大型数据集 AVFIT，其中包括从开源数据集收集的 3M 指令调谐样本，并引入了 MeerkatBench，将五个具有挑战性的视听任务统一起来。我们在所有这些下游任务上都取得了一流的性能，相对改进幅度高达 37.12%。

15.CLIP the Divergence: Language-guided Unsupervised Domain Adaptation

标题:CLIP the Divergence：语言引导的无监督领域适应
author:Jinjing Zhu, Yucheng Chen, Lin Wang
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01842v1

摘要：

无监督领域适应（UDA）已成为解决标注源领域和未标注目标领域之间差异的一种流行解决方案。最近，一些研究人员开始利用大型视觉语言模型（如 CLIP），然后对其进行微调或从中学习提示语，以解决具有挑战性的 UDA 任务。我们的主要想法是利用 CLIP：1）通过获取的领域无关分布测量领域分歧；2）在语言指导下校准目标伪标签，从而有效缩小领域差距，提高 UDA 模型的泛化能力。具体来说，我们的主要技术贡献在于提出了两种新颖的语言引导领域分歧测量损失：绝对分歧和相对分歧。这些损失项提供了精确的准则，用于将源域和目标域的分布与 CLIP 得出的域无关分布相一致。此外，我们还提出了一种语言引导的伪标签策略，用于校准目标伪标签。在此基础上，我们证明了进一步实现自我训练可以增强 UDA 模型在目标领域的泛化能力。CLIP-Div 显著超越了基于 CNN 的先进方法，在 Office-Home 上实现了 +10.3% 的性能提升，在 Office-31 上实现了 +1.5% 的性能提升，在 VisDA-2017 上实现了 +0.2% 的性能提升，在 DomainNet 上实现了 +24.3% 的性能提升。

16.FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources

标题:FastCLIP：利用有限资源加快 CLIP 培训的一套优化技术
author:Xiyuan Wei, Fanjiang Ye, Ori Yonay, Xingyu Chen, Baixi Sun, Dingwen Tao, Tianbao Yang
publish:23 pages
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01445v1

摘要：

在大规模数据上训练最先进的对比语言-图像预训练（CLIP）模型的现有研究，由于需要大量批处理，因此需要数百甚至数千个 GPU。然而，大多数人无法获得如此大量的资源。虽然用于优化全局对比损失的先进组合优化技术已被证明能有效消除对大批量的要求，但它们在大规模数据上的性能仍未得到充分探索和优化。为了弥补这一差距，本文从几个方面探讨了如何利用有限的资源（如最多几十个 GPU）进行 CLIP 训练。首先，我们介绍了 FastCLIP，这是一个基于高级组合优化技术的通用 CLIP 训练框架，同时针对分布式环境进行了设计和优化。我们的框架配备了高效的梯度降低策略，以减少通信开销。其次，为了进一步提高训练效率，我们从优化的角度研究了框架的三个组成部分：内部学习率、温度参数和模型参数的更新规则。针对每个组成部分的不同策略进行的实验揭示了如何更高效地进行 CLIP 训练。最后，我们对FastCLIP和最先进的训练基线（OpenCLIP）在不同计算规模（最多32个GPU，8个节点）和三种数据规模（从270万、910万到3.15亿图像文本对）上的性能进行了基准测试，以证明FastCLIP在资源有限的环境中的显著改进。我们在 https://github.com/Optimization-AI/fast_clip 上发布了 FastCLIP 的代码。

17.Semantic Compositions Enhance Vision-Language Contrastive Learning

标题:语义合成增强视觉语言对比学习
author:Maxwell Aladago, Lorenzo Torresani, Soroush Vosoughi
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01408v1

摘要：

在视觉语言对比学习领域，CLIP 等模型利用匹配的图像标题对作为正例，并利用批次内的非匹配对作为负例。这种方法在零镜头图像分类、跨模态检索和线性评估任务中取得了显著成果。我们的研究表明，通过在预训练中引入语义复合示例，CLIP 类模型的零镜头分类和检索能力可以得到显著提高。受视觉分类中的 CutMix 的启发，我们通过一种新颖的程序合并数据集中两个不同实例的元素，从而创建语义复合的图像标题对。我们的方法融合了标题，并混合了每张图片的 50%，从而形成一个新的复合样本。这种简单的技术（CLIP-C，即 CLIP Compositions）不需要任何额外的计算开销或增加模型参数，就能显著改善零镜头图像分类和跨模态检索。在预训练数据相对有限的情况下，CLIP-C 的优势尤为明显。

18.GalLoP: Learning Global and Local Prompts for Vision-Language Models

标题:GalLoP：为视觉语言模型学习全局和局部提示
author:Marc Lafon, Elias Ramzi, Clément Rambour, Nicolas Audebert, Nicolas Thome
publish:To be published at ECCV 2024
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01400v1

摘要：

提示学习已被广泛应用于有效调整视觉语言模型（VLMs），如 CLIP，以进行少镜头图像分类。尽管取得了成功，但大多数提示学习方法都在分类准确性和鲁棒性之间进行了权衡，例如在领域泛化或分布外检测（OOD）方面。在这项工作中，我们引入了全局-局部提示（GalLoP），这是一种新的提示学习方法，可利用全局和局部视觉特征学习多种不同的提示。本地提示的训练依赖于本地特征，并增强了视觉与文本的一致性。为了只关注相关特征，在选择局部特征时，这种局部对齐与稀疏性策略相结合。我们使用一种新的 "提示剔除 "技术和一种本地提示多尺度策略来实现提示集的多样性。在 11 个数据集上，GalLoP 的准确性优于之前的提示学习方法。此外，GalLoP 在领域泛化和 OOD 检测方面都表现出很强的鲁棒性，甚至优于专用的 OOD 检测方法。重现我们结果的代码和说明将开源。

19.Learning Robust 3D Representation from CLIP via Dual Denoising

标题:通过双重去噪从 CLIP 学习鲁棒三维表征
author:Shuqing Luo, Bowen Qu, Wei Gao
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.00905v1

摘要：

在本文中，我们探讨了一个关键但尚未得到充分研究的问题：如何从 CLIP 等预先训练好的视觉语言模型中学习稳健且具有良好泛化能力的 3D 表示。以往的研究表明，跨模态提炼可以为三维数据提供丰富而有用的知识。然而，与大多数深度学习模型一样，由此产生的三维学习网络仍然容易受到对抗性攻击，尤其是迭代攻击。在这项工作中，我们提出了双去噪技术（Dual Denoising），这是一种新颖的框架，可用于从 CLIP 中学习稳健、广义的三维表征。它将基于去噪的代理任务与用于三维预训练的新型特征去噪网络相结合。此外，我们还建议利用并行噪声推理来增强点云特征在跨域设置下的泛化能力。实验表明，我们的模型可以有效提高三维学习网络在零镜头设置下的表示学习性能和对抗鲁棒性，而无需对抗训练。我们的代码见 https://github.com/luoshuqing2001/Dual_Denoising。

20.From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning

标题:从自省到最佳实践：多模态情境学习中的示范原则分析
author:Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen
date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.00902v1

摘要：

受大型语言模型（LLM）的上下文学习（ICL）能力的启发，当提供多个图像-文本对作为演示时，具有额外视觉模式的多模态 LLM 也表现出类似的 ICL 能力。然而，在研究多模态 ICL 工作原理及其原因方面的工作相对较少。我们针对不同规模的模型，在广泛的新任务和关键任务中对多模态 ICL 进行了系统性和原则性评估。通过对不同模态信息的扰动，我们表明，在多模态 ICL 的不同任务中，模态的影响是不同的。考虑到这种模式影响，我们进一步利用模式驱动的演示策略来提高 ICL 性能。我们还发现，演示选择与模型捕捉多模态 ICL 任务归纳偏差的能力密切相关。我们的原则性分析为理解演示在多模态情境学习中的作用提供了一种全面的方法，并揭示了在各种任务中有效提高多模态情境学习能力的方法，即使这些任务在预训练数据中并不存在，甚至与预训练数据相矛盾。

21.LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation

标题:LLM4GEN：利用 LLM 的语义表示进行文本到图像的生成
author:Mushui Liu, Yuhang Ma, Xinfeng Zhang, Yang Zhen, Zeng Zhao, Zhipeng Hu, Bai Liu, Changjie Fan
publish:11 pages, 13 figures
date Time:2024-06-30

paper pdf:http://arxiv.org/pdf/2407.00737v1

摘要：

扩散模型在文本到图像的生成方面取得了巨大成功。然而，在处理涉及多个对象、属性绑定和冗长描述的复杂而密集的提示时，它们往往会遇到挑战。本文提出了一个名为 \textbf{LLM4GEN} 的框架，它通过利用大型语言模型（LLM）的语义表示来增强文本到图像扩散模型的语义理解能力。通过专门设计的跨适配器模块（CAM），将文本到图像模型的原始文本特征与 LLM 特征相结合，LLM4GEN 可以作为即插即用组件轻松集成到各种扩散模型中，并增强文本到图像的生成能力。此外，为了便于理解复杂而密集的提示语义，我们开发了一个经过 LAION 改进的数据集，该数据集由 100 万 (M) 文本-图像对组成，并改进了图像描述。我们还引入了 DensePrompts，其中包含 7,000 个密集提示，为文本到图像的生成任务提供了全面的评估。LLM4GEN 只需要最新 ELLA 所需的 10% 的训练数据，就能显著提高 SD1.5 和 SDXL 的语义对齐度，在 T2I-CompBench 上的色彩对齐度分别提高了 7.69% 和 9.60%。在 DensePrompts 上进行的大量实验还表明，LLM4GEN 在样本质量、图像-文本对齐和人工评估方面都超越了现有的一流模型。项目网站\textcolor{magenta}{\url{https://xiaobul.github.io/LLM4GEN/}}

22.Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

标题:调查并缓解大型视觉语言模型中的多模态幻觉 "滚雪球 "现象
author:Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin
publish:Accepted to ACL 2024 Main Conference. 21 pages, 20 figures
date Time:2024-06-30

paper pdf:http://arxiv.org/pdf/2407.00569v1

摘要：

虽然大型视觉语言模型（LVLMs）在用人类语言理解视觉信息方面取得了进步，但它仍然受到多模态幻觉的困扰。人们自然会担心，在多模态交互过程中，产生的幻觉可能会影响大型视觉语言模型的后续生成。因此，我们提出了一个问题：当出现与之前产生的幻觉相关的询问时，即使存在地面视觉信息，LVLMs 是否会被误导并做出错误的回应？为了回答这个问题，我们提出了一个名为 "MMHalSnowball "的框架，用于评估LVLMs在遇到幻觉时的行为。至关重要的是，我们的实验表明，开源 LVLMs 的性能至少下降了 31%$，这表明 LVLMs 容易接受生成的幻觉，并提出错误的主张，而如果没有分心，它们是不会支持这些主张的。我们将这种现象称为 "多模态幻觉滚雪球"（Multimodal Hallucination Snowballing）。为了缓解这种现象，我们进一步提出了一种无需训练的方法，称为 "残余视觉解码"（Residual Visual Decoding），即用从残余视觉输入中得到的信息来修正 LVLMs 的输出分布，从而为模型提供直接获取视觉信息的途径。实验表明，我们的方法可以在保持能力的同时，缓解超过24%的滚雪球式多模态幻觉。

23.How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models

标题:如何培训事实核查员：利用多模态开放模型进行知识转移
author:Jaeyoung Lee, Ximing Lu, Jack Hessel, Faeze Brahman, Youngjae Yu, Yonatan Bisk, Yejin Choi, Saadia Gabriel
date Time:2024-06-29

paper pdf:http://arxiv.org/pdf/2407.00369v1

摘要：

鉴于新闻和社交媒体中的不实信息越来越多，亟需能够对新闻声称进行有效实时验证的系统。有人提出了基于大语言或多模态模型的验证方法，以加强在线监管机制，减少虚假和有害内容的传播。虽然这些方法有可能减轻人工事实核查人员的负担，但基础模型训练数据的过时可能会阻碍这种努力。在这项工作中，我们利用现有的域内和域间基准或大型语言模型（LLM）生成的解释，通过对知识转移的初步研究，测试了在不持续更新的情况下提高基础模型性能的极限。我们对 12 个公共基准进行了评估，包括事实检查和错误信息检测，以及与内容管理相关的另外两个任务--毒性和立场检测。我们在 Mocheg 和 Fakeddit 这两个最新的多模态事实检查基准上得出的结果表明，知识转移策略可以将 Fakeddit 的性能比最先进水平提高 1.7%，将 Mocheg 的性能比最先进水平提高 2.9%。