AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.20-2024.05.25

文章目录~

[1.LM4LV: A Frozen Large Language Model for Low-level Vision Tasks](#1.LM4LV: A Frozen Large Language Model for Low-level Vision Tasks)
[2.Disease-informed Adaptation of Vision-Language Models](#2.Disease-informed Adaptation of Vision-Language Models)
[3.VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap](#3.VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap)
[4.Composed Image Retrieval for Remote Sensing](#4.Composed Image Retrieval for Remote Sensing)
[5.SEP: Self-Enhanced Prompt Tuning for Visual-Language Model](#5.SEP: Self-Enhanced Prompt Tuning for Visual-Language Model)
[6.Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization](#6.Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization)
[7.SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance](#7.SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance)
[8.Learning from True-False Labels via Multi-modal Prompt Retrieving](#8.Learning from True-False Labels via Multi-modal Prompt Retrieving)
[9.CLIP model is an Efficient Online Lifelong Learner](#9.CLIP model is an Efficient Online Lifelong Learner)
[10.Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval](#10.Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval)
[11.Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models](#11.Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models)
[12.Explaining Multi-modal Large Language Models by Analyzing their Vision Perception](#12.Explaining Multi-modal Large Language Models by Analyzing their Vision Perception)
[13.Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet](#13.Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet)
[14.UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge](#14.UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge)
[15.Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations](#15.Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations)
[16.LG-VQ: Language-Guided Codebook Learning](#16.LG-VQ: Language-Guided Codebook Learning)
[17.Unveiling the Tapestry of Consistency in Large Vision-Language Models](#17.Unveiling the Tapestry of Consistency in Large Vision-Language Models)
[18.RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports](#18.RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports)
[19.AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability](#19.AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability)
[20.Refining Skewed Perceptions in Vision-Language Models through Visual Representations](#20.Refining Skewed Perceptions in Vision-Language Models through Visual Representations)
[21.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment](#21.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment)
[22.C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning](#22.C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning)
[23.Text-Video Retrieval with Global-Local Semantic Consistent Learning](#23.Text-Video Retrieval with Global-Local Semantic Consistent Learning)
[24.DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM](#24.DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM)

1.LM4LV: A Frozen Large Language Model for Low-level Vision Tasks

标题:LM4LV：用于低级视觉任务的冻结大型语言模型
author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15734v1

摘要：

大型语言模型（LLM）的成功促进了多模态大型语言模型（MLLM）这一新的研究趋势，改变了计算机视觉各个领域的研究范式。虽然 MLLM 在许多高级视觉和视觉语言任务（如 VQA 和文本到图像）中取得了可喜的成果，但还没有研究表明低级视觉任务如何从 MLLM 中受益。我们发现，由于视觉模块的设计原因，目前大多数 MLLM 对低层次特征视而不见，因此本质上无法解决低层次视觉任务。在这项工作中，我们设计了 t e x t b f L M 4 L V textbf{LM4LV} textbfLM4LV这个框架，它能让FROZEN LLM在没有任何多模态数据或先验数据的情况下解决一系列低级视觉任务。这展示了 LLM 在低级视觉领域的强大潜力，并缩小了 MLLM 与低级视觉任务之间的差距。我们希望这项工作能为 LLM 带来新的视角，并加深对其机制的理解。

2.Disease-informed Adaptation of Vision-Language Models

标题:根据疾病调整视觉语言模型
author:Jiajin Zhang, Ge Wang, Mannudeep K. Kalra, Pingkun Yan
publish:Early Accepted by MICCAI 2024
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15728v1

摘要：

在医学图像分析领域，专业知识的匮乏和数据标注的高成本限制了大型人工智能模型的开发。本文研究了预训练视觉语言模型（VLM）在这一领域的迁移学习潜力。目前，VLMs 仍难以迁移到代表性不足的疾病中，而预训练数据集中存在的新疾病则少之又少。我们认为，VLMs 的有效适应取决于疾病概念的细微表征学习。通过利用 VLM 的视觉语言联合能力，我们在新颖的疾病原型学习框架中引入了疾病相关的语境提示。即使数据有限，这种方法也能让 VLM 有效、高效地掌握新疾病的概念。在多种图像模式下进行的广泛实验表明，与现有技术相比，该方法的性能有了显著提高。

3.VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap

标题:VDGD：通过弥合视觉感知差距减轻认知提示中的 LVLM 幻觉
author:Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, Dinesh Manocha
publish:Preprint. Under review. Code will be released on paper acceptance
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15683v1

摘要：

最近，人们对用于实际应用的大型视觉语言模型（LVLMs）产生了浓厚的兴趣，但由于幻觉或事实信息与生成文本不一致这一重大挑战，这种兴趣有所减弱。在本文中，我们首先对幻觉进行了深入分析，并就 LVLM 如何以及何时产生幻觉发现了一些新见解。通过分析，我们发现(1)社区的努力主要是为了减少与视觉识别（VR）提示相关的幻觉（例如，只要求描述图像的提示），从而忽略了认知提示（例如，需要额外技能的提示，如推理图像内容）的幻觉。(2) LVLMs 缺乏视觉感知能力，即他们能看到但不一定能理解或感知输入的图像。我们分析了 LVLMs 对认知提示的反应，结果表明 LVLMs 产生幻觉是由于感知差距造成的：虽然 LVLMs 能准确识别输入图像中的视觉元素并具备足够的认知技能，但他们却难以做出准确的反应，从而产生幻觉。为了克服这一缺陷，我们提出了视觉描述基础解码（VDGD）--一种简单、稳健、无需训练的方法，用于缓解幻觉。具体来说，我们首先描述图像，并将其作为前缀添加到指令中。接下来，在自动回归解码过程中，我们根据图像描述的 KL-Divergence (KLD) 从可信的候选图像中进行采样，KLD 越低，优先级越高。在多个基准和 LVLM 上的实验结果表明，VDGD 在减少幻觉方面比其他基线方法有显著提高。我们还提出了用于全面评估 LVLM 认知能力的基准 VaLLu。

4.Composed Image Retrieval for Remote Sensing

标题:用于遥感的合成图像检索
author:Bill Psomas, Ioannis Kakogeorgiou, Nikos Efthymiadis, Giorgos Tolias, Ondrej Chum, Yannis Avrithis, Konstantinos Karantzalos
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15587v1

摘要：

这项工作将组成式图像检索引入遥感领域。它允许通过图像示例和文本描述交替查询大型图像档案，从而丰富了单模态查询（视觉或文本）的描述能力。文本部分可以修改各种属性，如形状、颜色或上下文。我们介绍了一种融合图像到图像和文本到图像相似性的新方法。我们证明，视觉语言模型具有足够的描述能力，无需进一步的学习步骤或训练数据。我们提出了一个新的评估基准，重点关注颜色、上下文、密度、存在性、数量和形状修改。我们的工作不仅为这项任务设定了最先进的标准，还为解决遥感图像检索领域的空白迈出了奠基性的一步。代码：https://github.com/billpsomas/rscir

5.SEP: Self-Enhanced Prompt Tuning for Visual-Language Model

标题:SEP：视觉语言模型的自我强化提示调整
author:Hantao Yao, Rui Zhang, Lu Yu, Changsheng Xu
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15549v1

摘要：

基于上下文优化（CoOp）的提示调整通过推断额外的可学习提示标记，有效地使视觉语言模型（VLM）适应下游任务。但是，这些提示符的区分度较低，因为它们独立于预训练的提示符，无法捕捉特定输入知识，如类感知文本知识或实例感知视觉知识。利用预训练标记固有的辨别和泛化能力，我们引入了一种名为 "自我增强提示调整"（SEP）的新方法。SEP 的核心原理是根据相应的自我预训练标记，调整每个编码器层中的可学习提示标记，从而明确地将判别性先验知识纳入其中，以增强文本级和视觉级嵌入。此外，SEP 的自我增强标记不仅能提高辨别能力，还能减轻未见领域中的领域偏移，从而增强泛化能力。在实际应用中，SEP 会在文本/视觉编码器的每一层，针对每个输入数据从所有预训练过的标记中选择几个具有代表性的标记。随后，引入标记融合模块（TFM），利用交叉关注机制将这些代表性标记与可学习标记合并，生成自我增强标记。然后，这个自我增强的标记会与所有预训练的标记连接起来，作为后续编码器层的输入，生成相关的嵌入。对各种基准和任务的综合评估证实了 SEP 在及时调整方面的功效。代码\href{Code}{https://github.com/htyao89/SEP}.

6.Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization

标题:通过幻觉诱导优化缓解大型视觉语言模型中的幻觉
author:Beitao Chen, Xinyu Lyu, Lianli Gao, Jingkuan Song, Heng Tao Shen
publish:10 pages. arXiv admin note: text overlap with arXiv:2311.16922 by

other authors
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15356v1

摘要：

虽然大型视觉语言模型（LVLM）在理解多模态数据方面表现出了卓越的能力，但它们总是会出现幻觉，导致生成的文本与相应的图像脱节。目前几乎所有的视觉对比解码方法都试图通过引入视觉不确定性信息来缓解这些幻觉，从而适当扩大幻觉与目标之间的对比对数差距。然而，由于全局视觉不确定性的不可控性，这些方法很难精确地诱导出幻觉标记，这严重限制了它们缓解幻觉的效果，甚至可能导致产生不希望出现的幻觉。为了解决这个问题，我们进行了理论分析，以促进对比解码的有效性。在此基础上，我们引入了一种名为 "幻觉诱导优化"（HIO）的新型优化策略。该策略旨在依靠微调的理论偏好模型（即相反布拉德利-特里模型）放大幻觉标记与目标标记之间的对比度，从而促进高效的对比度解码，减轻 LVLMs 中的幻觉。广泛的实验研究表明，我们的 HIO 策略可以有效减少 LVLM 中的幻觉，在各种基准测试中均优于最先进的方法。

7.SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance

标题:SG-Adapter：利用场景图引导增强文本到图像生成功能
author:Guibao Shen, Luozhou Wang, Jiantao Lin, Wenhang Ge, Chaozhe Zhang, Xin Tao, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Guangyong Chen, Yijun Li, Ying-Cong Chen
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15321v1

摘要：

扩散模型和多模态学习的发展推动了文本到图像生成技术的最新进展。然而，由于文本在这些模型中通常是按顺序表示的，因此往往无法提供准确的上下文和结构控制。因此，生成的图像并不能始终符合人类的期望，尤其是在涉及多个对象和关系的复杂场景中。在本文中，我们引入了场景图适配器（SG-Adapter），利用场景图的结构化表示来纠正原始文本嵌入中的不准确性。场景图适配器的显式非完全连接图表示法大大改进了基于转换器的完全连接文本表示法。这种改进在涉及多重关系的场景中保持精确对应方面尤为显著。为了应对 Visual Genome 等低质量注释数据集带来的挑战，我们手动策划了一个高度简洁的多关系场景图-图像配对数据集 MultiRels。此外，我们还设计了源自 GPT-4V 的三个指标，以有效、全面地衡量图像与场景图之间的对应关系。定性和定量结果都验证了我们的方法在控制多关系对应性方面的有效性。

标题:通过多模态提示检索学习真假标签
author:Zhongnian Li, Jinghao Xu, Peng Ying, Meng Wei, Tongfeng Sun, Xinzheng Xu
publish:15 pages, 4 figures
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15228v1

摘要：

最近，弱监督学习在降低注释成本和标签噪声方面取得了相当大的成功。遗憾的是，现有的弱监督学习方法在通过预训练视觉语言模型（VLM）生成可靠标签方面能力不足。在本文中，我们提出了一种新颖的弱监督标签设置，即真-假标签（TFLs），它能在 VLMs 生成标签时实现高准确率。TFL 表示实例是否属于从候选标签集中随机均匀抽取的标签。具体来说，我们从理论上推导出一种风险一致性估计器，用于探索和利用 TFL 的条件概率分布信息。此外，我们还提出了一种基于卷积的多模态提示检索（MRP）方法，以弥补 VLMs 知识与目标学习任务之间的差距。实验结果证明了所提出的 TFL 设置和 MRP 学习方法的有效性。重现实验的代码见 https://github.com/Tranquilxu/TMP。

9.CLIP model is an Efficient Online Lifelong Learner

标题:CLIP 模式是一种高效的在线终身学习模式
author:Leyuan Wang, Liuyu Xiang, Yujie Wei, Yunlong Wang, Zhaofeng He
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15155v1

摘要：

在线终身学习（OLL）解决了从连续和非稳态数据流中学习的难题。现有的基于图像分类模型的在线终身学习方法往往需要预设条件，如类的总数或最大内存容量，这阻碍了真正的永无止境学习的实现，使其在现实世界的应用场景中变得不切实际。在这项工作中，我们提出视觉语言模型（如对比语言-图像预训练（CLIP））更适合在线终身学习。我们发现，在在线终身学习中，保持图像和文本之间的对称性对 CLIP 模型的参数有效调整（PET）至关重要。为此，我们引入了图像-文本对称（SIT）调整策略。我们在多个终身学习基准数据集上进行了大量实验，并通过梯度分析阐明了 SIT 的有效性。此外，我们还评估了终身学习对 CLIP 通用性的影响，发现调整图像编码器有利于终身学习，而调整文本编码器则有助于零镜头学习。

标题:提炼视觉语言预训练，实现高效跨模态检索
author:Young Kyun Jang, Donghyun Kim, Ser-nam Lim
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14726v1

摘要：

哈希学习 "是一种高效检索的实用解决方案，具有检索速度快、存储成本低的特点。它被广泛应用于各种应用中，如图像-文本跨模态搜索。在本文中，我们探讨了随着功能强大的大型预训练模型（如视觉语言预训练（VLP）模型）的普及，提高哈希学习性能的潜力。我们引入了一种名为 "跨模态量化蒸馏（DCMQ）"的新方法，该方法利用 VLP 模型丰富的语义知识来改进哈希表示学习。具体来说，我们将 VLP 作为 "教师"，将知识提炼到配备了编码本的 "学生 "散列模型中。这一过程包括用 VLP 的丰富语义替换由多热点向量组成且缺乏语义的监督标签。最后，我们应用一种称为 "成对一致性归一化"（NPC）的转换，以实现提炼的鉴别目标。此外，我们还引入了一种新的量化方法--Gumbel 产品量化法（PQG），该方法可促进均衡的编码本学习，从而提高检索性能。广泛的基准测试表明，DCMQ 始终优于现有的监督跨模态散列方法，展示了其巨大的潜力。

标题:实现视觉语言模型的跨模态后向兼容表征学习
author:Young Kyun Jang, Ser-nam Lim
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14715v1

摘要：

由于新旧模型之间的嵌入不兼容，现代检索系统在升级到功能更强大的新模型时经常会遇到困难。这就需要一个昂贵的过程，即反向填充（backfilling），其中涉及重新计算大量数据样本的嵌入。在视觉领域，后向兼容训练（BT）已被提出，以确保新模型与旧模型的嵌入式一致。本文将纯视觉 BT 的概念扩展到跨模态检索领域，首次尝试解决跨模态 BT（XBT）问题。我们的目标是在跨模态检索任务中实现视觉语言预训练（VLP）模型（如 CLIP）之间的向后兼容性。为了应对 XBT 的挑战，我们提出了一个高效的解决方案：一个投影模块，用于将新模型的嵌入映射到旧模型的嵌入。该模块仅使用文本数据进行预训练，大大减少了 XBT 学习所需的图像-文本对的数量，而且一旦完成预训练，就能避免在训练过程中使用旧模型。此外，我们还采用了参数效率高的训练策略，通过避免任何修改，提高了效率并保留了现成新模型的知识。在跨模态检索数据集上的实验结果证明了 XBT 的有效性，以及它在新 VLP 模型出现时实现无回填升级的潜力。

标题:通过分析视觉感知解释多模态大型语言模型
author:Loris Giulivi, Giacomo Boracchi
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14612v1

摘要：

多模态大型语言模型（MLLMs）在理解和生成图像和文本等各种模态的内容方面表现出了非凡的能力。然而，它们的可解释性仍然是一个挑战，阻碍了它们在关键应用中的采用。本研究提出了一种新方法，通过关注图像嵌入组件来增强 MLLMs 的可解释性。我们将开放世界定位模型与 MLLM 相结合，从而创建了一种新的架构，能够通过相同的视觉嵌入同时生成文本和物体定位输出。所提出的架构大大提高了可解释性，使我们能够设计一个新颖的突出图来解释任何输出标记，识别模型幻觉，并通过语义对抗扰动来评估模型偏差。

标题:概念可视化：利用 WordNet 解释 CLIP 多模态嵌入
author:Loris Giulivi, Giacomo Boracchi
publish:Accepted for publication at IJCNN 2024
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14563v1

摘要：

多模态嵌入技术，特别是 CLIP 技术的进步，最近推动了计算机视觉（CV）领域的多项突破。CLIP 在各种任务中表现出了令人印象深刻的性能，然而，其固有的不透明架构可能会阻碍以 CLIP 为骨干的模型的应用，尤其是在对信任度和模型可解释性要求极高的领域，如医疗领域。目前 CV 模型的解释方法依赖于通过梯度分析或输入扰动计算出的 Saliency 地图。然而，这些显著性地图只能用于解释与最终任务相关的类别，其范围往往小于骨干训练类别。因此，在采用 CLIP 作为视觉骨干的模型中，学习到的表征中蕴含的大部分信息都无法解释。在这项工作中，我们提出了概念可视化（Concept Visualization，简称 ConVis）这一新颖的显著性方法，通过利用嵌入的多模态性质来解释图像的 CLIP 嵌入。ConVis 利用 WordNet 中的词汇信息为任何概念计算与任务无关的显著性地图，而不局限于终端模型所训练的概念。我们通过分布外检测实验验证了 WordNet 的使用，并在对象定位基准上测试了 ConVis，结果表明概念可视化能正确识别和定位图像的语义内容。此外，我们还进行了一项用户研究，证明我们的方法可以让用户深入了解模型的功能。

14.UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge

标题:UDKAG：用最新知识增强大型视觉语言模型
author:Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao, Yuwei Wu, Ping Luo, Yu Qiao, Kaipeng Zhang
publish:12 pages, 6 figures, a framework to augment large vision-language

models with up-to-date knowledge
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14554v1

摘要：

大型视觉语言模型（LVLM）对最新知识一无所知，如 LLaVA 系列，因为需要大量资源，无法频繁更新，因此在很多情况下都会失败。例如，如果一个 LVLM 于 2024 年 1 月发布，那么它就不知道新电影《沙丘 2》的详细情节，而这部电影直到 2024 年 2 月才上映。为了解决这个问题，一个很有前景的解决方案是在推理过程中通过互联网搜索为 LVLM 提供最新知识，即互联网增强生成（IAG），一些闭源商业 LVLM（如 GPT-4V）已经集成了这一功能。然而，支撑它们的具体机制仍然是个谜。在本文中，我们提出了一个即插即用的框架，用于增强现有的 LVLM，以处理有关最新知识的可视化问题解答（VQA），称之为 UDKAG。我们训练了一个分层过滤模型，以便从搜索引擎返回的网站中有效、高效地找到最有用的内容，用最新知识提示 LVLM。为了训练模型并评估我们框架的性能，我们提出了一个自动生成新闻相关 VQA 样本的管道，以构建一个数据集，命名为 UDK-VQA。我们引入了一种多模型投票机制，以标注网站/内容对 VQA 样本的有用性，从而构建训练集。实验结果证明了我们框架的有效性，准确率比 GPT-4V 高出约 25%。

15.Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations

标题:和谐：学习通用视觉表征的自监督和弱监督联合框架
author:Mohammed Baharoon, Jonathan Klein, Dominik L. Michels
publish:20 pages, 2 figures
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14239v1

摘要：

像 CLIP 这样的视觉语言对比学习框架能够从自然语言监督中学习表征，并提供强大的零点分类能力。然而，由于这些范例中监督信号的性质，它们缺乏学习局部特征的能力，导致在分割和检测等密集预测任务上的性能下降。另一方面，自监督学习方法已显示出学习细粒度表征的能力，可以补充视觉语言训练中的高级特征。在这项工作中，我们提出了 "和谐"（Harmony）框架，它将视觉语言训练与判别和生成自监督相结合，以学习可在视觉下游任务中通用的视觉特征。我们的框架专门设计用于网络抓取数据，不依赖负面示例，并使用 EMA 模型生成的软 CLIP 目标来解决一一对应问题。我们在各种视觉下游任务中对 Harmony 进行了全面评估，发现它的性能明显优于基准 CLIP 以及之前领先的自监督和弱监督联合方法 MaskCLIP 和 SLIP。具体来说，与这些方法相比，Harmony 在 ImageNet-1k 上的微调和零镜头分类、ADE20K 上的语义分割以及 MS-COCO 上的物体检测和实例分割方面都表现出色，而且在 CC3M 上预先训练了 ViT-S/16。我们还表明，在所有评估任务中，Harmony 的表现都优于 iBOT 和 MAE 等其他自监督学习方法。https://github.com/MohammedSB/Harmony 上公开了我们的代码。

16.LG-VQ: Language-Guided Codebook Learning

标题:LG-VQ：语言引导的编码学习
author:Guotao Liang, Baoquan Zhang, Yaowei Wang, Xutao Li, Yunming Ye, Huaibin Wang, Chuyao Luo, Kola Ye, linfeng Luo
publish:None
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14206v1

摘要：

矢量量化（VQ）是高分辨率和高保真图像合成中的一项关键技术，其目的是学习一个编码本，用离散码序列对图像进行编码，然后以自动回归的方式生成图像。虽然现有方法已显示出优越的性能，但大多数方法倾向于学习单模态编码本（图像），当编码本应用于多模态下游任务（文本到图像、图像字幕）时，由于模态间隙的存在，导致性能不理想。在本文中，我们提出了一个新颖的语言引导编码本学习框架，称为 LG-VQ，旨在学习一个能与文本对齐的编码本，以提高多模态下游任务的性能。具体来说，我们首先引入预先训练好的文本语义作为先验知识，然后设计两个新颖的对齐模块（\emph{i.e.}，语义对齐模块和关系对齐模块），将这些先验知识转化为代码，以实现代码本文本对齐。特别是，我们的 LG-VQ 方法与模型无关，可以很容易地集成到现有的 VQ 模型中。实验结果表明，我们的方法在重构和各种多模态下游任务中取得了优异的性能。

17.Unveiling the Tapestry of Consistency in Large Vision-Language Models

标题:揭开大型视觉语言模型一致性的面纱
author:Yuan Zhang, Fei Xiao, Tao Huang, Chun-Kai Fan, Hongyuan Dong, Jiawen Li, Jiacong Wang, Kuan Cheng, Shanghang Zhang, Haoyuan Guo
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14156v1

摘要：

大型视觉语言模型（LVLMs）近来取得了突飞猛进的发展，在视觉信息的感知和推理方面表现出卓越的能力。然而，当面对不同大小解空间的提示时，LVLMs 无法始终就同一知识点给出一致的答案。这种不同求解空间之间答案不一致的现象在 LVLM 中非常普遍，并会削弱信任度。为此，我们提供了一个多模式基准 ConBench，以直观地分析当提示的解空间围绕一个知识点旋转时，LVLM 的表现如何。基于 ConBench 工具，我们首次揭示了其中的奥秘，并得出以下结论：（1）在判别领域，提示的解空间越大，答案的准确性越低。(2）建立判别领域和生成领域之间的关系：判别题型的准确率与其与标题的一致性呈现出很强的正相关性。(3) 与开源模型相比，闭源模型在一致性方面表现出明显的偏差优势。最终，我们通过基于触发的诊断细化改善了 LVLM 的一致性，间接提高了其标题的性能。我们希望本文能加速研究界更好地评估其模型，并鼓励未来在一致性领域的进步。

18.RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports

标题:RET-CLIP：利用临床诊断报告预训练的视网膜图像基础模型
author:Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14137v1

摘要：

视觉语言基础模型在计算机视觉和自然语言处理领域的研究越来越多，但在眼科和更广泛的医学应用领域的探索仍然有限。其挑战在于缺乏用于基础模型训练的标记数据。为了解决这个问题，本文开发了一种 CLIP 式视网膜图像基础模型。我们的基础模型 RET-CLIP 是在一个包含 193,865 名患者的数据集上专门训练的，用于提取彩色眼底照片（CFP）的一般特征，并采用三方优化策略，重点关注左眼、右眼和患者水平，以反映真实世界的临床场景。广泛的实验证明，RET-CLIP 在糖尿病视网膜病变、青光眼、多种疾病诊断和多种疾病的多标签分类等四个关键诊断类别的八个不同数据集上的表现优于现有基准，这证明了我们的基础模型的性能和通用性。源代码和预训练模型可在 https://github.com/sStonemason/RET-CLIP 上获取。

标题:AlignGPT：具有自适应对齐功能的多模态大型语言模型
author:Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
publish:Code and models are available at
\href \href{https://aligngpt-vl.github.io/}{\textit{this https URL}} \href
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14129v1

摘要：

多模态大语言模型（MLLM）被广泛认为是探索人工通用智能（AGI）的关键。多模态大语言模型的核心在于其实现跨模态对齐的能力。为了实现这一目标，目前的 MLLM 通常采用两阶段训练模式：预训练阶段和指令调整阶段。尽管这些模型取得了成功，但在对齐能力建模方面仍存在不足。首先，在预训练阶段，模型通常假定所有图像-文本对都是统一对齐的，但实际上不同图像-文本对之间的对齐程度并不一致。其次，目前用于微调的指令包含多种任务，不同任务的指令通常需要不同程度的对齐能力，但以往的 MLLM 忽视了这些差异化的对齐需求。为了解决这些问题，我们提出了一种新的多模态大语言模型 AlignGPT。在预训练阶段，我们不对所有图像-文本对一视同仁，而是为不同的图像-文本对分配不同级别的配准能力。然后，在指令调整阶段，我们自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求。广泛的实验结果表明，我们的模型在 12 个基准测试中取得了具有竞争力的性能。

20.Refining Skewed Perceptions in Vision-Language Models through Visual Representations

标题:通过视觉表征完善视觉语言模型中的偏差认知
author:Haocheng Dai, Sarang Joshi
publish:18 pages, 7 figures
date Time:2024-05-22

paper pdf:http://arxiv.org/pdf/2405.14030v1

摘要：

大型视觉语言模型（VLM），如 CLIP，已成为基础系统，在各种下游任务中取得了显著的成功。尽管这些模型具有优势，但与其他基础系统一样，它们也会因真实世界数据的不成比例分布而产生偏差，从而导致对实际环境的误解。像 ImageNet 这样的流行数据集往往充斥着非因果、虚假的相关性，在缺乏这些上下文元素的情况下，会降低 VLM 的性能。本研究调查了一个简单的线性探针如何从 CLIP 的嵌入中有效地提炼出特定任务的核心特征，供下游应用使用。我们的分析表明，CLIP 文本表征经常会受到虚假相关性的影响，而这种相关性是在有偏见的预训练数据集中继承下来的。经验证据表明，与文本嵌入相比，依靠 CLIP 的视觉表征来完善 VLM 中的偏差感知更为实用，这强调了视觉表征在克服嵌入式偏差方面的优越性。我们的代码将在此处提供。

21.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment

标题:TOPA：通过纯文本预对齐扩展用于视频理解的大型语言模型
author:Wei Li, Hehe Fan, Yongkang Wong, Mohan Kankanhalli, Yi Yang
publish:32 pages, 12 figures, 11 tables
date Time:2024-05-22

paper pdf:http://arxiv.org/pdf/2405.13911v1

摘要：

图像理解领域的最新进展得益于网络图像-文本对的广泛使用。然而，尽管有大量的网络视频-文本数据，视频理解仍然是一个挑战。这一困难主要源于视频固有的复杂性和最近网络收集的视频-文本数据集中低效的语言监督。在本文中，我们介绍了纯文本预对齐（TOPA），这是一种扩展大型语言模型（LLM）用于视频理解的新方法，无需在真实视频数据上进行预训练。具体来说，我们首先利用先进的 LLM 自动生成由连续文本帧组成的文本视频以及相应的注释，以模拟真实的视频文本数据。然后，利用这些注释文本视频将纯语言 LLM 与视频模式进行预对齐。为了缩小文本视频与真实视频之间的差距，我们采用 CLIP 模型作为特征提取器来对齐图像和文本模态。在纯文本预对齐过程中，以 CLIP 文本特征序列编码的连续文本帧类似于连续的 CLIP 图像特征，从而将 LLM 与真实视频表示法对齐。广泛的实验（包括在各种视频理解任务上的零镜头评估和微调）表明，TOPA 是一种有效且高效的框架，可将视频内容与 LLM 对齐。特别是，在没有任何视频数据训练的情况下，TOPA-Llama2-13B 模型在具有挑战性的长视频理解基准 Egoschema 上达到了 51.0% 的 Top-1 准确率。这一成绩超越了以前的视频文本预训练方法，并证明了与最近基于 GPT-3.5 的视频代理的竞争力。

22.C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning

标题:C3L：内容相关的视觉语言教学通过对比学习调整数据生成
author:Ji Ma, Wei Suo, Peng Wang, Yanning Zhang
publish:Accepted by IJCAI-24
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12752v1

摘要：

视觉语言指令调整（VLIT）是大型视觉语言模型（LVLM）的关键训练阶段。随着开源 LVLM 功能的不断完善，越来越多的研究人员转而使用开源 LVLM 生成 VLIT 数据，并取得了重大进展。然而，这类数据生成方法受到以下挑战的制约：1) 由于多模态模型容易受到已有语言知识的影响，直接使用 LVLM 生成 VLIT 数据不可避免地会导致生成的数据与图像之间的内容相关性较低。2) 为了提高模型生成 VLIT 数据的能力，以前的方法都包含一个额外的训练阶段，以提高生成能力。这一过程会损害模型对未知输入的泛化能力（即 "暴露偏差 "问题）。在本文中，我们提出了一种通过对比学习（C3L）生成内容相关 VLIT 数据的新方法。具体来说，我们设计了一个新的内容相关性模块，通过计算图像指示对应分数 S(I2C)来增强 VLIT 数据与图像之间的内容相关性。此外，我们还引入了对比学习模块，以进一步提高 LVLM 的 VLIT 数据生成能力。在四个基准上的大量自动测量结果表明了我们方法的有效性。

23.Text-Video Retrieval with Global-Local Semantic Consistent Learning

标题:利用全局-本地语义一致性学习进行文本-视频检索
author:Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Yihang Duan, Xinyu Lyu, Hengtao Shen
publish:9 pages
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12710v1

摘要：

将大规模图像-文本预训练模型（如 CLIP）调整到视频领域代表了当前文本-视频检索的最先进水平。主要方法包括将文本-视频对转移到共同的嵌入空间，并利用特定实体上的跨模态交互进行语义对齐。这些方法虽然有效，但计算成本过高，导致检索效率低下。为了解决这个问题，我们提出了一种简单而有效的方法--全局-局部语义一致性学习（GLSCL），它利用跨模态的潜在共享语义进行文本-视频检索。具体来说，我们引入了一个无参数全局交互模块来探索粗粒度对齐。然后，我们设计了一个共享的局部交互模块，利用几个可学习的查询来捕捉潜在的语义概念，从而学习细粒度对齐。此外，我们还设计了一种 "一致性间损失"（Inter-Consistency Loss，ICL）来完成视觉查询与相应文本查询之间的概念对齐，并开发了一种 "多样性内损失"（Intra-Diversity Loss，IDL）来抑制视觉（文本）查询内的分布，从而生成更具区分性的概念。在五个广泛使用的基准（即 MSR-VTT、MSVD、DiDeMo、LSMDC 和 ActivityNet）上进行的大量实验证明了所提方法的卓越效果和效率。值得注意的是，我们的方法达到了与 SOTA 相当的性能，而且在计算成本方面快了近 220 倍。代码见：https://github.com/zchoi/GLSCL。

24.DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

标题:DTLLM-VLT：基于 LLM 的视觉语言跟踪的多样化文本生成
author:Xuchen Li, Xiaokun Feng, Shiyu Hu, Meiqi Wu, Dailing Zhang, Jing Zhang, Kaiqi Huang
publish:Accepted by CVPR Workshop 2024, Oral Presentation
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12139v1

摘要：

视觉语言跟踪（VLT）通过整合视频中的自然语言描述来增强单个物体跟踪（SOT）功能，从而实现对指定物体的精确跟踪。通过利用高级语义信息，VLT 可指导物体跟踪，减轻与依赖视觉模式相关的限制。然而，大多数 VLT 基准的注释粒度单一，缺乏连贯的语义框架来提供科学指导。此外，协调人类注释者进行高质量注释既费力又费时。为了应对这些挑战，我们引入了 DTLLM-VLT，它能自动生成广泛的多粒度文本，以增强环境多样性。(1) DTLLM-VLT 使用内聚提示框架生成科学的多粒度文本描述。DTLLM-VLT 设计简洁，适应性强，可无缝集成到各种视觉跟踪基准中。(2) 我们选择了三个著名的基准来部署我们的方法：短期跟踪、长期跟踪和全局实例跟踪。考虑到语义信息的范围和密度，我们为这些基准提供了四种粒度组合，从而展示了 DTLLM-VLT 的实用性和多功能性。(3) 我们在具有不同文本粒度的 VLT 基准上进行了对比实验，评估和分析了不同文本对跟踪性能的影响。总之，这项工作利用 LLM 从高效和多样化的角度为 VLT 任务提供了多粒度语义信息，从而实现了对多模态跟踪器的细粒度评估。未来，我们相信这项工作可以扩展到更多数据集，以支持对视觉数据集的理解。