AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.31-2024.04.05

文章目录~

[1.Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning](#1.Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning)
[2.DeViDe: Faceted medical knowledge for improved medical vision-language pre-training](#2.DeViDe: Faceted medical knowledge for improved medical vision-language pre-training)
[3.Is CLIP the main roadblock for fine-grained open-world perception?](#3.Is CLIP the main roadblock for fine-grained open-world perception?)
[4.MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens](#4.MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens)
[5.Diverse and Tailored Image Generation for Zero-shot Multi-label Classification](#5.Diverse and Tailored Image Generation for Zero-shot Multi-label Classification)
[6.LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models](#6.LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models)
[7.Harnessing the Power of Large Vision Language Models for Synthetic Image Detection](#7.Harnessing the Power of Large Vision Language Models for Synthetic Image Detection)
[8.RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation](#8.RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation)
[9.What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases](#9.What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases)
[10.ViTamin: Designing Scalable Vision Models in the Vision-Language Era](#10.ViTamin: Designing Scalable Vision Models in the Vision-Language Era)
[11.VLRM: Vision-Language Models act as Reward Models for Image Captioning](#11.VLRM: Vision-Language Models act as Reward Models for Image Captioning)
[12.OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation](#12.OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation)
[13.Evaluating Text-to-Visual Generation with Image-to-Text Generation](#13.Evaluating Text-to-Visual Generation with Image-to-Text Generation)
[14.Getting it Right: Improving Spatial Consistency in Text-to-Image Models](#14.Getting it Right: Improving Spatial Consistency in Text-to-Image Models)
[15.Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning](#15.Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning)
[16.From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models](#16.From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models)
[17.LLM meets Vision-Language Models for Zero-Shot One-Class Classification](#17.LLM meets Vision-Language Models for Zero-Shot One-Class Classification)
[18.Do Vision-Language Models Understand Compound Nouns?](#18.Do Vision-Language Models Understand Compound Nouns?)
[19.TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias](#19.TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias)
[20.CLIP-driven Outliers Synthesis for few-shot OOD detection](#20.CLIP-driven Outliers Synthesis for few-shot OOD detection)
[21.Bayesian Exploration of Pre-trained Models for Low-shot Image Classification](#21.Bayesian Exploration of Pre-trained Models for Low-shot Image Classification)
[22.Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training](#22.Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training)

1.Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

标题:了解你的邻居：通过空间视觉语言推理改进单视图重构
author:Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari
publish:CVPR 2024. Project page: https://ruili3.github.io/kyn
date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03658v1

摘要：

从单个视图恢复三维场景几何是计算机视觉领域的一个基本问题，但也是一个难题。传统的深度估计方法只能推断出仅限于图像平面的 2.5D 场景表示，而最新的基于辐射场的方法则能重建完整的 3D 表示。然而，这些方法在处理遮挡区域时仍有困难，因为在没有视觉观察的情况下推断几何图形需要（i）周围环境的语义知识，以及（ii）空间上下文推理。我们提出的 KYN 是一种用于单视角场景重建的新方法，它通过推理语义和空间上下文来预测每个点的密度。我们引入了视觉语言调制模块，利用细粒度语义信息丰富点特征。我们通过一种语言引导的空间注意力机制来聚合整个场景中的点表征，从而根据三维语义背景来预测每个点的密度。我们的研究表明，与单独预测每个三维点的密度相比，KYN 能够改善三维形状的恢复。我们在 KITTI-360 上的场景和物体重建中取得了最先进的结果，并显示与之前的工作相比，零点泛化得到了改善。项目页面：https://ruili3.github.io/kyn。

2.DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

标题:DeViDe：面面俱到的医学知识，用于改进医学视觉语言预培训
author:Haozhe Luo, Ziyu Zhou, Corentin Royer, Anjany Sekuboyina, Bjoern Menze
publish:arXiv admin note: text overlap with arXiv:2208.04060 by other authors
date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03618v1

摘要：

胸部 X 光片的视觉语言预培训已经取得了长足的进步，主要是通过利用成对的 X 光片和放射学报告。然而，现有方法在有效编码医学知识方面往往面临挑战。虽然放射学报告提供了对当前疾病表现的见解，但医学定义（当代方法所使用的定义）往往过于抽象，造成了知识上的空白。为了解决这个问题，我们提出了 DeViDe，这是一种基于转换器的新方法，可利用开放网络中的放射描述。这些描述概括了射线照片中疾病的一般视觉特征，与抽象定义和放射学报告相结合，提供了一个整体的知识快照。DeViDe 融合了知识增强视觉语言配准的三个关键功能：首先，采用基于大型语言模型的增强技术，对不同来源的医学知识进行同质化。其次，将这些知识与不同粒度的图像信息进行配准。第三，提出了一个新颖的投影层，以处理将每幅图像与多标签设置中出现的多个描述进行对齐的复杂性。在零镜头设置中，DeViDe 在外部数据集上的表现与完全监督模型相当，并在三个大规模数据集上取得了一流的结果。此外，在四项下游任务和六项分割任务中对 DeViDe 进行的微调显示了它在不同分布数据中的卓越性能。

3.Is CLIP the main roadblock for fine-grained open-world perception?

标题:CLIP 是精细化开放世界感知的主要障碍吗？
author:Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Fabrizio Falchi
date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03539v1

摘要：

现代应用越来越需要灵活的计算机视觉模型，以适应训练过程中未遇到的新概念。这种必要性在扩展现实、机器人和自动驾驶等新兴领域至关重要，因为这些领域需要对开放世界的刺激做出反应。其中一个关键要素是能够根据推理时定义的自由形式文本查询来识别对象--这项任务被称为开放词汇对象检测。CLIP 等多模态骨干是当前开放世界感知解决方案的主要支持技术。尽管在通用查询方面表现出色，但最近的研究强调了开放词汇环境下细粒度识别能力的局限性，即在区分颜色、形状和材料等细微物体特征方面的局限性。在本文中，我们对这些开放词汇的对象识别限制进行了详细的研究，以找到其根本原因。我们评估了最常用的视觉语言骨干软件 CLIP 的性能与细粒度物体匹配基准的对比情况，揭示了开放词汇物体检测器及其骨干软件的局限性之间的有趣类比。实验表明，缺乏细粒度理解的原因是 CLIP 潜在空间中物体特征的可分离性较差。因此，我们试图了解细粒度知识是否存在于 CLIP 嵌入中，但由于余弦相似性匹配函数不合适等原因，在推理时没有被利用，因为余弦相似性匹配函数可能会忽略重要的对象特征。我们的初步实验表明，简单的 CLIP latent-space 重新投影有助于分离细粒度概念，为开发能够处理细粒度细节的骨干铺平了道路。重现这些实验的代码可在 https://github.com/lorebianchi98/FG-CLIP 上获取。

4.MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

标题:MiniGPT4-Video：利用交错视觉-文本标记推进用于视频理解的多模态 LLM
author:Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny
publish:6 pages,8 figures
date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03413v1

摘要：

本文介绍的 MiniGPT4-Video 是一种多模态大语言模型（LLM），专为理解视频而设计。该模型能够同时处理时态视觉数据和文本数据，因此善于理解视频的复杂性。MiniGPT-v2 在将单幅图像的视觉特征转化为 LLM 空间方面表现出色，并在各种图像-文本基准测试中取得了令人印象深刻的成绩，本文在 MiniGPT-v2 的成功基础上，将该模型的功能扩展到处理帧序列，使其能够理解视频。MiniGPT4-video 不仅考虑了视觉内容，还纳入了文本对话，使该模型能够有效地回答涉及视觉和文本内容的查询。所提出的模型优于现有的先进方法，在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试中分别获得了 4.22%、1.13%、20.82% 和 13.1% 的收益。我们的模型和代码已在 https://vision-cair.github.io/MiniGPT4-video/ 公开发布。

5.Diverse and Tailored Image Generation for Zero-shot Multi-label Classification

标题:为零镜头多标签分类生成多样化的定制图像
author:Kaixin Zhang, Zhixiang Yuan, Tao Huang
date Time:2024-04-04

paper pdf:http://arxiv.org/pdf/2404.03144v1

摘要：

最近，零镜头多标签分类因其无需人工标注即可对未见标签进行预测的能力而备受关注。尽管如此，目前流行的方法往往使用已见类别作为未见类别的不完美替代，从而导致性能不理想。从文本到图像生成模型在生成逼真图像方面的成功经验中汲取灵感，我们提出了一种创新的解决方案：生成合成数据，以构建一个明确定制的训练集，用于对未见标签进行无代理训练。我们的方法引入了一种新颖的图像生成框架，可生成多标签的未见类别合成图像，用于分类器训练。为了提高生成图像的多样性，我们利用预先训练好的大型语言模型来生成不同的提示。利用预先训练的多模态 CLIP 模型作为判别器，我们可以评估生成的图像是否准确地代表了目标类别。这样就能自动过滤生成的不准确图像，从而保持分类器的准确性。为了完善文本提示以更精确、更有效地生成多标签对象，我们引入了基于 CLIP 分数的判别损失，以微调扩散模型中的文本编码器。此外，为了增强目标任务的视觉特征，同时保持原始特征的泛化，并减轻因微调整个视觉编码器而导致的灾难性遗忘，我们提出了一个受变压器注意机制启发的特征融合模块。该模块有助于更有效地捕捉多个对象之间的全局依赖关系。广泛的实验结果验证了我们方法的有效性，表明与最先进的方法相比，我们的方法有了显著的改进。

6.LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

标题:LVLM-Intrepret：大型视觉语言模型的可解释性工具
author:Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
date Time:2024-04-03

paper pdf:http://arxiv.org/pdf/2404.03118v1

摘要：

在快速发展的人工智能领域，多模态大型语言模型正成为一个备受关注的领域。这些模型结合了各种形式的数据输入，正变得越来越流行。然而，了解其内部机制仍然是一项复杂的任务。可解释性工具和机制领域已经取得了许多进展，但仍有许多问题需要探索。在这项工作中，我们提出了一个新颖的交互式应用程序，旨在理解大型视觉语言模型的内部机制。我们的界面旨在增强图像补丁的可解释性（图像补丁在生成答案中起着重要作用），并评估语言模型在图像中输出结果的有效性。通过我们的应用程序，用户可以系统地研究模型，发现系统的局限性，为增强系统能力铺平道路。最后，我们将介绍一个案例研究，说明我们的应用如何帮助理解一个流行的大型多模态模型的失效机制：LLaVA。

7.Harnessing the Power of Large Vision Language Models for Synthetic Image Detection

标题:利用大型视觉语言模型的力量进行合成图像检测
author:Mamadou Keita, Wassim Hamidouche, Hassen Bougueffa, Abdenour Hadid, Abdelmalik Taleb-Ahmed
publish:arXiv admin note: substantial text overlap with arXiv:2404.01959
date Time:2024-04-03

paper pdf:http://arxiv.org/pdf/2404.02726v1

摘要：

近年来，能够从文本生成图像的模型的出现引起了人们的极大兴趣，这为从文本描述中生成逼真的图像提供了可能。然而，这些进步也引发了人们对这些图像可能被滥用的担忧，包括制造假新闻和宣传等误导性内容。本研究探讨了使用高级视觉语言模型（VLM）进行合成图像识别的有效性。具体来说，重点是调整最先进的图像标题模型，用于合成图像检测。通过利用大型视觉语言模型的强大理解能力，目的是将真实图像与基于扩散模型生成的合成图像区分开来。本研究利用 BLIP-2 和 ViTGPT2 等视觉语言模型的能力，为合成图像检测的进步做出了贡献。通过定制图像标题模型，我们解决了合成图像在现实世界应用中可能被滥用的难题。本文中描述的结果凸显了 VLM 在合成图像检测领域大有可为的作用，其性能优于传统的基于图像的检测技术。代码和模型见 https://github.com/Mamadou-Keita/VLM-DETECT。

8.RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation

标题:RESSA：通过稀疏跨模态适配修复稀疏视觉语言模型
author:Shwai He, Tianlong Chen
date Time:2024-04-03

paper pdf:http://arxiv.org/pdf/2404.02424v1

摘要：

视觉语言模型（VLM）整合了来自多种模式的不同信息，在各种任务中都取得了显著的成功。然而，在资源有限的情况下，部署由大规模视觉和语言模型组成的 VLMs 会面临挑战。虽然剪枝后的微调提供了一种潜在的解决方案，可以在模型规模较小的情况下保持性能，但其在 VLM 中的应用仍相对欠缺，这就提出了两个主要问题：如何在不同的特定模态模型之间分配稀疏性，以及如何修复剪枝后稀疏 VLM 的性能。为了回答第一个问题，我们对 VLM 的剪枝进行了初步研究，发现以相同的稀疏性比率剪枝视觉模型和语言模型有助于获得近乎最佳的性能。对于第二个问题，与单模态稀疏模型的微调不同，稀疏 VLM 涉及跨模态交互，需要专门的技术进行剪枝后的性能修复。此外，虽然已经提出了参数高效的 LoRA 微调来修复稀疏模型的性能，但由于密集 LoRA 模块与稀疏模型不兼容，破坏了剪枝后模型的稀疏性，因此权重合并是一个重大挑战。为了应对这些挑战，我们提出了通过稀疏跨模态适配修复稀疏视觉语言模型（RESSA）。RESSA 利用跨模态微调来提高特定任务的性能，并促进从原始密集模型中提炼知识。此外，我们还引入了 SparseLoRA，它将稀疏性直接应用于 LoRA 权重，实现了与稀疏模型的无缝集成。我们的实验结果验证了 RESSA 的有效性，展示了显著的提升，例如在 2:4 稀疏度下提升了 11.3%，在非结构化 70% 稀疏度下显著提升了 47.6%。

9.What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases

标题:当我们评估大型视觉语言模型时，我们在测量什么？潜在因素和偏差分析
author:Anthony Meng Huat Tiong, Junqi Zhao, Boyang Li, Junnan Li, Steven C. H. Hoi, Caiming Xiong
date Time:2024-04-03

paper pdf:http://arxiv.org/pdf/2404.02415v1

摘要：

视觉语言（VL）模型在巨大的图像-文本数据集上经过预训练后，已经获得了难以评估的广泛VL能力。人们普遍认为，各种视觉语言测试的基础是少数几种视觉语言技能。在本文中，我们进行了大规模迁移学习实验，旨在从数据中发现潜在的 VL 技能。我们发现了一些有趣的特征，这些特征对测试套件的设计具有重要影响。首先，生成任务存在长度偏差，这表明基准应平衡不同输出长度的任务。其次，我们证明了因子分析能够成功识别合理但令人惊讶的 VL 技能因子，这表明基准可以利用类似的分析来选择任务。最后，我们介绍了一个新的数据集 OLIVE (https://github.com/jq-zh/olive-dataset)，它模拟了用户在野外的指令，并提出了与我们测试的所有数据集不同的挑战。我们的发现有助于设计平衡且覆盖面广的视觉语言评估方法。

10.ViTamin: Designing Scalable Vision Models in the Vision-Language Era

标题:ViTamin：在视觉语言时代设计可扩展的视觉模型
author:Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
publish:CVPR 2024; https://github.com/Beckschen/ViTamin
date Time:2024-04-02

paper pdf:http://arxiv.org/pdf/2404.02132v2

摘要：

视觉语言模型（VLMs）的最新突破在视觉领域掀开了新的一页。由于在大规模互联网图像-文本对上进行了训练，VLMs 提供了比 ImageNet 预训练模型更强大、更通用的特征嵌入。然而，尽管 VLM 取得了令人惊叹的成就，虚视觉变换器（ViT）仍然是图像编码器的默认选择。尽管纯变换器在文本编码领域证明了其有效性，但对于图像编码来说，它是否也是如此仍是个问题，特别是考虑到在 ImageNet 基准上提出了各种类型的网络，而遗憾的是，这些网络很少在 VLM 中进行研究。由于数据/模型规模较小，ImageNet 上模型设计的原始结论可能存在局限性和偏差。本文旨在对比语言-图像预训练（CLIP）框架下建立视觉语言时代的视觉模型评估协议。我们提供了一种全面的方法来对不同的视觉模型进行基准测试，涵盖了它们的零点性能以及模型和训练数据规模的可扩展性。为此，我们引入了专为 VLMs 量身定制的新视觉模型 ViTamin。在使用相同的公开 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时，ViTamin-L 的 ImageNet 零点准确率比 ViT-L 高出 2.0%。ViTamin-L 在分类、检索、开放词汇检测和分割以及大型多模态模型等 60 种不同基准测试中取得了可喜的成绩。当进一步扩大模型规模时，参数仅为 436M 的 ViTamin-XL 达到了 82.9% 的 ImageNet 零点准确率，超过了参数多十倍（4.4B）的 EVA-E 所达到的 82.0%。

11.VLRM: Vision-Language Models act as Reward Models for Image Captioning

标题:VLRM：视觉语言模型充当图像字幕的奖励模型
author:Maksim Dzabraev, Alexander Kunitsyn, Andrei Ivaniuta
date Time:2024-04-02

paper pdf:http://arxiv.org/pdf/2404.01911v1

摘要：

在这项工作中，我们提出了一种无监督方法，利用强化学习和视觉语言模型（如 CLIP 和 BLIP2-ITM）作为奖励模型，来增强图像字幕模型（在我们的例子中为 BLIP2）。经过 RL 调整的模型能够生成更长、更全面的描述。我们的模型在 MS-COCO Carpathy Test Split 上达到了令人印象深刻的 0.90 R@1 CLIP Recall 分数。权重见 https://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7b。

12.OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation

标题:OVFoodSeg：通过图像信息文本表示提升开放词汇食品图像分割水平
author:Xiongwei Wu, Sicheng Yu, Ee-Peng Lim, Chong-Wah Ngo
publish:CVPR 2024; 12 pages
date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.01409v1

摘要：

在食品计算领域，由于相同配料之间的类内差异大、新配料层出不穷以及与大型食品分割数据集相关的注释成本高昂，从图像中分割配料构成了巨大挑战。现有方法主要利用封闭词汇和静态文本嵌入设置。这些方法往往无法有效处理配料，尤其是新配料和多样化配料。针对这些局限性，我们推出了 OVFoodSeg，这是一个采用开放式词汇设置并利用视觉上下文增强文本嵌入的框架。通过整合视觉语言模型（VLMs），我们的方法通过两个创新模块（即图像到文本学习器 FoodLearner 和图像信息文本编码器）利用图像特定信息丰富了文本嵌入。OVFoodSeg 的训练过程分为两个阶段：FoodLearner 的预训练和随后的分割学习阶段。预训练阶段使 FoodLearner 具备将视觉信息与专门与食物相关的相应文本表述相匹配的能力，而第二阶段则使 FoodLearner 和图像信息文本编码器适应分割任务。通过解决以往模型的不足，OVFoodSeg取得了显著的进步，在FoodSeg103数据集上实现了平均交叉比联合（mIoU）增加4.9%，为食品图像分割树立了新的里程碑。

13.Evaluating Text-to-Visual Generation with Image-to-Text Generation

标题:评估文本到视觉的生成与图像到文本的生成
author:Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, Deva Ramanan
publish:We open-source our data, model, and code at:

https://github.com/linzhiqiu/t2v_metrics ; Project page:

https://linzhiqiu.github.io/papers/vqascore
date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.01291v1

摘要：

尽管在生成式人工智能方面取得了重大进展，但由于缺乏有效的衡量标准和标准化基准，综合评估仍具有挑战性。例如，广泛使用的 CLIPScore 可测量（生成的）图像与文本提示之间的对齐度，但对于涉及对象、属性和关系组合的复杂提示，它却无法得出可靠的分数。其中一个原因是，CLIP 的文本编码器可能会臭名昭著地充当 "词袋"，将 "马在吃草 "和 "草在吃马 "这样的提示混为一谈。为了解决这个问题，我们引入了 VQAScore，它使用视觉问题解答（VQA）模型，通过计算对简单的 "此图是否显示'{文本}'？尽管 VQAScore 比现有技术更简单，但使用现成模型计算的 VQAScore 在许多（8 个）图像-文本配准基准中都取得了最先进的结果。我们还使用遵循文献最佳实践的内部模型计算 VQAScore。例如，我们使用双向图像-问题编码器，允许图像嵌入取决于所提问题（反之亦然）。我们的内部模型 CLIP-FlanT5 甚至优于使用专有 GPT-4V 的最强基线。有趣的是，虽然我们只使用图像进行训练，但 VQAScore 还能将文本与视频和 3D 模型进行对齐。通过 VQAScore，研究人员可以使用复杂文本对文本到视觉的生成进行基准测试，从而捕捉真实世界提示的组成结构。我们介绍了 GenAI-Bench，这是一个更具挑战性的基准，它包含 1,600 个组合文本提示，需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理。GenAI-Bench 还为稳定扩散、DALL-E 3 和 Gen2 等领先的图像和视频生成模型提供了 15,000 多项人类评分。

14.Getting it Right: Improving Spatial Consistency in Text-to-Image Models

标题:正确处理：提高文本到图像模型的空间一致性
author:Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
publish:project webpage : https://spright-t2i.github.io/
date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.01197v1

摘要：

当前文本到图像（T2I）模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。在本文中，我们对这一局限性进行了全面的研究，同时还开发了能达到最先进性能的数据集和方法。首先，我们发现当前的视觉语言数据集不能很好地表现空间关系；为了缓解这一瓶颈，我们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注，从而创建了 SPRIGHT，这是首个以空间为重点的大规模数据集。通过三重评估和分析，我们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效，我们只利用了约 0.25% 的 SPRIGHT，就在生成空间精确图像方面提高了 22%，同时还提高了 FID 和 CMMD 分数。其次，我们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是，通过在小于 500 张图像上进行微调，我们在 T2I-CompBench 上达到了最先进的水平，空间得分达到 0.2133。最后，通过一系列受控实验和消融，我们记录了多项发现，相信这些发现将加深人们对影响文本到图像模型空间一致性的因素的理解。我们公开发布我们的数据集和模型，以促进该领域的进一步研究。

15.Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning

标题:通过修正学习：零点生成式视觉语言推理的高效调整任务
author:Rongjie Li, Yu Wu, Xuming He
publish:Accepted by CVPR2024
date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.00909v1

摘要：

生成式视觉语言模型（VLM）在图像字幕和视觉问题解答等零镜头视觉语言任务中表现出令人印象深刻的性能。然而，要提高这些模型的零镜头推理能力，通常需要进行第二阶段的指令调整，这在很大程度上依赖于人类标注或大型语言模型生成的注释，从而产生高昂的标注成本。为了应对这一挑战，我们引入了图像条件字幕校正（ICCC），这是一种新颖的预训练任务，旨在提高 VLMs 的零镜头性能，而无需标注任务感知数据。ICCC 任务迫使 VLM 纠正视觉概念和语言概念之间的不匹配，从而增强指令跟踪和以视觉输入为条件的文本生成。利用语言结构和轻量级依赖性解析器，我们从图像-文本数据集中构建了 ICCC 任务的数据样本，标签和计算成本都很低。BLIP-2 和 InstructBLIP 的实验结果表明，通过对 ICCC 指令进行调整，基于零镜头图像文本生成的 VL 任务有了显著改善。

16.From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

标题:从像素到图形：利用视觉语言模型生成开放词汇场景图
author:Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He
publish:Accepted by CVPR 2024
date Time:2024-04-01

paper pdf:http://arxiv.org/pdf/2404.00906v1

摘要：

场景图生成（SGG）旨在将视觉场景解析为中间图表示，以用于下游推理任务。尽管最近取得了一些进展，但现有方法仍难以生成具有新颖视觉关系概念的场景图。为了应对这一挑战，我们在序列生成的基础上引入了一个新的开放词汇 SGG 框架。我们的框架利用视觉语言预训练模型（VLM），结合了图像到图生成范式。具体来说，我们通过使用 VLM 生成图像到文本来生成场景图序列，然后根据这些序列构建场景图。通过这种方法，我们利用了 VLM 在开放词汇 SGG 方面的强大功能，并无缝集成了显式关系建模，以增强 VL 任务。实验结果表明，我们的设计不仅在开放词汇方面取得了卓越的性能，而且还通过显式关系建模知识提高了下游视觉语言任务的性能。

17.LLM meets Vision-Language Models for Zero-Shot One-Class Classification

标题:LLM 满足零镜头单类分类的视觉语言模型
author:Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon
date Time:2024-03-31

paper pdf:http://arxiv.org/pdf/2404.00675v2

摘要：

我们考虑的是零镜头单类视觉分类问题。在这种情况下，只有目标类别的标签可用，目标是在不需要目标任务的任何验证示例的情况下，区分正向和负向查询样本。我们提出了一种分两步走的解决方案，首先查询视觉混淆对象的大型语言模型，然后依靠视觉语言预训练模型（如 CLIP）进行分类。通过调整大规模视觉基准，我们证明了所提出的方法在这种情况下优于调整后的现成替代方法的能力。也就是说，我们提出了一个现实的基准，其中负查询样本与正查询样本来自相同的原始数据集，包括一个粒度受控的 iNaturalist 版本，其中负样本与正样本在分类树中的距离是固定的。我们的工作表明，仅使用一个类别的标签，就可以区分该类别和其他语义相关的类别。

18.Do Vision-Language Models Understand Compound Nouns?

标题:视觉语言模型能理解复合名词吗？
author:Sonal Kumar, Sreyan Ghosh, S Sakshi, Utkarsh Tyagi, Dinesh Manocha
publish:Accepted to NAACL 2024 Main Conference
date Time:2024-03-30

paper pdf:http://arxiv.org/pdf/2404.00419v1

摘要：

像 CLIP 这样的开放词汇视觉语言模型（VLMs）是利用对比损失法训练出来的，已成为文本到图像检索的一种很有前途的新范例。然而，视觉语言模型是否能像理解名词（如实验室）那样理解复合名词（CN）（如白大褂）？我们策划了一个包含 400 个独特常用 CN 的新基准 Compun，以评估 VLM 在解释 CN 方面的有效性。Compun 基准是对文本到图像检索的 VLM 的挑战，在该基准中，给定一个带有 CN 的文本提示，任务是在显示组成 CN 的组成名词的一对干扰图像中选择显示 CN 的正确图像。接下来，我们将进行深入分析，以突出 CLIPs 对某些类型 CN 的理解有限。最后，我们提出了一个替代框架，它超越了 CLIP 类模型广泛使用的手写文本提示模板。我们采用大型语言模型来生成多种不同的字幕，将 CN 作为字幕所描述场景中的一个对象。在 Compun 上，我们提出的方法将 CLIP 的 CN 理解能力提高了 8.25%。代码和基准可在以下网站获取： https://github.com/sonalkum/Compun

19.TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias

标题:TTD：文本标签自扩散增强 CLIP 中的图像-文本对齐，减轻单一标签偏差
author:Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim
date Time:2024-03-30

paper pdf:http://arxiv.org/pdf/2404.00384v1

摘要：

我们发现了当代基于 CLIP 的模型中的一个关键偏差，并将其命名为 \textit{single tag bias}。这种偏差表现为过度关注单一标签（单词），而忽视其他相关标签，这源于 CLIP 的文本嵌入在图像-文本关系中优先考虑一个特定标签。在将文本解构为单个标签时，只有一个标签往往与 CLIP 的图像嵌入具有高度相关性，从而导致标签相关性失衡。这导致文本中存在的多个标签之间的对齐不均衡。为了应对这一挑战，我们引入了一种新颖的两步微调方法。首先，我们的方法利用标签与其最近像素之间的相似性进行评分，从而从文本中提取图像相关标签。其次，我们提出了一种自我修正策略，旨在将提取标签的组合掩码与文本衍生掩码对齐。这种方法减轻了单一标签的偏差，从而在无需额外数据或监督的情况下显著提高了 CLIP 模型的对齐度。我们的技术在多标签分类和分割任务中展示了与模型无关的改进，超越了依赖外部资源的竞争方法。代码见 https://github.com/shjo-april/TTD。

20.CLIP-driven Outliers Synthesis for few-shot OOD detection

标题:CLIP 驱动的离群值合成，用于少量 OOD 检测
author:Hao Sun, Rundong He, Zhongyi Han, Zhicong Lin, Yongshun Gong, Yilong Yin
publish:9 pages,5 figures
date Time:2024-03-30

paper pdf:http://arxiv.org/pdf/2404.00323v1

摘要：

少镜头 OOD 检测的重点是仅使用少量标注的分布内（ID）图像，识别属于训练期间未见类别的分布外（OOD）图像。迄今为止，主流策略是基于大规模视觉语言模型，如 CLIP。然而，这些方法忽略了一个关键问题：缺乏可靠的 OOD 监督信息，这会导致分布内（ID）和 OOD 之间的边界出现偏差。为了解决这个问题，我们提出了 CLIP 驱动的离群值合成（CLIP-OS）。首先，CLIP-OS 通过新提出的补丁均匀卷积增强补丁级特征的感知，并利用 CLIP 手术差异自适应地获取 ID 相关信息的比例，从而实现 ID 相关与 ID 不相关的分离。接下来，CLIP-OS 通过混合不同类别的 ID 相关特征来合成可靠的 OOD 数据，从而提供 OOD 监督信息。之后，CLIP-OS 通过未知感知提示学习利用合成的 OOD 样本来增强 ID 和 OOD 的可分离性。在多个基准测试中进行的广泛实验证明，CLIP-OS 实现了卓越的少量 OOD 检测能力。

21.Bayesian Exploration of Pre-trained Models for Low-shot Image Classification

标题:贝叶斯法探索预训练模型用于低照度图像分类
author:Yibo Miao, Yu Lei, Feng Zhou, Zhijie Deng
date Time:2024-03-30

paper pdf:http://arxiv.org/pdf/2404.00312v1

摘要：

低镜头图像分类是计算机视觉领域的一项基本任务，而 CLIP 等大规模视觉语言模型的出现极大地推动了这一领域的前沿研究。然而，大多数现有的基于 CLIP 的方法缺乏灵活性，无法有效地结合其他预先训练好的模型，这些模型包含的知识与 CLIP 不同。为了弥合这一差距，本研究提出了一种基于高斯过程的简单有效的概率模型集合框架，高斯过程之前在处理小数据方面已显示出显著的功效。我们用 CLIP 指定均值函数，用基于各种预训练模型的深度内核集合指定内核函数，从而实现了先验知识的整合。通过直接回归分类标签，我们的框架实现了分析推理、直接的不确定性量化和有原则的超参数调整。通过在标准基准上进行大量实验，我们证明了我们的方法在预测性能方面始终优于具有竞争力的集合基线。此外，我们还评估了我们方法的鲁棒性以及在分布外数据集上得出的不确定性估计的质量。我们还说明，尽管我们的方法依赖于标签回归，但与大多数确定性基线相比，我们的方法仍然具有卓越的模型校准能力。

22.Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training

标题:按需设计：利用视觉问题解答进行多模态预培训
author:Tongkun Su, Jun Li, Xi Zhang, Haibo Jin, Hao Chen, Qiong Wang, Faqin Lv, Baoliang Zhao, Yin Hu
date Time:2024-03-30

paper pdf:http://arxiv.org/pdf/2404.00226v1

摘要：

多模态预训练展示了其在医疗领域的潜力，它可以从配对的医疗报告中学习医疗视觉表征。然而，许多预训练任务都需要临床医生提供额外的注释，而且大多数预训练任务都不能明确地指导模型学习不同病理的所需特征。据我们所知，我们是第一个利用视觉问题解答（VQA）进行多模态预训练，以引导框架关注目标病理特征的人。在这项工作中，我们利用医疗报告中的描述来设计与不同疾病相关的多粒度问答对，这有助于框架进行预训练，而无需专家的额外注释。我们还提出了一种带有准文本特征转换器的新型预训练框架，该模块旨在通过对比学习策略将视觉特征转换到更接近文本领域的准文本空间。这缩小了视觉与语言之间的差距，促进了模态对齐。我们的框架适用于四个下游任务：报告生成、分类、分割和五个数据集的检测。广泛的实验证明，与其他最先进的方法相比，我们的框架更胜一筹。我们的代码将在通过验收后发布。