AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.04.15-2024.04.25

文章目录~

[1.AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models](#1.AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models)
[2.Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering](#2.Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering)
[3.CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data](#3.CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data)
[4.Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval](#4.Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval)
[5.CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios](#5.CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios)
[6.Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback](#6.Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback)
[7.SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval](#7.SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval)
[8.ECOR: Explainable CLIP for Object Recognition](#8.ECOR: Explainable CLIP for Object Recognition)
[9.V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning](#9.V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning)
[10.Aligning Actions and Walking to LLM-Generated Textual Descriptions](#10.Aligning Actions and Walking to LLM-Generated Textual Descriptions)
[11.What does CLIP know about peeling a banana?](#11.What does CLIP know about peeling a banana?)
[12.Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction](#12.Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction)
[13.Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation](#13.Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation)
[14.VG4D: Vision-Language Model Goes 4D Video Recognition](#14.VG4D: Vision-Language Model Goes 4D Video Recognition)
[15.Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives](#15.Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives)
[16.Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases](#16.Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases)
[17.Self-Supervised Visual Preference Alignment](#17.Self-Supervised Visual Preference Alignment)
[18.Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning](#18.Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning)
[19.Vision-and-Language Navigation via Causal Learning](#19.Vision-and-Language Navigation via Causal Learning)

1.AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models

标题:AutoGluon-Multimodal (AutoMM)：用基础模型增强多模态 AutoML
author:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
publish:Accepted at AutoML 2024 Conference
date Time:2024-04-24

paper pdf:http://arxiv.org/pdf/2404.16233v2

摘要：

AutoGluon-Multimodal (AutoMM) 是专为多模态学习设计的开源 AutoML 库。AutoMM 易于使用，只需三行代码即可对基础模型进行微调。该库支持包括图像、文本和表格数据在内的各种模式，既可独立使用，也可组合使用，提供了一整套功能，涵盖分类、回归、对象检测、语义匹配和图像分割。在各种数据集和任务中进行的实验表明，与现有的 AutoML 工具相比，AutoMM 在基本分类和回归任务中表现出色，同时在高级任务中也取得了具有竞争力的结果，与为此目的而设计的专门工具箱不相上下。

2.Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering

标题:融合领域适应性视觉和语言模型，实现医学视觉问题解答
author:Cuong Nhat Ha, Shima Asaadi, Sanjeev Kumar Karn, Oladimeji Farri, Tobias Heimann, Thomas Runkler
publish:Clinical NLP @ NAACL 2024
date Time:2024-04-24

paper pdf:http://arxiv.org/pdf/2404.16192v1

摘要：

视觉语言模型虽然在一般领域很有效，并在视觉问题解答（VQA）等多种多模态应用中表现出很强的性能，但在医疗等更专业的领域却难以保持同样的有效性。我们提出了一种医学视觉语言模型，它整合了针对医学领域的大型视觉和语言模型。该模型使用三个独立的生物医学和放射学多模态视觉和文本数据集，经过三个阶段的参数高效训练。所提出的模型在 SLAKE 1.0 医学 VQA（MedVQA）数据集上取得了最先进的性能，总体准确率达到 87.5%，并在另一个 MedVQA 数据集 VQA-RAD 上表现出强劲的性能，总体准确率达到 73.2%。

3.CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

标题:CatLIP：在网络规模的图像-文本数据上以 2.7 倍的预训练速度实现 CLIP 级别的视觉识别准确率
author:Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari
date Time:2024-04-24

paper pdf:http://arxiv.org/pdf/2404.15653v1

摘要：

对比学习已成为通过图像和文本嵌入对齐学习有效视觉表征的一种变革性方法。然而，在图像和文本对的对比损失中，成对相似性计算带来了计算上的挑战。本文提出了一种在网络规模图像-文本数据上对视觉模型进行弱监督预训练的新方法。所提出的方法将图像-文本数据的预训练重构为一项分类任务。因此，它无需在对比损失中进行成对相似性计算，与网络规模数据上的对比学习相比，训练速度显著提高了 2.7 倍。通过检测和分割等多种视觉任务的广泛实验，我们证明了所提出的方法能保持较高的表示质量。我们的源代码以及预训练模型权重和训练方法可在\url{https://github.com/apple/corenet}上获取。

标题:采用大型多模态模型的视觉三角洲生成器，用于半监督式合成图像检索
author:Young Kyun Jang, Donghyun Kim, Zihang Meng, Dat Huynh, Ser-Nam Lim
publish:15 pages
date Time:2024-04-23

paper pdf:http://arxiv.org/pdf/2404.15516v1

摘要：

合成图像检索（CIR）是一项根据提供的文本修改检索与查询相似的图像的任务。目前的技术依赖于使用参考图像、文本和目标图像的标记三元组对 CIR 模型进行监督学习。这些特定的三元组不像简单的图像-文本对那样常见，因此限制了 CIR 的广泛应用及其可扩展性。另一方面，在不考虑图像与图像关系的情况下，使用图像-标题对可以相对容易地训练零镜头 CIR，但这种方法的准确率往往较低。我们提出了一种新的半监督式 CIR 方法，即在辅助数据中搜索参考图像及其相关目标图像，然后学习我们基于大语言模型的视觉三角洲生成器（VDG），生成描述两者之间视觉差异（即视觉三角洲）的文本。VDG 具备流畅的语言知识，与模型无关，可以生成伪三连音，从而提高 CIR 模型的性能。我们的方法大大改进了现有的监督学习方法，并在 CIR 基准上取得了最先进的结果。

5.CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

标题:CT-GLIP：利用 CT 扫描和放射学报告进行全身场景的三维基础语言图像预培训
author:Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang
publish:12 pages, 5 figures, 3 tables
date Time:2024-04-23

paper pdf:http://arxiv.org/pdf/2404.15272v3

摘要：

医学视觉语言预训练（Med-VLP）在医学图像的视觉内容和相关文字描述之间建立联系。现有的 Med-VLP 方法主要侧重于描述单一身体部位的二维图像，特别是胸部 X 光片。在本文中，我们利用 CT 图像和报告的多模态数据集，将 Med-VLP 的范围扩展到三维图像，特别是针对全身场景。与二维图像相比，三维 VLP 需要从三维图像中更为稀疏的表征中有效捕捉重要语义。在本文中，我们介绍了 CT-GLIP（利用 CT 扫描进行基础语言-图像预训练），这是一种构建器官级图像-文本对以增强多模态对比学习的新方法，可将基础视觉特征与精确诊断文本相统一。此外，我们还开发了一个异常字典，通过不同的对比对来增强对比学习。我们的方法在多模态 CT 数据集上进行了训练，该数据集包括来自 104 个器官的 17702 名患者的 44011 个器官级视觉-文本对。CT-GLIP 的性能在一个由 1,130 名患者组成的单独测试集上得到了验证，重点是 7 个器官中最常见的 16 种异常。实验结果表明，我们的模型在使用 CNN 和 ViT 架构的零点扫描和微调场景中的性能均优于标准 CLIP 框架。

6.Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

标题:通过细粒度人工智能反馈检测和缓解大型视觉语言模型中的幻觉
author:Wenyi Xiao, Ziwei Huang, Leilei Gan, Wanggui He, Haoyuan Li, Zhelun Yu, Hao Jiang, Fei Wu, Linchao Zhu
date Time:2024-04-22

paper pdf:http://arxiv.org/pdf/2404.14233v1

摘要：

快速发展的大型视觉语言模型（LVLMs）已在一系列多模态任务中显示出显著的能力，但仍面临着幻觉现象，即生成的文本与给定的上下文不一致，这极大地限制了 LVLMs 的使用。之前的大多数工作都是在粗粒度级别检测和缓解幻觉现象，或者需要昂贵的注释（例如，由专有模型或人类专家进行标注）。为了解决这些问题，我们建议通过细粒度人工智能反馈来检测和减轻 LVLM 中的幻觉。我们的基本思路是通过专有模型生成一个小规模的句子级幻觉标注数据集，并据此训练一个幻觉检测模型，该模型可执行句子级幻觉检测，涵盖主要幻觉类型（即对象、属性和关系）。然后，我们提出了一个检测-重写管道，以自动构建用于训练幻觉缓解模型的偏好数据集。此外，我们还建议区分幻觉的严重程度，并引入幻觉严重程度感知直接偏好优化（HSA-DPO），通过将幻觉的严重程度纳入偏好学习来减轻 LVLM 中的幻觉。大量实验证明了我们方法的有效性。

7.SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval

标题:SHE-Net：语法-层次结构-增强文本-视频检索
author:Xuzheng Yu, Chen Jiang, Xingning Dong, Tian Gan, Ming Yang, Qingpei Guo
date Time:2024-04-22

paper pdf:http://arxiv.org/pdf/2404.14066v2

摘要：

近年来，短视频应用程序的用户群经历了前所未有的增长，从而对视频内容分析产生了巨大需求。特别是文本视频检索，其目的是从庞大的视频语料库中根据文本描述找到最匹配的视频，这是一项基本功能，其主要挑战是弥合模态差距。然而，现有的大多数方法只是将文本视为离散的标记，而忽略了文本的语法结构。此外，由于缺乏与文本的交互，视频中丰富的空间和时间线索往往没有得到充分利用。为了解决这些问题，我们认为，利用文本作为引导来关注视频中的相关时间帧和空间区域是有益的。在本文中，我们提出了一种新颖的语法层次增强文本视频检索方法（SHE-Net），该方法利用文本固有的语义和语法层次，从两个角度弥合了模态差距。首先，为了促进对视觉内容进行更精细的整合，我们采用了文本语法层次结构来指导视觉表征，它揭示了文本描述的语法结构。其次，为了进一步加强多模态交互和对齐，我们还利用语法层次来指导相似度计算。我们在 MSR-VTT、MSVD、DiDeMo 和 ActivityNet 四个公共文本视频检索数据集上评估了我们的方法。实验结果和消融研究证实了我们提出的方法的优势。

8.ECOR: Explainable CLIP for Object Recognition

标题:ECOR：用于物体识别的可解释 CLIP
author:Ali Rasekh, Sepehr Kazemi Ranjbar, Milad Heidari, Wolfgang Nejdl
date Time:2024-04-19

paper pdf:http://arxiv.org/pdf/2404.12839v1

摘要：

大型视觉语言模型（VLM），如 CLIP，为各种计算机视觉任务做出了巨大贡献，包括物体识别和物体检测。它们的开放式词汇特征提高了其价值。然而，它们的黑箱性质和预测缺乏可解释性，使得它们在关键领域的可信度较低。最近，人们做了一些工作，迫使 VLM 为物体识别提供合理的理由，但这往往以牺牲分类准确性为代价。在本文中，我们首先根据类别和理由的联合概率分布，提出了对象识别任务中可解释性的数学定义，然后利用这一定义以可解释的方式对 CLIP 进行微调。通过对不同数据集的评估，我们的方法在可解释性分类方面展示了最先进的性能。值得注意的是，它在零镜头设置中表现出色，显示了其适应性。这一进步提高了可解释对象的识别能力，增强了不同应用中的信任度。代码将在发布后在线提供。

标题:V2Xum-LLM：跨模态视频摘要与时态提示指令调整
author:Hang Hua, Yunlong Tang, Chenliang Xu, Jiebo Luo
date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12353v1

摘要：

视频摘要旨在为较长的视频创建简短、准确和连贯的摘要。尽管存在各种视频摘要数据集，但其显著的局限性在于源视频数量有限，这妨碍了对先进的大型视觉语言模型（VLM）进行有效的微调。此外，大多数现有数据集都是为视频到视频摘要而创建的，忽略了当代多模态视频内容摘要的需求。最近，人们努力将单模态视频摘要扩展到多模态视频摘要，根据摘要的模态将任务分为三个子任务：视频到视频（V2V）、视频到文本（V2T）以及视频和文本组合摘要（V2VT）。然而，以往多模态数据集中的文本摘要并不完善。为了解决这些问题，我们引入了Instruct-V2Xum，这是一个跨模态视频摘要数据集，包含30,000个来自YouTube的不同视频，视频长度从40秒到940秒不等，平均摘要率为16.39/%。Instruct-V2Xum 中的每个视频摘要都与引用特定帧索引的文本摘要配对，从而有助于生成对齐的视频和文本摘要。此外，我们还提出了一个新的视频摘要框架，名为 V2Xum-LLM。V2Xum-LLM，特别是本研究中的 V2Xum-LaMA，是第一个将不同的视频摘要任务统一到一个大语言模型（LLM）文本解码器中的框架，并通过时间提示和任务指示实现了任务可控的视频摘要。实验表明，V2Xum-LaMA 在多个视频摘要任务中的表现优于强基准模型。此外，我们还针对 V2V 和 V2VT 摘要任务提出了增强型评估指标。

10.Aligning Actions and Walking to LLM-Generated Textual Descriptions

标题:将行动和行走与 LLM 生成的文本描述对齐
author:Radu Chivereanu, Adrian Cosma, Andy Catruna, Razvan Rughinis, Emilian Radoi
publish:Accepted at 2nd Workshop on Learning with Few or without Annotated

Face, Body and Gesture Data
date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12192v1

摘要：

大型语言模型（LLM）在数据增强和合成数据生成等多个领域都表现出了卓越的能力。这项研究探索了如何利用 LLM 为运动序列生成丰富的文本描述，包括动作和行走模式。我们利用 LLMs 的表达能力，将运动表征与高级语言线索相统一，解决了两个不同的任务：动作识别和基于外观属性的行走序列检索。在动作识别方面，我们利用 LLMs 生成 BABEL-60 数据集中的动作文本描述，从而促进动作序列与语言表征的匹配。在步态分析领域，我们通过使用 LLMs 生成 DenseGait 数据集中运动序列的文本描述，研究了外观属性对行走模式的影响。这些描述捕捉了受服装选择和鞋类等因素影响的行走方式的微妙变化。我们的方法展示了 LLMs 在增强结构化运动属性和调整多模态表征方面的潜力。这些发现有助于促进对运动的全面理解，并为利用 LLMs 进行多模态对齐和数据增强运动分析开辟了新途径。我们在 https://github.com/Radu1999/WalkAndText 上公开了代码。

11.What does CLIP know about peeling a banana?

标题:关于剥香蕉皮，CLIP 知道些什么？
author:Claudia Cuttano, Gabriele Rosi, Gabriele Trivigno, Giuseppe Averta
publish:Accepted to MAR Workshop at CVPR2024
date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12015v1

摘要：

人类与生俱来就具有识别工具以支持特定行动的能力。物体部件与它们所支持的动作之间的关联通常被命名为 "承受力"（affordance）。要让智能机器人能够使用日常生活中的物品，就必须能够根据物品部件所能承担的任务对其进行分割。传统的能力分割监督学习方法需要成本高昂的像素级注释，而弱监督方法虽然要求较低，但仍依赖于物体交互示例并支持封闭的动作集。这些限制阻碍了可扩展性，可能会带来偏差，而且通常会将模型限制在有限的一组预定义动作上。本文提出了 AffordanceCLIP，通过利用嵌入在 CLIP 等大型预训练视觉语言模型中的隐含承受能力知识来克服这些限制。我们通过实验证明，CLIP 虽然没有经过明确的负担能力检测训练，但仍为这项任务保留了有价值的信息。与经过专门训练的方法相比，我们的 AffordanceCLIP 实现了极具竞争力的零拍摄性能，同时还具有以下几个优势：i) 它适用于任何动作提示，而不仅仅是预定义的动作提示集；ii) 与现有解决方案相比，它只需要训练少量的额外参数；iii) 消除了对动作-物体对的直接监督需求，为基于功能的模型推理开辟了新的前景。

标题:用于多模态关系提取的变异多模态超图注意力网络
author:Qian Li, Cheng Ji, Shu Guo, Yong Zhao, Qianren Mao, Shangguang Wang, Yuntao Wei, Jianxin Li
date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.12006v1

摘要：

多模态关系提取（MMRE）是一项具有挑战性的任务，旨在利用图像信息识别文本中实体之间的关系。现有方法的局限在于忽略了一个句子中多个实体对共享非常相似的上下文信息（即相同的文本和图像），从而增加了多模态关系提取任务的难度。针对这一局限，我们提出了用于多模态关系提取的变异多模态超图注意力网络（VM-HAN）。具体来说，我们首先为每个句子和相应的图像构建一个多模态超图，为每个句子中的不同实体对建立不同的高阶模态内/模态间相关性。我们进一步设计了变异超图注意力网络（V-HAN），利用高斯分布获得不同实体对之间的表征多样性，并通过变异注意力学习更好的超图结构。VM-HAN 在多模态关系提取任务中取得了最先进的性能，在准确性和效率方面都优于现有方法。

13.Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation

标题:用于弱监督参考图像分割的课程点提示
author:Qiyuan Dai, Sibei Yang
publish:Accepted to CVPR 2024
date Time:2024-04-18

paper pdf:http://arxiv.org/pdf/2404.11998v1

摘要：

参照图像分割（RIS）旨在通过相应的自然语言表达精确分割图像中的参照物，但需要依赖成本高昂的掩码注释。因此，弱监督 RIS 从图像-文本对学习到像素级语义，这对分割细粒度掩码具有挑战性。提高分割精度的一个自然方法是将弱监督 RIS 与图像分割基础模型 SAM 结合起来。然而，我们发现，由于不可避免的噪声问题和过度关注对象部分所带来的挑战，简单地集成 SAM 所带来的好处有限，甚至会导致性能下降。在本文中，我们提出了一个创新框架 Point PrompTing (PPT)，并将其与所提出的多源课程学习策略相结合，以应对这些挑战。具体来说，PPT 的核心是一个点生成器，它不仅能利用 CLIP 的文本图像对齐能力和 SAM 的强大遮罩生成能力，还能生成负面的点提示，从而从本质上有效解决噪声和过度聚焦问题。此外，我们还引入了以对象为中心的图像课程学习策略，帮助 PPT 逐步从简单而精确的语义对齐学习到更复杂的 RIS。实验证明，在 mIoU 上，我们的 PPT 显著且持续地优于之前的弱监督技术，在 RefCOCO、RefCO+ 和 G-Ref 上分别优于 11.34%、14.14% 和 6.97%。

14.VG4D: Vision-Language Model Goes 4D Video Recognition

标题:VG4D：视觉语言模型用于 4D 视频识别
author:Zhichao Deng, Xiangtai Li, Xia Li, Yunhai Tong, Shen Zhao, Mengyuan Liu
publish:ICRA 2024
date Time:2024-04-17

paper pdf:http://arxiv.org/pdf/2404.11605v1

摘要：

通过点云视频了解真实世界是机器人和自动驾驶系统的一个重要方面。然而，由于传感器分辨率的原因，目前流行的四维点云识别方法存在局限性，导致缺乏详细信息。最近的进展表明，在网络规模的文本图像数据集上预先训练的视觉语言模型（VLM）可以学习细粒度的视觉概念，并将其应用到各种下游任务中。然而，将 VLM 有效地整合到四维点云领域仍然是一个尚未解决的问题。在这项工作中，我们提出了视觉语言模型四维化（Vision-Language Models Goes 4D, VG4D）框架，将视觉语言知识从视觉文本预训练模型转移到四维点云网络中。我们的方法包括将 4D 编码器的表示与 VLM 对齐，以便从大规模图像-文本对的训练中学习共享的视觉和文本空间。通过将 VLM 的知识转移到 4D 编码器并结合 VLM，我们的 VG4D 实现了更高的识别性能。为了增强 4D 编码器，我们对经典的动态点云骨干网进行了现代化改造，并提出了一个改进版的 PSTNet，即 im-PSTNet，它可以对点云视频进行有效建模。实验证明，我们的方法在NTU RGB+D 60数据集和NTU RGB+D 120数据集上的动作识别性能都达到了一流水平。代码见 \url{https://github.com/Shark0-0/VG4D}。

15.Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives

标题:通过正负缩放对比学习改进合成图像检索
author:Zhangchi Feng, Richong Zhang, Zhijie Nie
publish:12 pages, 11 figures
date Time:2024-04-17

paper pdf:http://arxiv.org/pdf/2404.11317v1

摘要：

合成图像检索（CIR）任务旨在使用由参考图像和修改文本组成的合成查询检索目标图像。先进的方法通常利用对比学习作为优化目标，这得益于充足的正反实例。然而，CIR 的三元组需要高昂的人工标注成本，导致正面示例有限。此外，现有方法通常使用批内负向采样，这减少了模型可用的负向数量。为了解决缺乏正面例子的问题，我们提出了一种数据生成方法，利用多模态大语言模型来构建 CIR 的三元组。为了在微调过程中引入更多底片，我们为 CIR 设计了一个两阶段微调框架，其第二阶段引入大量底片静态表示，以快速优化表示空间。上述两项改进可以有效地叠加在一起，并设计成即插即用的方式，在不改变现有 CIR 模型原有架构的情况下，轻松地将其应用于现有的 CIR 模型。广泛的实验和消融分析表明，我们的方法能有效地扩展正像和负像，并在 FashionIQ 和 CIRR 数据集上取得了最先进的结果。此外，我们的方法在零镜头合成图像检索中也表现出色，为低资源场景提供了新的 CIR 解决方案。

16.Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

标题:自动评估自动驾驶角落案例中的大型视觉语言模型
author:Yanze Li, Wenhua Zhang, Kai Chen, Yanxin Liu, Pengxiang Li, Ruiyuan Gao, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia
publish:Project Page: https://coda-dataset.github.io/coda-lm/
date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10595v1

摘要：

大型视觉语言模型（LVLMs）具有理解图像和视频的卓越视觉推理能力，在自动驾驶领域受到广泛关注，极大地推动了可解释端到端自动驾驶的发展。然而，目前对 LVLM 的评估主要集中在普通场景下的多方面能力，缺乏自动驾驶背景下的量化和自动化评估，更不用说连最先进的自动驾驶感知系统都难以处理的严重道路拐角情况。在本文中，我们提出了用于自动驾驶的新型视觉语言基准 CODA-LM，它首次为可解释的自动驾驶提供了 LVLM 的自动定量评估，包括一般感知、区域感知和驾驶建议。CODA-LM 利用文本来描述道路图像，在没有图像输入的情况下利用强大的纯文本大语言模型（LLM）来评估 LVLM 在自动驾驶场景中的能力，结果表明它比 LVLM 裁判更符合人类偏好。实验证明，即使是 GPT-4V 这样的闭源商业 LVLM 也无法很好地处理道路拐角情况，这表明我们离强大的 LVLM 驱动的智能驾驶代理还很遥远，希望我们的 CODA-LM 能够成为推动未来发展的催化剂。

17.Self-Supervised Visual Preference Alignment

标题:自监督视觉偏好对齐
author:Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang
date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10501v1

摘要：

本文首次尝试在视觉语言模型（VLM）中进行无监督偏好配准。我们针对原始图像对和增强图像对生成被选择和被拒绝的响应，并通过直接偏好优化进行偏好对齐。它基于一个核心理念：对图像输入进行适当设计的增强将诱导 VLM 生成错误但难以否定的响应，这有助于模型从中学习并生成更强大、更有力的答案。整个流程不再依赖于 GPT4 的监督或配准过程中的人工参与，只需几行代码即可实现高效率。仅用 8k 随机抽样的无监督数据，它就在 LLaVA-Bench 的复杂推理中取得了比 GPT-4 高出 90% 的相对分数，并在复杂多模态基准 MM-Vet 上将 LLaVA-7B/13B 的分数提高了 6.7%/5.6%。可视化显示了其与用户意图保持一致的能力得到了提高。为了揭示该方法的潜在机制，我们坚定地进行了一系列消融，这也表明该方法具有进一步扩展的潜力。将提供代码。

18.Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning

标题:对症下药：通过有针对性的指令调整减轻大型视觉语言模型中的幻觉
author:Rui Hu, Yahan Tu, Jitao Sang
date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10332v1

摘要：

尽管目前的大型视觉语言模型（LVLM）在各种跨模态任务中表现出色，但仍存在幻觉问题，表现为生成的反应与相应图像不一致。先前的研究表明，指令数据的低质量，尤其是正负样本之间的不平衡，是导致模型出现幻觉的重要原因。最近，研究人员提出了高质量的教学数据集，如 LRV-Instruction，以减轻模型幻觉。然而，我们的调查显示，不同 LVLM 的幻觉概念具有特异性，即不同模型的幻觉概念分布差异很大。现有的数据集在设计过程中没有考虑不同模型的幻觉特异性，因此削弱了它们在减轻模型幻觉方面的功效。在本文中，我们提出了一个名为 DFTG 的有针对性的指令数据生成框架，该框架可针对不同模型的幻觉特异性进行定制。具体来说，DFTG 包括两个阶段：幻觉诊断，即从模型的反应和图像中提取必要信息进行幻觉诊断；以及目标数据生成，即根据诊断结果生成有针对性的指令数据。幻觉基准的实验结果表明，与之前的数据集相比，我们的方法生成的目标指令数据在减轻幻觉方面更加有效。

标题:通过因果学习进行视觉语言导航
author:Liuyi Wang, Zongtao He, Ronghao Dang, Mengjiao Shen, Chengju Liu, Qijun Chen
date Time:2024-04-16

paper pdf:http://arxiv.org/pdf/2404.10241v1

摘要：

在追求稳健、可泛化的环境感知和语言理解的过程中，无处不在的数据集偏差挑战一直困扰着视觉语言导航（VLN）代理，阻碍了它们在未知环境中的表现。本文介绍了广义跨模态因果转换器（GOAT），这是一种植根于因果推理范式的开创性解决方案。通过深入研究视觉、语言和历史中可观测和不可观测的混杂因素，我们提出了后门和前门调整因果学习（BACL 和 FACL）模块，通过全面缓解潜在的虚假相关性来促进无偏学习。此外，为了捕捉全局混杂特征，我们提出了一个由对比学习监督的跨模态特征池（CFP）模块，该模块在预训练期间也被证明能有效改善跨模态表征。在多个 VLN 数据集（R2R、REVERIE、RxR 和 SOON）上进行的广泛实验表明，我们提出的方法优于之前的先进方法。代码见 https://github.com/CrystalSixone/VLN-GOAT。