AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.20-2024.02.25

论文目录~

[1.Representing Online Handwriting for Recognition in Large Vision-Language Models](#1.Representing Online Handwriting for Recognition in Large Vision-Language Models)
[2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding](#2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding)
[3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing](#3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing)
[4.CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models](#4.CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models)
[5.PALO: A Polyglot Large Multimodal Model for 5B People](#5.PALO: A Polyglot Large Multimodal Model for 5B People)
[6.DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models](#6.DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models)
[7.Visual Hallucinations of Multi-modal Large Language Models](#7.Visual Hallucinations of Multi-modal Large Language Models)
[8.Uncertainty-Aware Evaluation for Vision-Language Models](#8.Uncertainty-Aware Evaluation for Vision-Language Models)
[9.Unleashing the Power of Imbalanced Modality Information for Multi-modal Knowledge Graph Completion](#9.Unleashing the Power of Imbalanced Modality Information for Multi-modal Knowledge Graph Completion)
[10.MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning](#10.MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning)
[11.BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models](#11.BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models)
[12.Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment](#12.Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment)
[13.SoMeLVLM: A Large Vision Language Model for Social Media Processing](#13.SoMeLVLM: A Large Vision Language Model for Social Media Processing)
[14.CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection](#14.CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection)
[15.GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object Affordances of Language and Vision Models](#15.GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object Affordances of Language and Vision Models)

1.Representing Online Handwriting for Recognition in Large Vision-Language Models

标题:在大型视觉语言模型中表示在线手写识别
author:Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier, Efi Kokiopoulou, Jesse Berent, Claudiu Musat
date Time:2024-02-23

paper pdf:http://arxiv.org/pdf/2402.15307v1

摘要：

配备触摸屏和手写笔的平板电脑越来越多，其中一个关键功能就是将手写转换为文本，从而实现搜索、索引和人工智能辅助功能。与此同时，视觉语言模型（VLM）凭借其在各种任务中的一流性能，以及训练、微调和推理统一方法的简便性，现已成为图像理解的首选解决方案。虽然 VLM 在基于图像的任务中获得了很高的性能，但在手写识别方面，如果采用简单的方法，即通过将手写内容呈现为图像并执行光学字符识别（OCR），VLM 的性能就会大打折扣。在本文中，我们研究了使用 VLMs 进行在线手写识别的方法，它超越了传统的 OCR 方法。我们提出了一种新颖的数字墨水标记化表示法（在线手写），其中包括按时间顺序排列的笔画文本和图像。我们的研究表明，这种表示法产生的结果可与最先进的在线手写识别器相媲美，甚至更好。通过在多个公共数据集上使用两种不同的 VLM 系列的结果，我们证明了这种方法的广泛适用性。我们的方法可应用于现成的 VLM，无需对其架构进行任何改动，并可用于微调和参数高效调整。我们进行了详细的消融研究，以确定所提出的表示法的关键要素。

2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

标题:眼见为实：通过 CLIP 引导解码减少大型视觉语言模型中的幻觉
author:Ailin Deng, Zhirui Chen, Bryan Hooi
date Time:2024-02-23

paper pdf:http://arxiv.org/pdf/2402.15300v1

摘要：

大型视觉语言模型（LVLMs）容易出现对象幻觉，即生成的文本包含不存在的对象，这大大限制了其可靠性和实用性。目前的方法通常依赖于模型的标记似然或其他内部信息，在额外的数据集上进行指令调整，或结合复杂的外部工具。我们首先对句子级 LVLM 幻觉进行了实证分析，发现与标记似然相比，CLIP 与图像的相似度是更强更稳健的幻觉指标。受此启发，我们引入了 CLIP 引导解码（CGD）方法，这是一种简单而有效的免训练方法，可在解码时减少对象幻觉。CGD 使用 CLIP 来指导模型的解码过程，通过图像来增强生成文本的视觉基础。实验证明，在多个 LVLM 系列中，CGD 都能有效减少对象幻觉，同时保持文本生成的实用性。

3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

标题:用两步解析法微调 CLIP 文本编码器
author:Hyunjae Kim, Seunghyun Yoon, Trung Bui, Handong Zhao, Quan Tran, Franck Dernoncourt, Jaewoo Kang
publish:EACL 2024 (Findings of the ACL)
date Time:2024-02-23

paper pdf:http://arxiv.org/pdf/2402.15120v1

摘要：

对比语言-图像预训练（CLIP）模型在各种视觉-语言任务（如文本-图像检索）中都取得了相当大的成功，在这些任务中，模型需要有效地处理自然语言输入，以产生准确的视觉输出。然而，目前的模型在处理输入查询中的语言变化（如意译）时仍面临局限性，这使得在实际应用中处理广泛的用户查询具有挑战性。在本研究中，我们引入了一种直接的微调方法来增强 CLIP 模型对转述的表示。我们的方法包括两步意译生成过程，即利用大型语言模型从网络规模的图像标题中自动创建两类意译。随后，我们利用这些生成的转述对 CLIP 文本编码器进行微调，同时冻结图像编码器。我们将由此产生的模型称为 ParaCLIP，与基线 CLIP 模型相比，该模型在各种任务中都有显著改进，包括转述检索（等级相似性得分分别提高了 2.0% 和 5.6%）、视觉基因组关系和归因，以及七种语义文本相似性任务。

4.CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

标题:CLoVe：在对比视觉语言模型中编码组合语言
author:Santiago Castro, Amir Ziai, Avneesh Saluja, Zhuoning Yuan, Rada Mihalcea
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.15021v1

摘要：

近年来，视觉和语言任务的性能显著提高。基础视觉语言模型（VLM），如 CLIP，已在多种环境中得到利用，并在多项任务中表现出卓越的性能。这些模型擅长以物体为中心的识别，但它们学习的文本表征似乎与词序无关，无法以新颖的方式组成已知的概念。然而，没有证据表明任何 VLM（包括 GPT-4V 等大规模单流模型）能成功识别合成。在本文中，我们介绍了一种框架，可显著提高现有模型编码组合语言的能力，在组合性基准上的绝对改进幅度超过 10%，同时保持或提高在标准对象识别和检索基准上的性能。我们的代码和预训练模型可通过 https://github.com/netflix/clove 公开获取。

5.PALO: A Polyglot Large Multimodal Model for 5B People

标题:PALO：面向 5B 人的多语言大型多模态模型
author:Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
publish:Technical Report of PALO
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14818v1

摘要：

为了追求更具包容性的视觉语言模型（VLMs），本研究引入了一个名为textsc{Palo}的大型多语言多模态模型。\textsc{Palo}提供10种主要语言的视觉推理能力，包括英语、汉语、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语，这些语言的人口总数达50亿美元（占世界人口的65%）。我们的方法涉及一种半自动翻译方法，使用微调的大型语言模型将多模态指令数据集从英语调整为目标语言，从而确保高语言保真度，同时由于人工工作量最小而具有可扩展性。纳入不同的指令集有助于我们提高多种语言的整体性能，尤其是那些代表性不足的语言，如印地语、阿拉伯语、孟加拉语和乌尔都语。我们在三种规模（1.7B、7B 和 13B 参数）上对所生成的模型进行了训练，以展示其通用性和可扩展性，与强大的基线相比，我们观察到了实质性的改进。我们还为即将推出的方法提出了首个多语言多模态基准，以评估其跨语言的视觉语言推理能力。代码：https://github.com/mbzuai-oryx/PALO。

标题:双焦点：在多模态大语言模型中整合宏观和微观视角
author:Yuhang Cao, Pan Zhang, Xiaoyi Dong, Dahua Lin, Jiaqi Wang
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14767v1

摘要：

我们提出的 DualFocus 是一个新颖的框架，用于在多模态大语言模型（MLLM）中整合宏观和微观视角，以提高视觉语言任务的表现。目前的大型语言模型通常只关注预定分辨率下的输入，因此在涉及局部区域的细节问题上存在缺陷。我们引入了 "双聚焦"（DualFocus）机制，即模型从宏观角度关注图像、对问题的回答，并找出合适的子区域进行放大，以便进行后续的微观分析。通过整合宏观和微观视角的答案，该模型善于处理包含全局、细节和综合考虑因素的任务。为了展示 MLLM 中的 DualFocus 机制，我们从视觉基因组（VG）中提取了一个量身定制的数据集，并将其调整为与 DualFocus 的训练方案相一致。通过对不同规模的模型和基准进行比较研究，我们证明了 DualFocus 在平衡细节检查和整体洞察力方面的优越性，大大减少了 MLLM 中的幻觉实例，并提高了它们在各种视觉语言任务中的表现。

标题:多模态大型语言模型的视觉幻觉
author:Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14683v1

摘要：

视觉幻觉（VH）是指多模态 LLM（MLLM）在视觉问题解答中想象出错误的图像细节。现有研究仅在现有图像数据集中发现 VH 实例，由于此类 VH 实例的多样性有限，导致对 MLLM 在 VH 条件下的性能理解存在偏差。在这项工作中，我们提出了一种名为 VHTest 的工具，用于生成多样化的 VH 实例集。具体来说，VHTest 在现有图像数据集（如 COCO）中找到一些初始 VH 实例，为每个 VH 模式生成文本描述，并使用文本到图像生成模型（如 DALL-E-3）根据文本描述生成 VH 图像。我们使用 VHTest 收集了一个基准数据集，其中包含 8 种 VH 模式的 1,200 个 VH 实例。我们发现，现有的 MLLM（如 GPT-4V、LLaVA-1.5 和 MiniGPT-v2）对我们基准中的大部分实例产生了幻觉。此外，我们还发现，使用我们的基准数据集对 MLLM 进行微调可降低其出现幻觉的可能性，而不会影响其在其他基准上的性能。我们的基准可公开获取：https://github.com/wenhuang2000/VHTest。

8.Uncertainty-Aware Evaluation for Vision-Language Models

标题:视觉语言模型的不确定性评估
author:Vasily Kostumov, Bulat Nutfullin, Oleg Pilipenko, Eugene Ilyushin
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.14418v2

摘要：

最近，GPT-4、LLaVA 和 CogVLM 等视觉语言模型因其在多项视觉语言任务中的出色表现而大受欢迎。然而，目前的评估方法忽略了一个重要组成部分：不确定性，而这对于全面评估 VLM 至关重要。针对这一疏忽，我们提出了一种将不确定性量化纳入 VLM 评估的基准。我们的分析涵盖 20 多种 VLM，重点是多选视觉问题解答（VQA）任务。我们在评估各种视觉语言能力的 5 个数据集上对模型进行了检查。使用保形预测作为不确定性估计方法，我们证明了模型的不确定性与其准确性并不一致。具体来说，我们发现准确度最高的模型也可能具有最高的不确定性，这证实了测量不确定性对于 VLM 的重要性。我们的实证研究结果还揭示了模型不确定性与其语言模型部分之间的相关性。

标题:释放不平衡模态信息的力量，促进多模态知识图谱的完成
author:Yichi Zhang, Zhuo Chen, Lei Liang, Huajun Chen, Wen Zhang
publish:Accepted by LREC-COLING 2024
date Time:2024-02-22

paper pdf:http://arxiv.org/pdf/2402.15444v1

摘要：

多模态知识图谱补全（MMKGC）旨在通过将实体的结构、视觉和文本信息纳入判别模型，预测多模态知识图谱中缺失的三元组。来自不同模态的信息将共同衡量三元的可信度。现有的 MMKGC 方法忽视了实体间模态信息的不平衡问题，导致模态融合不充分和原始模态信息利用效率低下。为了解决上述问题，我们提出了自适应多模态融合和模态对抗训练（AdaMF-MAT），为 MMKGC 释放不平衡模态信息的威力。AdaMF-MAT 通过自适应模态权重实现多模态融合，并进一步通过模态对抗训练生成对抗样本，以增强不平衡模态信息。我们的方法是MMKGC模型和训练策略的联合设计，其性能优于19种最新的MMKGC方法，并在三个公开的MMKGC基准测试中取得了新的一流结果。我们的代码和数据已在 https://github.com/zjukg/AdaMF-MAT 上发布。

标题:更多多模态检索增强型生成常识推理
author:Wanqing Cui, Keping Bi, Jiafeng Guo, Xueqi Cheng
date Time:2024-02-21

paper pdf:http://arxiv.org/pdf/2402.13625v1

摘要：

由于常识信息被记录的频率远远低于其存在的频率，通过文本生成预先训练的语言模型很难学习到足够的常识知识。一些研究利用文本检索来增强模型的常识能力。与文本不同，图像能捕捉到固有的常识信息，但很少有人致力于有效利用这些信息。在这项工作中，我们提出了一个新颖的多马尔检索（MORE）增强框架，利用文本和图像来增强语言模型的常识能力。在共同基因任务中进行的大量实验证明了基于单模态和多模态预训练模型的 MORE 的功效。

标题:BBA：利用大型视觉语言模型进行推理的双模式行为对齐
author:Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong
publish:Preprint
date Time:2024-02-21

paper pdf:http://arxiv.org/pdf/2402.13577v1

摘要：

多模态推理是大型视觉语言模型（LVLM）的一项关键能力。与特定领域语言（DSL）的集成提供了精确的视觉表征，使这些模型有机会在复杂和专业领域执行更精确的推理。然而，虚构的思维链（CoT）提示方法在有效利用视觉表征和 DSL 表征的独特优势方面面临挑战，这主要是由于它们的推理机制不同。此外，它往往无法解决多步骤推理任务中的关键步骤。为了缓解这些挑战，我们引入了underline{B}i-Modal （模式）\underline{B}ehavioral （行为）\underline{A}lignment（BBA）提示方法，旨在最大限度地发挥 DSL 在增强复杂的多模式推理任务中的潜力。该方法首先引导 LVLM 为视觉和 DSL 表征创建独立的推理链。随后，它通过处理任何不一致之处来调整这些推理链，从而实现不同模式行为的内聚整合。我们的实验证明，BBA大大提高了GPT-4V(ision)在几何问题解决（28.34美元/%到34.22美元/%）、国际象棋位置优势预测（42.08美元/%到46.99美元/%）和分子特性预测（77.47美元/%到83.52美元/%）方面的性能。

12.Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

标题:认知视觉语言映射器：通过增强视觉知识对齐促进多模态理解
author:Yunxin Li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang
publish:working in progress, under review
date Time:2024-02-21

paper pdf:http://arxiv.org/pdf/2402.13561v1

摘要：

在评估和反思当前的大型多模态模型（LMM）时，我们发现，广泛使用的视觉语言投射方法（如Q-former或MLP）侧重于图像与文本描述的对齐，却忽视了视觉知识维度的对齐，即视觉与相关知识的连接。视觉知识在分析、推断和解释视觉信息方面发挥着重要作用，有助于提高基于知识的视觉问题答案的准确性。在本文中，我们主要探讨通过视觉语言知识对齐来改进 LMM，尤其是针对基于知识的视觉问题解答（VQA）的挑战。为此，我们提出了认知视觉语言映射器（CVLM），它包含一个预训练的视觉知识对齐器（VKA）和一个细粒度知识适配器（FKA），用于多模态指令调整阶段。具体来说，我们设计的 VKA 基于小语言模型和视觉编码器之间的交互，在收集的图像-知识对上对其进行训练，以实现视觉知识的获取和投射。FKA 用于提炼图像的细粒度视觉知识，并将其注入大型语言模型（LLM）。我们在基于知识的 VQA 基准上进行了大量实验，实验结果表明，CVLM 显著提高了 LMM 在基于知识的 VQA 上的性能（平均提高 5.0%）。消融研究也分别验证了 VKA 和 FKA 的有效性。

标题:SoMeLVLM：用于社交媒体处理的大型视觉语言模型
author:Xinnong Zhang, Haoyu Kuang, Xinyi Mou, Hanjia Lyu, Kun Wu, Siming Chen, Jiebo Luo, Xuanjing Huang, Zhongyu Wei
date Time:2024-02-20

paper pdf:http://arxiv.org/pdf/2402.13022v1

摘要：

以多模态为特征的社交媒体的发展导致了各种现象和挑战的出现，这就需要一种有效的方法来统一解决自动化任务。功能强大的大型视觉语言模型使同时处理各种任务成为可能，但即使精心设计了提示方法，通用领域模型也往往无法与社交媒体任务的独特说话风格和语境保持一致。在本文中，我们介绍了用于社交媒体处理的大型视觉语言模型（SoMeLVLM），它是一个认知框架，具备知识与理解、应用、分析、评估和创建等五大能力。SoMeLVLM 旨在理解和生成真实的社交媒体行为。我们开发了一个 654k 多模态社交媒体教学调整数据集，以支持我们的认知框架和微调我们的模型。我们的实验证明，SoMeLVLM 在多个社交媒体任务中取得了最先进的性能。进一步的分析表明，在认知能力方面，SoMeLVLM 与基线相比具有显著优势。

14.CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection

标题:厘清欺骗：调整视觉语言模型，实现通用深度伪装检测
author:Sohail Ahmed Khan, Duc-Tien Dang-Nguyen
date Time:2024-02-20

paper pdf:http://arxiv.org/pdf/2402.12927v1

摘要：

生成式对抗网络（GANs）的最新进展和扩散模型的出现大大简化了高度逼真和广泛获取的合成内容的制作过程。因此，迫切需要有效的通用检测机制来降低深度伪造带来的潜在风险。在本文中，我们探讨了预训练视觉语言模型（VLM）与最新的适配方法搭配用于通用深度伪造检测的有效性。与之前在该领域的研究一样，我们只使用了一个数据集（ProGAN），以便将 CLIP 用于深度赝品检测。然而，与之前的研究只依赖 CLIP 的视觉部分而忽略其文本部分不同，我们的分析表明，保留文本部分至关重要。因此，我们采用的基于 Prompt Tuning（提示调整）的简单轻量级适配策略比之前的 SOTA 方法高出 5.01% 的 mAP 和 6.61% 的准确率，而所使用的训练数据却不到其三分之一（200k 张图像比 720k 张图像）。为了评估我们提出的模型在现实世界中的适用性，我们对各种场景进行了全面评估。其中包括对 21 个不同数据集的图像进行严格测试，这些数据集包括由基于 GANs、基于 Diffusion 和商业工具生成的图像。

15.GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object Affordances of Language and Vision Models

标题:GRAFFORD：用于测试语言和视觉模型物体亲和力知识的基准数据集
author:Sayantan Adak, Daivik Agrawal, Animesh Mukherjee, Somak Aditya
date Time:2024-02-20

paper pdf:http://arxiv.org/pdf/2402.12881v1

摘要：

我们研究了预训练语言模型（LMs）和预训练视觉语言模型（VLMs）中的物体承受能力知识。基于变换器的大型预训练语言模型（PTLM）可从大量无标记文本中学习上下文表示，并在下游 NLU 任务中表现出色。与此同时，越来越多的文献表明，PTLM 的失败并不一致，也不直观，显示出缺乏推理和基础。为了向量化基础（或缺乏基础）的影响迈出第一步，我们策划了一个新颖而全面的物体承受力数据集--GrAFFORD，该数据集由 15 个承受力类别组成。与在视觉和语言领域收集的可承受性数据集不同，我们在野生句子中标注了对象和可承受性。实验结果表明，当涉及到不常见的物体承受能力时，PTLMs 表现出有限的推理能力。我们还观察到，预训练的 VLM 不一定能有效捕捉物体的可承受性。通过少量的微调，我们证明了 PTLM 和 VLM 在承受力知识方面的改进。我们的研究为语言基础任务提供了一个新颖的数据集，并对 LM 的能力提出了见解，从而推进了对物体承受能力的理解。代码和数据见 https://github.com/sayantan11995/Affordance

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.20-2024.02.25

论文目录~

1.Representing Online Handwriting for Recognition in Large Vision-Language Models

2.Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

3.Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

4.CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

5.PALO: A Polyglot Large Multimodal Model for 5B People

6.DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models

7.Visual Hallucinations of Multi-modal Large Language Models

8.Uncertainty-Aware Evaluation for Vision-Language Models

9.Unleashing the Power of Imbalanced Modality Information for Multi-modal Knowledge Graph Completion

10.MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

11.BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

12.Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

13.SoMeLVLM: A Large Vision Language Model for Social Media Processing

14.CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection

15.GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object Affordances of Language and Vision Models