AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.10-2024.02.15

论文目录~

[1.Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing?](#1.Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing?)
[2.Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance](#2.Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance)
[3.Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models](#3.Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models)
[4.PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs](#4.PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs)
[5.Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks](#5.Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks)
[6.Text-centric Alignment for Multi-Modality Learning](#6.Text-centric Alignment for Multi-Modality Learning)
[7.Multi-Modal Emotion Recognition by Text, Speech and Video Using Pretrained Transformers](#7.Multi-Modal Emotion Recognition by Text, Speech and Video Using Pretrained Transformers)
[8.A Benchmark for Multi-modal Foundation Models on Low-level Vision: from Single Images to Pairs](#8.A Benchmark for Multi-modal Foundation Models on Low-level Vision: from Single Images to Pairs)

标题:文本到图像模型能否帮助多模态学习进行视觉模态缺失的视觉识别？
author:Tiantian Feng, Daniel Yang, Digbalay Bose, Shrikanth Narayanan
date Time:2024-02-14

paper pdf:http://arxiv.org/pdf/2402.09036v1

摘要：

多模态学习已成为视觉识别领域越来越有前途的途径，推动了从媒体和教育到医疗保健和交通等不同领域的创新。尽管多模态学习取得了成功，但其在视觉识别方面的稳健性却常常受到无法获得部分模态（尤其是视觉模态）的挑战。在多模态学习中，缓解模态缺失的传统方法主要依赖于算法和模态融合方案。相比之下，本文探索使用文本到图像模型来辅助多模态学习。具体来说，我们提出了一个简单而有效的多模态学习框架 GTI-MM，通过使用生成转换器对缺失数据进行推算，提高数据效率和模型的鲁棒性，以应对视觉模态的缺失。我们利用视觉识别任务的多个多模态数据集，全面分析了涉及数据中视觉模态缺失的各种情况，包括模型训练。我们的研究结果表明，在训练中缺失视觉数据时，合成图像有利于提高训练数据的效率，而在训练和测试中缺失视觉数据时，合成图像则能提高模型的稳健性。此外，我们还证明了 GTI-MM 在较低的生成量和简单的提示技术条件下也是有效的。

2.Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance

标题:通过无分类器引导减轻大型视觉语言模型中的物体幻觉
author:Linxi Zhao, Yihe Deng, Weitong Zhang, Quanquan Gu
publish:27 pages, 20 figures, 4 tables
date Time:2024-02-13

paper pdf:http://arxiv.org/pdf/2402.08680v1

摘要：

大型视觉语言模型（LVLMs）的发展日益凸显出一个关键问题，即它们往往会对图像中不存在的物体产生幻觉。为了解决这个问题，以前的研究主要集中在使用专门策划的数据集或功能强大的 LLM（如 GPT-3.5）来纠正 LVLM 的输出。然而，这些方法需要昂贵的训练/微调，或者需要通过 API 访问高级 LLM，以便在生成后修正模型的输出。在本文中，我们引入了一个名为 "通过无分类指导减少幻觉"（Mitigating hallucinAtion via classifieR-Free guIdaNcE，MARINE）的框架来应对这一挑战，该框架无需训练和 API，能够在生成过程中有效、高效地减少物体幻觉。具体来说，MARINE通过整合现有的开源视觉模型，丰富了LVLM的视觉语境，并采用无分类器引导的方式，将额外的物体基础特征纳入其中，从而提高了LVLM的生成精度。通过对6美元的流行LVLM进行不同评价指标的综合评估，我们证明了MARINE的有效性，它甚至优于现有的基于微调的方法。值得注意的是，根据 GPT-4V 的评估，MARINE 不仅减少了幻觉，还提高了 LVLM 生成的详细程度。

3.Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models

标题:Rec-GPT4V：利用大型视觉语言模型进行多模态推荐
author:Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu
publish:under review
date Time:2024-02-13

paper pdf:http://arxiv.org/pdf/2402.08670v1

摘要：

大型视觉语言模型（LVLMs）能够很好地理解静态图像和文本动态，因此它的开发为应对传统多模态推荐所面临的挑战提供了可能。然而，由于以下复杂性，LVLM 在这一领域的应用仍然有限：首先，LVLMs 缺乏用户偏好知识，因为它们是通过大量通用数据集训练出来的。其次，在涉及离散、噪声和冗余图像序列的场景中，LVLM 在处理多图像动态时会遇到挫折。为了克服这些问题，我们提出了名为 Rec-GPT4V：视觉总结思维（VST）的新颖推理方案，利用大型视觉语言模型进行多模态推荐。我们利用用户历史记录作为上下文中的用户偏好来应对第一个挑战。接下来，我们促使 LVLM 生成项目图像摘要，并利用自然语言空间中的图像理解结合项目标题来查询用户对候选项目的偏好。我们使用三种 LVLM 在四个数据集上进行了综合实验：GPT4-V、LLaVa-7b 和 LLaVa-13b。数值结果表明了 VST 的有效性。

4.PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

标题:PIN：位置插入释放 VLM 中的物体定位能力
author:Michael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano
date Time:2024-02-13

paper pdf:http://arxiv.org/pdf/2402.08657v1

摘要：

视觉语言模型（VLM），如 Flamingo 和 GPT-4V，通过将大型语言模型与视觉系统集成在一起，已显示出巨大的潜力。然而，这些模型在物体定位这一基本的计算机视觉任务中面临着挑战，因为它们需要在多模态数据上进行训练，这些数据大多包含没有明确空间基础的字幕。虽然有可能利用与 VLM 相结合的边界框注释构建定制的、有监督的训练管道，但这会导致模型的专业化和难以扩展。在本文中，我们旨在探索基于字幕的 VLM 的局限性，并建议通过以下更简单的方式来应对挑战：i) 保持基于字幕的 VLM 的权重不变；ii) 不使用任何监督检测数据。为此，我们引入了与输入无关的位置插入（PIN），这是一种可学习的空间提示，包含一组最小的参数，可在冻结的 VLM 中滑动，从而释放物体定位功能。我们的 PIN 模块通过合成数据上的简单下一个标记预测任务进行训练，无需引入新的输出头。我们的实验证明，在各种图像（包括帕斯卡 VOC、COCO、LVIS 以及绘画或卡通等各种图像）上，零镜头定位性能都很强。

5.Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks

标题:视觉问题解答教学：将多模态大语言模型应用于特定领域的视觉多重任务
author:Jusung Lee, Sungguk Cha, Younghyun Lee, Cheoljong Yang
date Time:2024-02-13

paper pdf:http://arxiv.org/pdf/2402.08360v1

摘要：

大型语言模型（LLM）给自然语言处理（NLP）应用带来了革命性的变化，目前正在向多模态输入领域扩展。由于多模态语言模型（MLLMs）具有解释图像的能力，因此主要用于视觉语言任务。目前，MLLMs 还没有扩展到特定领域的视觉任务中，而这些任务需要对视觉信息有更明确的理解。我们开发了一种方法，将特定领域的视觉和视觉语言数据集转换成统一的问题解答格式，称为视觉问题解答指令（VQA-IN），从而将 MLLM 扩展到特定领域的任务中。VQA-IN 被用于使用较小版本的 LLM（sLLM）训练多个 MLLM 架构。实验结果表明，所提出的方法在特定领域的视觉任务上取得了很高的得分指标，同时在多任务方式的视觉语言任务上也保持了很好的性能。

6.Text-centric Alignment for Multi-Modality Learning

标题:以文本为中心的多模态学习对齐
author:Yun-Da Tsai, Ting-Yu Yen, Pei-Fu Guo, Zhe-Yan Li, Shou-De Lin
date Time:2024-02-12

paper pdf:http://arxiv.org/pdf/2402.08086v1

摘要：

本研究论文探讨了多模态学习中的模态不匹配难题，即推理过程中可用的模态与训练时可用的模态不同。我们提出了以文本为中心的多模态学习对齐（TAMML）方法，这是一种利用大语言模型（LLM）与上下文学习和基础模型来增强多模态系统在这些条件下的通用性的创新方法。通过利用文本作为统一语义空间的独特属性，TAMML 在处理未见、多样和不可预测的模态组合方面取得了显著改进。TAMML 不仅能适应不同的模态，还能保持强劲的性能，展示了基础模型在克服传统固定模态框架在嵌入表征方面的局限性的潜力。这项研究为模式可用性是动态和不确定的现实世界应用提供了灵活、有效的解决方案，从而为该领域做出了贡献。

标题:使用预训练变换器进行文本、语音和视频多模式情感识别
author:Minoo Shayaninasab, Bagher Babaali
date Time:2024-02-11

paper pdf:http://arxiv.org/pdf/2402.07327v1

摘要：

由于人类情感的复杂性和人类情感表征方法的多样性，情感识别是一个具有挑战性的领域。本研究采用文本、音频（语音）和视频三种输入模式来生成多模态特征向量。在生成每种模式的特征时，都使用了经过微调的预训练 Transformer 模型。在每种模式中，Transformer 模型通过迁移学习提取特征和情感结构。然后将这些特征融合在一起，使用分类器进行情感识别。为了选择合适的融合方法和分类器，我们尝试了各种特征级和决策级融合技术，最终，在 IEMOCAP 多模态数据集上，通过串联特征向量进行特征级融合并使用支持向量机进行分类的最佳模型达到了 75.42% 的准确率。关键词多模态情感识别 IEMOCAP 自我监督学习转移学习变换器

标题:低级视觉多模式基础模型基准：从单张图像到成对图像
author:Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin
publish:arXiv admin note: substantial text overlap with arXiv:2309.14181
date Time:2024-02-11

paper pdf:http://arxiv.org/pdf/2402.07116v1

摘要：

多模态大语言模型（MLLMs）的快速发展引领了计算机视觉领域的范式转变，使其朝着多功能基础模型的方向发展。然而，在低级视觉感知和理解方面评估 MLLM 仍然是一个有待探索的领域。为此，我们设计了基准设置来模拟与低级视觉相关的人类语言反应：低级视觉感知（A1），通过与低级属性（如清晰度、照明）相关的视觉问题解答；以及低级视觉描述（A2），用于评估低级文本描述的 MLLM。此外，鉴于成对比较可以更好地避免回答的模糊性，并且已被许多人类实验所采用，我们进一步将 MLLM 的低层次感知相关问题解答和描述评估从单一图像扩展到图像对。具体来说，在感知（A1）方面，我们使用了 LLVisionQA+ 数据集，其中包括 2,990 张单张图像和 1,999 对图像，每张图像都附有一个关于其低级特征的开放式问题；在描述（A2）方面，我们提出了 LLDescribe+ 数据集，在 499 张单张图像和 450 对图像上评估了低级描述的 MLLM。此外，我们还评估了 MLLM 的评估（A3）能力，即预测得分，通过采用基于 softmax 的方法，使所有 MLLM 都能生成可量化的质量评级，并在 7 个图像质量评估（IQA）数据集中根据人类意见进行测试。通过对 24 种 MLLM 的评估，我们证明了几种 MLLM 在单幅图像上都具有不错的低级视觉能力，但只有 GPT-4V 在成对比较上比单幅图像评估（如人类）表现出更高的准确性。我们希望我们的基准能激励人们进一步研究如何发掘和提高 MLLM 的这些新生能力。数据集将发布在 https://github.com/Q-Future/Q-Bench 网站上。