AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.10-2024.05.20

文章目录~

[1.Diff-BGM: A Diffusion Model for Video Background Music Generation](#1.Diff-BGM: A Diffusion Model for Video Background Music Generation)
[2.Rethinking Overlooked Aspects in Vision-Language Models](#2.Rethinking Overlooked Aspects in Vision-Language Models)
[3.Unifying 3D Vision-Language Understanding via Promptable Queries](#3.Unifying 3D Vision-Language Understanding via Promptable Queries)
[4.MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection](#4.MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection)
[5.Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models](#5.Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models)
[6.Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation](#6.Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation)
[7.Open-Vocabulary Spatio-Temporal Action Detection](#7.Open-Vocabulary Spatio-Temporal Action Detection)
[8.HARIS: Human-Like Attention for Reference Image Segmentation](#8.HARIS: Human-Like Attention for Reference Image Segmentation)
[9.Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning](#9.Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning)
[10.FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models](#10.FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models)
[11.PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning](#11.PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning)
[12.HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition](#12.HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition)
[13.Adversarial Robustness for Visual Grounding of Multimodal Large Language Models](#13.Adversarial Robustness for Visual Grounding of Multimodal Large Language Models)
[14.Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model](#14.Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model)
[15.Contextual Emotion Recognition using Large Vision Language Models](#15.Contextual Emotion Recognition using Large Vision Language Models)
[16.CLIP with Quality Captions: A Strong Pretraining for Vision Tasks](#16.CLIP with Quality Captions: A Strong Pretraining for Vision Tasks)
[17.Efficient Vision-Language Pre-training by Cluster Masking](#17.Efficient Vision-Language Pre-training by Cluster Masking)
[18.Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research](#18.Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research)
[19.Open-Vocabulary Object Detection via Neighboring Region Attention Alignment](#19.Open-Vocabulary Object Detection via Neighboring Region Attention Alignment)
[20.Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?](#20.Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?)
[21.CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering](#21.CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering)
[22.Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP)](#22.Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP))
[23.Unified Video-Language Pre-training with Synchronized Audio](#23.Unified Video-Language Pre-training with Synchronized Audio)
[24.TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt](#24.TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt)

1.Diff-BGM: A Diffusion Model for Video Background Music Generation

标题:Diff-BGM：视频背景音乐生成的扩散模型
author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
publish:Accepted by CVPR 2024(Poster)
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11913v1

摘要：

编辑视频时，一段动听的背景音乐必不可少。然而，视频背景音乐生成任务面临着一些挑战，例如缺乏合适的训练数据集，难以灵活控制音乐生成过程并按顺序对齐视频和音乐。在这项工作中，我们首先提出了一个高质量的音乐视频数据集 BGM909，该数据集具有详细的注释和镜头检测功能，可提供视频和音乐的多模态信息。然后，我们提出了评估音乐质量的评价指标，包括音乐多样性和音乐与视频之间的匹配度以及检索精度指标。最后，我们提出了 Diff-BGM 框架来自动生成给定视频的背景音乐，在生成过程中使用不同信号来控制音乐的不同方面，即使用动态视频特征来控制音乐节奏，使用语义特征来控制旋律和氛围。我们建议通过引入分段感知交叉注意层来按顺序对齐视频和音乐。实验验证了我们所提方法的有效性。代码和模型可在 https://github.com/sizhelee/Diff-BGM 上获取。

2.Rethinking Overlooked Aspects in Vision-Language Models

标题:反思视觉语言模型中被忽视的方面
author:Yuan Liu, Le Tian, Xiao Zhou, Jie Zhou
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11850v1

摘要：

最近，GPT4-V 和 LLaVA 等大型视觉语言模型（LVLM）取得了长足的进步。特别是 LLaVA 的模块化架构，将简单与高效融为一体。最近的工作主要集中在引入更多的预训练和指令调整数据，以提高模型的性能。本文深入探讨了在预训练和指令调整数据集选择过程中经常被忽视的数据效率问题。我们的研究表明，仅仅增加预训练数据的大小并不能保证性能的提高，事实上还可能导致性能下降。此外，我们还建立了一个管道来确定最有效的指令调整（SFT）数据集，这意味着现有研究中使用的所有 SFT 数据并非都是必要的。本文的主要目的不是介绍最先进的模型，而是作为未来研究的路线图，旨在优化预训练和微调过程中的数据使用，以提高视觉语言模型的性能。

3.Unifying 3D Vision-Language Understanding via Promptable Queries

标题:通过可提示查询统一 3D 视觉语言理解
author:Ziyu Zhu, Zhuofan Zhang, Xiaojian Ma, Xuesong Niu, Yixin Chen, Baoxiong Jia, Zhidong Deng, Siyuan Huang, Qing Li
publish:Project page: https://pq3d.github.io
date Time:2024-05-19

paper pdf:http://arxiv.org/pdf/2405.11442v1

摘要：

三维视觉语言（3D-VL）理解的统一模型有望采用各种场景表征，并在三维场景中执行各种任务。然而，由于表征的独立应用和对三维多任务训练的探索不足，现有方法与这种统一模型之间存在相当大的差距。在本文中，我们介绍了 PQ3D，这是一种统一的模型，能够使用可提示查询（Promptable Queries）来处理从低级实例分割到高级推理和规划等各种 3D-VL 任务。这是通过三项关键创新实现的：(1) 通过分段级分组将各种三维场景表示（即体素、点云、多视角图像）统一到一个共享的三维坐标空间；(2) 基于注意力的查询解码器，用于在提示引导下进行特定任务的信息检索；(3) 不同任务的通用输出头，以支持多任务训练。PQ3D 在十个不同的 3D-VL 数据集上进行了测试，在这些任务中表现出令人印象深刻的性能，在大多数基准上都创造了新的记录。特别是在 ScanNet200 上，PQ3D 的性能提高了 1.8% (AP)；在 ScanRefer 上，提高了 5.4% (acc@0.5)；在 Multi3DRefer 上，提高了 11.7% (F1@0.5)；在 Scan2Cap 上，提高了 13.4% (CIDEr@0.5)。此外，PQ3D 还支持使用单独或组合形式的可用三维表征进行灵活推理，例如，仅使用体素输入。

4.MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection

标题:MediCLIP：将 CLIP 应用于少镜头医学图像异常检测
author:Ximiao Zhang, Min Xu, Dehui Qiu, Ruixin Yan, Ning Lang, Xiuzhuang Zhou
publish:12 pages, 3 figures, 5 tables, early accepted at MICCAI 2024
date Time:2024-05-18

paper pdf:http://arxiv.org/pdf/2405.11315v1

摘要：

在医疗决策领域，精确的医学影像异常检测在帮助临床医生方面发挥着举足轻重的作用。然而，以往的工作依赖于大规模数据集来训练异常检测模型，从而增加了开发成本。本文首先关注的是少镜头环境下的医学图像异常检测任务，这对于数据收集和标注都非常昂贵的医学领域来说意义重大。我们提出了一种创新方法--MediCLIP，它通过自监督微调将 CLIP 模型应用于少镜头医学图像异常检测。尽管作为一种视觉语言模型，CLIP 在各种下游任务中都表现出了出色的零/少镜头性能，但它在医学图像异常检测方面仍有不足。为此，我们设计了一系列医学图像异常合成任务，模拟医学影像中常见的疾病模式，将 CLIP 强大的泛化能力应用到医学图像异常检测任务中。与其他方法相比，MediCLIP 在仅提供少量正常医学图像的情况下，在异常检测和定位方面达到了最先进的性能。在三个不同的医学异常检测任务中进行的广泛实验证明了我们方法的优越性。代码见 https://github.com/cnulab/MediCLIP。

5.Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models

标题:通过级联视觉语言模型增强细粒度图像分类能力
author:Canshi Wei
date Time:2024-05-18

paper pdf:http://arxiv.org/pdf/2405.11301v1

摘要：

对于视觉语言模型（VLM）（如 CLIP）来说，细粒度图像分类，尤其是零/少镜头场景下的细粒度图像分类，是一项重大挑战。由于预训练配方的局限性，这些模型往往难以完成区分语义相似类别的细微任务，因为预训练配方缺乏对细粒度分类的监督信号。本文介绍的 CascadeVLM 是一个创新框架，它通过有效利用大型视觉语言模型（LVLM）中封装的细粒度知识，克服了以往基于 CLIP 方法的限制。在各种细粒度图像数据集上进行的实验表明，CascadeVLM 的性能明显优于现有模型，特别是在斯坦福汽车数据集上，达到了令人印象深刻的 85.6% 的零镜头准确率。性能增益分析验证了 LVLM 可以对 CLIP 不确定的具有挑战性的图像进行更准确的预测，从而提高整体准确率。我们的框架揭示了如何全面整合 VLM 和 LVLM，以实现高效的细粒度图像分类。

6.Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation

标题:融合与校准：用于参考图像分割的双向视觉语言指导框架
author:Yichen Yan, Xingjian He, Sihan Chen, Shichen Lu, Jing Liu
publish:12 pages, 4 figures ICIC2024
date Time:2024-05-18

paper pdf:http://arxiv.org/pdf/2405.11205v1

摘要：

参考图像分割（RIS）旨在从图像中分割出用自然语言描述的对象，主要挑战在于文本与像素之间的相关性。以往的方法通常依赖单模态特征（如视觉或语言特征）来指导多模态融合过程。然而，这种方法限制了视觉与语言之间的互动，导致解码过程中语言描述与像素级细节之间缺乏精细关联。在本文中，我们介绍了 FCNet，这是一种采用双向引导融合方法的框架，视觉和语言都在其中发挥引导作用。具体来说，我们使用视觉引导方法进行初始多模态融合，获得侧重于关键视觉信息的多模态特征。然后，我们提出了语言引导校准模块，进一步校准这些多模态特征，确保它们理解输入句子的上下文。这种视觉语言双向引导的方法可以生成更高质量的多模态特征，并将其发送给解码器，从而促进细粒度语义信息从文本特征到视觉特征的自适应传播。在具有不同骨干的 RefCOCO、RefCO+ 和 G-Ref 数据集上进行的实验表明，我们的方法始终优于最先进的方法。

7.Open-Vocabulary Spatio-Temporal Action Detection

标题:开放词汇时空动作检测
author:Tao Wu, Shuqiu Ge, Jie Qin, Gangshan Wu, Limin Wang
date Time:2024-05-17

paper pdf:http://arxiv.org/pdf/2405.10832v1

摘要：

时空动作检测（STAD）是一项重要的细粒度视频理解任务。目前的方法需要事先对所有动作类别进行框和标签监督。然而，在实际应用中，很可能会遇到训练中未见的新动作类别，因为动作类别空间很大，很难一一列举。此外，传统方法的数据注释和新类别模型训练成本极高，因为我们需要进行详细的方框注释，并从头开始重新训练整个网络。在本文中，我们提出了一种新的挑战性设置，即执行开放词汇 STAD，以更好地模拟开放世界中的动作检测情况。开放词汇时空动作检测（OV-STAD）要求在有限的基础类集合上训练模型，并进行盒和标签监督，这有望在新动作类上产生良好的泛化性能。针对 OV-STAD，我们基于现有的 STAD 数据集建立了两个基准，并提出了一种基于预训练视频语言模型（VLM）的简单而有效的方法。为了使整体 VLM 更好地适应细粒度动作检测任务，我们在本地化视频区域-文本对上对其进行了细致的微调。这种定制的微调赋予了 VLM 更好的运动理解能力，从而有助于视频区域和文本之间更精确的对齐。在配准之前，我们采用了局部区域特征和全局视频特征融合的方法，通过提供全局上下文来进一步提高动作检测性能。我们的方法在新类别上取得了可喜的成绩。

8.HARIS: Human-Like Attention for Reference Image Segmentation

标题:HARIS：参考图像分割的类人注意力
author:Mengxi Zhang, Heqing Lian, Yiming Liu, Jie Chen
date Time:2024-05-17

paper pdf:http://arxiv.org/pdf/2405.10707v2

摘要：

参考图像分割（RIS）旨在找到与语言表达相对应的特定区域。现有方法以 "从上到下 "的方式结合了不同模态的特征。这种设计可能会得到一些不必要的图像-文本对，从而导致不准确的分割掩码。在本文中，我们提出了一种称为 HARIS 的参考图像分割方法，该方法引入了类人关注（Human-Like Attention）机制，并使用了参数高效微调（PEFT）框架。具体来说，Human-Like Attention 从多模态特征中获取反馈信号，使网络以特定对象为中心，摒弃无关的图像-文本对。此外，我们还引入了 PEFT 框架，以保持预训练编码器的零镜头能力。在三个广泛使用的 RIS 基准和 PhraseCut 数据集上进行的大量实验表明，我们的方法实现了最先进的性能和强大的归零能力。

9.Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

标题:通过强化学习微调作为决策代理的大型视觉语言模型
author:Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine
date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.10292v2

摘要：

根据专门的视觉指令跟踪数据进行微调的大型视觉语言模型（VLM）在各种场景中都表现出了令人印象深刻的语言推理能力。然而，这种微调范式可能无法从交互环境中有效学习多步骤目标任务中的最优决策代理。为了应对这一挑战，我们提出了一种利用强化学习（RL）对 VLM 进行微调的算法框架。具体来说，我们的框架提供任务描述，然后提示 VLM 生成思维链（CoT）推理，使 VLM 能够有效地探索导致最终文本行动的中间推理步骤。接下来，开放式文本输出会被解析为可执行的动作，从而与环境互动，获得目标导向的任务奖励。最后，我们的框架利用这些任务奖励，通过 RL 对整个 VLM 进行微调。经验表明，我们提出的框架增强了 VLM 代理在各种任务中的决策能力，使 7b 模型的表现优于 GPT4-V 或 Gemini 等商业模型。此外，我们还发现 CoT 推理是提高性能的关键因素，因为去除 CoT 推理会导致我们方法的整体性能显著下降。

10.FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

标题:FFF：在对比预训练中修正有缺陷的基础，从而建立非常强大的视觉语言模型
author:Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos
publish:Accepted at CVPR 2024
date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.10286v1

摘要：

尽管噪音和字幕质量已被认为是影响视觉语言对比预训练的重要因素，但在本文中，我们表明通过解决这些问题来改进训练过程的全部潜力仍有待发挥。具体来说，我们首先研究并分析了影响训练的两个问题：错误的负面配对分配以及字幕质量和多样性较低。然后，我们设计了有效的解决方案来解决这两个问题，这些解决方案基本上都需要使用多个真实的正面配对进行训练。最后，我们提出使用 sigmoid loss 进行训练，以满足这一要求。在图像识别（11个数据集的平均值为 $\\sim +6%$ ）和图像检索（Flickr30k数据集的平均值为 $\\sim +19%$ ，MSCOCO数据集的平均值为 $\\sim +15%$ ）方面，我们都显示出与目前最先进的技术相比有非常大的提升。

11.PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning

标题:PIR：利用先验指令表征学习进行遥感图像-文本检索
author:Jiancheng Pan, Muyuan Ma, Qing Ma, Cong Bai, Shengyong Chen
publish:15 pages, 9 figures
date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.10160v1

摘要：

遥感图像-文本检索是遥感解译任务的一个基础方面，有助于视觉和语言表征的协调。本文介绍了一种先验指令表征（PIR）学习范式，它利用先验知识指导视觉和文本表征的自适应学习。在 PIR 的基础上，设计了一个适应领域的遥感图像-文本检索框架 PIR-ITR，以解决视觉-语言理解任务中的语义噪音问题。然而，通过预训练视觉语言基础模型的大量附加数据，遥感图像-文本检索将进一步发展成为开放领域的检索任务。在此基础上，我们提出了基于特定领域 CLIP 的遥感图像文本检索框架 PIR-CLIP，以解决遥感视觉语言表征中的语义噪声问题，进一步提高开放域检索性能。在视觉表征方面，基于空间PAE的视觉指示表征（VIR）利用遥感场景识别的先验指导知识，通过建立信念矩阵来选择关键特征，从而降低语义噪声的影响。在文本表示方面，基于时间-PAE 的语言循环注意（LCA）利用前一时间步循环激活当前时间步，以增强文本表示能力。我们还提出了聚类关联损失（AL）来约束类间关系，减少共同子空间中的语义混淆区。综合实验证明，PIR 可以增强视觉和文本表示能力，并在两个基准数据集 RSICD 和 RSITMD 上优于封闭域和开放域检索的先进方法。

12.HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

标题:HecVL：用于零镜头手术阶段识别的分层视频语言预训练
author:Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy
publish:Accepted by MICCAI2024
date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.10075v1

摘要：

自然语言可以为原始文本提供广泛的监督来源，从而在开发通用外科模型方面发挥重要作用。这种灵活的监督形式可以实现模型在不同数据集和任务间的转移，因为自然语言可以用来参考已学过的视觉概念或描述新概念。在这项工作中，我们提出了 HecVL，这是一种用于构建通用外科模型的新型分层视频语言预训练方法。具体来说，我们通过将手术讲座视频与三个层次的文本配对，构建了一个分层视频-文本配对数据集：在片段级，使用转录音频文本的原子动作；在阶段级，概念性文本摘要；在视频级，手术过程的整体抽象文本。然后，我们提出了一种新颖的从细到粗的对比学习框架，利用单一模型为这三种视频文本层次学习独立的嵌入空间。通过分离不同层次的嵌入空间，学习到的多模态表征在同一模型中编码了短期和长期的手术概念。得益于注入的文本语义，我们证明了 HecVL 方法可以在没有任何人工注释的情况下实现零镜头手术阶段识别。此外，我们还证明，用于手术阶段识别的同一 HecVL 模型可以在不同的手术过程和医疗中心之间转移。

13.Adversarial Robustness for Visual Grounding of Multimodal Large Language Models

标题:多模态大型语言模型视觉基础的对抗鲁棒性
author:Kuofeng Gao, Yang Bai, Jiawang Bai, Yong Yang, Shu-Tao Xia
publish:ICLR 2024 Workshop on Reliable and Responsible Foundation Models
date Time:2024-05-16

paper pdf:http://arxiv.org/pdf/2405.09981v1

摘要：

多模态大语言模型（MLLM）最近在各种视觉语言任务中取得了更高的性能，包括视觉接地能力。然而，在 MLLM 中，视觉接地的对抗鲁棒性仍未得到探索。为了填补这一空白，我们将指代表达理解（REC）作为视觉接地的一个示例任务，并提出了以下三种对抗性攻击范式。首先，非针对性对抗攻击会诱导 MLLM 为每个对象生成错误的边界框。此外，排他性目标对抗攻击会使所有生成的输出都指向同一个目标边界框。此外，置换式目标对抗攻击旨在置换单张图像中不同物体之间的所有边界框。大量实验证明，所提出的方法可以成功攻击 MLLM 的视觉接地能力。我们的方法不仅为设计新颖的攻击提供了一个新的视角，还为提高 MLLM 视觉接地的对抗鲁棒性提供了一个强有力的基线。

14.Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

标题:Xmodel-VLM：多模态视觉语言模型的简单基线
author:Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang
date Time:2024-05-15

paper pdf:http://arxiv.org/pdf/2405.09215v1

摘要：

我们介绍的 Xmodel-VLM 是一种先进的多模态视觉语言模型。它专为在消费级 GPU 服务器上高效部署而设计。我们的工作直接面对一个关键的行业问题，即解决阻碍大规模多模态系统广泛应用的高昂服务成本。通过严格的训练，我们从头开始开发了 1B 级语言模型，并采用 LLaVA 范式进行模态对齐。我们将其称为 Xmodel-VLM，它是一个轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准中进行的广泛测试表明，尽管 Xmodel-VLM 体积更小，执行速度更快，但其性能却可与大型模型相媲美。我们的模型检查点和代码在 GitHub 上公开，网址是 https://github.com/XiaoduoAILab/XmodelVLM。

15.Contextual Emotion Recognition using Large Vision Language Models

标题:利用大型视觉语言模型进行情境情感识别
author:Yasaman Etesam, Özge Nilay Yalçın, Chuxuan Zhang, Angelica Lim
publish:8 pages, website:

https://yasaman-etesam.github.io/Contextual-Emotion-Recognition/. arXiv admin

note: text overlap with arXiv:2310.19995
date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08992v1

摘要：

"边界框中的人感觉如何？在真实世界的情境中，实现人类水平的人物表面情绪识别仍然是计算机视觉领域尚未解决的任务。仅有面部表情是不够的：肢体姿势、上下文知识和常识推理都有助于人类完成这项情感心智理论任务。在本文中，我们研究了近期大型视觉语言模型所支持的两种主要方法：1) 在图像字幕后使用纯语言 LLM，以及 2) 在零拍摄和微调设置下使用视觉语言模型。我们在情境情感（EMOTIC）数据集上对这些方法进行了评估，结果表明，即使在小数据集上进行微调的视觉语言模型也能明显优于传统基线模型。这项工作的成果旨在帮助机器人和代理在未来执行情感敏感决策和交互。

16.CLIP with Quality Captions: A Strong Pretraining for Vision Tasks

标题:带有优质字幕的 CLIP：视觉任务的强大预训练
author:Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Oncel Tuzel
date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08911v1

摘要：

CLIP 模型在零镜头分类和检索任务中表现出色。但最近的研究表明，CLIP 中的学习表征并不适合密集预测任务，如物体检测、语义分割或深度估计。最近，CLIP 模型的多阶段训练方法被引入，以缓解 CLIP 在下游任务中的弱势表现。在这项工作中，我们发现只需提高图像-文本数据集中标题的质量，就能提高 CLIP 视觉表征的质量，从而显著改善下游密集预测视觉任务的性能。事实上，我们发现使用高质量标题进行的 CLIP 预训练可以超越最近的监督、自监督和弱监督预训练方法。我们发现，当使用 ViT-B/16 作为图像编码器的 CLIP 模型在对齐良好的图像-文本对上进行训练时，它在语义分割和深度估计任务上的 mIoU 和 RMSE 分别比最近最先进的屏蔽图像建模（MIM）预训练方法（如屏蔽自动编码器（MAE））高 12.1%和 11.5%。我们发现，移动架构也能从 CLIP 预训练中显著受益。采用 CLIP 预训练方法的最新移动视觉架构 MCi2 与在 ImageNet-22k 上进行语义分割任务预训练的 Swin-L 性能相似，但体积却小了 6.1 美元/次。此外，我们还表明，在对密集预测任务进行微调时，提高字幕质量可带来 10 倍的数据效率。

17.Efficient Vision-Language Pre-training by Cluster Masking

标题:通过聚类屏蔽进行高效的视觉语言预训练
author:Zihao Wei, Zixuan Pan, Andrew Owens
publish:CVPR 2024, Project page: https://zxp46.github.io/cluster-masking/ ,

Code:

https://github.com/Zi-hao-Wei/Efficient-Vision-Language-Pre-training-by-Cluster-Masking
date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08815v1

摘要：

我们提出了一种在视觉语言对比学习过程中屏蔽图像斑块的简单策略，这种策略可以提高学习表征的质量和训练速度。在每次迭代训练过程中，我们都会随机屏蔽视觉上相似的图像片段集群，以其原始像素强度来衡量。这提供了对比训练本身之外的额外学习信号，因为它迫使模型仅根据上下文来预测被遮蔽的视觉结构的单词。通过减少每张图像的数据量，它还能加快训练速度。我们通过对一些基准进行预训练来评估我们模型的有效性，发现它在所学表征的质量上优于 FLIP 等其他屏蔽策略。

18.Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research

标题:促进科学领域的人工智能公平性：通用领域提示学习促进无障碍 VLM 研究
author:Qinglong Cao, Yuntian Chen, Lu Lu, Hao Sun, Zhenzhong Zeng, Xiaokang Yang, Dongxiao Zhang
date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08668v1

摘要：

大规模视觉语言模型（VLM）在自然视觉任务中表现出了卓越的性能，激励着各领域的研究人员探索特定领域的 VLM。然而，构建功能强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源，这些资源主要供工业界使用，但却阻碍了学术界的 VLM 研究。为了应对这一挑战，促进可持续和公平的 VLM 研究，我们提出了通用领域提示学习（GDPL）框架。GDPL 有助于将 VLM 的强大识别能力从自然视觉转移到专业领域，而无需大量数据或资源。GDPL 利用小规模的特定领域基础模型和最少的提示样本，通过四元数网络为语言分支提供领域知识，揭示特定领域视觉特征与基于自然视觉的上下文嵌入之间的跨模态关系。与此同时，GDPL 通过分层传播生成的视觉提示特征，引导视觉分支进入特定领域，并以匹配良好的视觉语言关系为基础。此外，为了充分利用 VLM 的领域适应潜力，我们引入了一种新颖的低阶适应方法。在遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域进行的广泛实验验证了 GDPL 的功效，证明它有能力在提示学习范式中实现最先进的领域识别性能。我们的框架为可持续和包容性的 VLM 研究铺平了道路，跨越了学术界和工业界之间的障碍。

19.Open-Vocabulary Object Detection via Neighboring Region Attention Alignment

标题:通过邻近区域注意力对齐检测开放词汇对象
author:Sunyuan Qiang, Xianfei Li, Yanyan Liang, Wenlong Liao, Tao He, Pai Peng
date Time:2024-05-14

paper pdf:http://arxiv.org/pdf/2405.08593v1

摘要：

现实世界环境的多样性要求神经网络模型从封闭的类别设置扩展到适应新出现的类别。在本文中，我们研究了开放词汇对象检测（OVD），它有助于在仅有基础注释和开放词汇知识的监督下检测新的对象类别。然而，我们发现，在对齐过程中，区域间邻接关系的不足不可避免地制约了近期基于蒸馏的 OVD 策略的性能。为此，我们提出了邻近区域注意对齐（NRAA），它在一组邻近区域的注意机制内执行对齐，以提高开放词汇推断的效果。具体来说，对于给定的提议区域，我们会随机探索邻近的方框，并采用我们提议的邻近区域注意力（NRA）机制来提取关系信息。然后，将这些交互信息无缝地提供给蒸馏程序，以帮助检测器与预训练的视觉语言模型（VLMs）进行对齐。广泛的实验验证了我们提出的模型在开放词汇基准上表现出的卓越性能。

20.Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

标题:提示调整中更好的文本语义能否改善 VLM 的泛化？
author:Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian
date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07921v1

摘要：

除了对视觉语言模型（VLMs）进行微调之外，可学习的提示调整已成为一种有前途、节省资源的替代方法。尽管具有潜力，但有效学习提示符仍面临以下挑战：(i) 在低射场景中进行训练会导致过度拟合，从而限制了适应性，并在更新的类别或数据集上产生较弱的性能；(ii) 提示符调整的功效在很大程度上依赖于标签空间，在大类空间中性能下降，这表明在连接图像和类别概念方面存在潜在差距。在这项工作中，我们提出了这样一个问题：更好的文本语义是否有助于解决这些问题。特别是，我们引入了一种提示调整方法，该方法利用了从大型语言模型（LLM）中获得的类描述。我们的方法构建了图像和文本特征的部分级描述指导视图，随后对其进行调整，以学习更具通用性的提示语。我们在 11 个基准数据集上进行了全面的实验，结果表明我们的方法优于既有方法，取得了显著的改进。

21.CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering

标题:由 CLIP 驱动的 TASS：用于视听问题解答的目标感知单流网络
author:Yuanyuan Jiang, Jianqin Yin
publish:Submitted to the Journal on February 6, 2024
date Time:2024-05-13

paper pdf:http://arxiv.org/pdf/2405.07451v1

摘要：

虽然视觉语言预训练模型（VLM）在各种多模态理解任务中表现出色，但它们在细粒度视听推理，尤其是视听问题解答（AVQA）方面的潜力在很大程度上仍未得到开发。AVQA 对 VLM 提出了特殊的挑战，因为它需要区域级别的视觉理解以及与音频模式的无缝集成。以前基于 VLM 的 AVQA 方法只是将 CLIP 用作特征编码器，但对其知识利用不足，而且与大多数 AVQA 方法一样，在双流框架中将音频和视频作为独立实体错误处理。本文针对 AVQA 提出了一种新的由 CLIP 驱动的目标感知单流（TASS）网络，通过自然界的视听匹配特性，利用预训练模型的图像-文本匹配知识。它由两个关键部分组成：目标感知空间接地模块（TSG+）和单流联合时间接地模块（JTG）。具体来说，我们提出了一个 TSG+ 模块，用于将 CLIP 模型中的图像-文本匹配知识转移到我们的区域-文本匹配过程中，而无需相应的地面实况标签。此外，与以往需要额外视听融合模块的独立双流网络不同，JTG 在简化的单流架构中统一了视听融合和问题感知时序接地。它将音频和视频视为一个内聚实体，并通过我们提出的跨模态同步（CMS）损失来保留它们的时间相关性，从而将预训练的图像-文本知识进一步扩展到音频-文本匹配。在 MUSIC-AVQA 基准上进行的大量实验验证了我们提出的方法比现有的最先进方法更有效。

22.Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP)

标题:使用 SLIP（SAM+CLIP）进行基于上下文的零镜头物体分割
author:Saaketh Koundinya Gundavarapu, Arushi Arora, Shreya Agarwal
publish:5 pages, 3 figures
date Time:2024-05-12

paper pdf:http://arxiv.org/pdf/2405.07284v1

摘要：

我们提出的 SLIP（SAM+CLIP）是一种用于零镜头物体分割的增强型架构。SLIP 结合了 Segment Anything Model（SAM）（cite{kirillov2023segment}）和 Contrastive Language-Image Pretraining（CLIP）（cite{radford2021learning}）。通过使用 CLIP 将文本提示纳入 SAM，SLIP 无需事先对特定类别或类别进行训练即可实现对象分割。我们在口袋妖怪数据集上对CLIP进行了微调，使其能够学习有意义的图像-文本表征。SLIP 展示了根据文本提示的上下文信息识别和分割图像中物体的能力，从而扩展了 SAM 在多功能物体分割方面的功能。我们的实验证明了 SLIP 架构在根据文本提示分割图像中的物体方面的有效性。将 CLIP 的文本图像理解功能集成到 SAM 中，扩展了原始架构的功能，实现了更多功能和上下文感知的对象分割。

23.Unified Video-Language Pre-training with Synchronized Audio

标题:带同步音频的统一视频语言预培训
author:Shentong Mo, Haofan Wang, Huaxia Li, Xu Tang
date Time:2024-05-12

paper pdf:http://arxiv.org/pdf/2405.07202v1

摘要：

视频语言预训练是一个典型而具有挑战性的问题，旨在以自我监督的方式从大规模数据中学习视觉和文本表征。现有的预训练方法要么捕捉图像-文本对的对应关系，要么利用帧的时间排序。但是，它们并没有明确探索音频与其他两种模式之间的自然同步。在这项工作中，我们提出了一个增强型框架，用于利用同步音频进行视频语言预训练（称为 VLSA），它可以在统一的自监督转换器中学习三模态表征。具体来说，我们的 VLSA 联合聚合了视频、文本和音频的局部补丁和全局标记的嵌入。此外，我们还利用局部补丁掩蔽建模来学习模态感知特征，并利用全局音频匹配来捕捉视频和文本的音频引导特征。我们进行了广泛的文本、视频和音频检索实验。我们的简单模型仅在 0.9M 数据上进行了预训练，与最先进的基线相比取得了更好的结果。此外，定性可视化生动地展示了我们的 VLSA 在学习具有区分性的视觉-文本表征方面的优越性。

24.TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt

标题:TAI++：文本即图像，通过共同学习可转移提示进行多标签图像分类
author:Xiangyu Wu, Qing-Yuan Jiang, Yang Yang, Yi-Feng Wu, Qing-Guo Chen, Jianfeng Lu
publish:Accepted for publication at IJCAI 2024; 13 pages; 11 figures
date Time:2024-05-11

paper pdf:http://arxiv.org/pdf/2405.06926v1

摘要：

最近，基于预训练视觉语言模型的提示调整技术的引入极大地提高了多标签图像分类的性能。然而，现有的一些探索策略仍然存在缺陷，即要么以高昂的成本利用海量标签视觉数据，要么仅使用文本数据进行文本提示调整，从而无法学习视觉知识的多样性。因此，这些方法的应用场景有限。针对这一问题，我们在本文中提出了一种用于隐式视觉提示调整的伪视觉提示（PVP）模块。具体来说，我们首先学习每个类别的伪视觉提示，通过预训练视觉语言模型的良好对齐空间挖掘多样化的视觉知识。然后，我们设计了一种与双适配器模块共同学习的策略，将视觉知识从伪视觉提示转移到文本提示，从而增强它们的视觉表征能力。在 VOC2007、MS-COCO 和 NUSWIDE 数据集上的实验结果表明，在多标签图像分类任务中，我们的方法可以在各种环境下超越最先进的方法~(SOTA)。代码见 https://github.com/njustkmg/PVP。