AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.09.10-2024.09.15

文章目录～

[1.Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through f f f-divergence Minimization](#1.Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through f f f-divergence Minimization)
[2.MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection](#2.MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection)
[3.Finetuning CLIP to Reason about Pairwise Differences](#3.Finetuning CLIP to Reason about Pairwise Differences)
[4.One missing piece in Vision and Language: A Survey on Comics Understanding](#4.One missing piece in Vision and Language: A Survey on Comics Understanding)
[5.Turbo your multi-modal classification with contrastive learning](#5.Turbo your multi-modal classification with contrastive learning)
[6.Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types](#6.Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types)
[7.ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning](#7.ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning)
[8.Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection](#8.Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection)
[9.Generalization Boosted Adapter for Open-Vocabulary Segmentation](#9.Generalization Boosted Adapter for Open-Vocabulary Segmentation)
[10.VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation](#10.VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation)
[11.Improving Text-guided Object Inpainting with Semantic Pre-inpainting](#11.Improving Text-guided Object Inpainting with Semantic Pre-inpainting)
[12.Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding](#12.Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding)
[13.ComAlign: Compositional Alignment in Vision-Language Models](#13.ComAlign: Compositional Alignment in Vision-Language Models)
[14.Open-Vocabulary Remote Sensing Image Semantic Segmentation](#14.Open-Vocabulary Remote Sensing Image Semantic Segmentation)
[15.PiTe: Pixel-Temporal Alignment for Large Video-Language Model](#15.PiTe: Pixel-Temporal Alignment for Large Video-Language Model)
[16.Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout](#16.Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout)

1.Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through f f f-divergence Minimization

标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式
author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
publish:32 pages
date Time:2024-09-15

paper pdf:http://arxiv.org/pdf/2409.09774v1

摘要：

直接偏好优化（Direct Preference Optimization，DPO）的成功应用最近从对齐大型语言模型（LLMs）扩展到对齐具有人类偏好的文本到图像模型（text-to-image models），这引起了业界的极大兴趣。然而，我们注意到，这些方法在微调模型与参考模型的配准过程中，仅仅依赖于最小化反向库尔贝-莱伯勒分歧，而忽略了其他分歧约束的加入。在本研究中，我们重点将文本到图像模型配准范例中的反向库尔贝克-莱布勒发散扩展到 f f f-发散，旨在获得更好的配准性能以及良好的生成多样性。我们提供了 f f f 发散条件下配准范式的广义公式，并从梯度场的角度深入分析了不同发散约束对配准过程的影响。我们对不同发散约束下的图像-文本配准性能、人值配准性能和生成多样性性能进行了综合评价，结果表明基于詹森-香农发散的配准在它们之间实现了最佳权衡。文本到图像模型配准所采用的发散选项对配准性能（尤其是人类价值配准）和生成多样性之间的权衡有重大影响，这突出表明了在实际应用中选择适当发散的必要性。

标题:MFCLIP：用于通用扩散人脸伪造检测的多模态细粒度 CLIP
author:Yaning Zhang, Tianyi Wang, Zitong Yu, Zan Gao, Linlin Shen, Shengyong Chen
date Time:2024-09-15

paper pdf:http://arxiv.org/pdf/2409.09724v1

摘要：

照片逼真人脸生成方法的快速发展引起了社会和学术界的极大关注，凸显了对稳健且可通用的人脸伪造检测（FFD）技术的迫切需求。虽然现有方法主要通过图像模式捕捉人脸伪造模式，但对其他模式（如细粒度噪声和文本）的探索并不充分，这限制了模型的泛化能力。此外，大多数 FFD 方法倾向于识别由 GAN 生成的人脸图像，但难以检测未见的扩散合成图像。为了解决这些局限性，我们希望利用最先进的基础模型--对比性语言图像预训练（CLIP）--来实现可泛化的扩散人脸伪造检测（DFFD）。在本文中，我们提出了一种新颖的多模态细粒度 CLIP（MFCLIP）模型，该模型通过语言引导的人脸伪造表征学习，挖掘跨图像噪声模态的全面、细粒度伪造痕迹，从而促进 DFFD 的发展。具体来说，我们设计了一种细粒度语言编码器（FLE），可从分层文本提示中提取精细的全局语言特征。我们设计了一种多模态视觉编码器（MVE），用于捕捉全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪声伪造模式，并将它们整合在一起以挖掘一般的视觉伪造痕迹。此外，我们还建立了一种创新的即插即用样本对关注（SPA）方法，以强调相关的负对，抑制不相关的负对，从而使跨模态样本对进行更灵活的配准。广泛的实验和可视化结果表明，我们的模型在跨生成器、跨伪造和跨数据集评估等不同设置上都优于现有技术。

3.Finetuning CLIP to Reason about Pairwise Differences

标题:微调 CLIP 以推理成对差异
author:Dylan Sam, Devin Willmott, Joao D. Semedo, J. Zico Kolter
publish:10 pages
date Time:2024-09-15

paper pdf:http://arxiv.org/pdf/2409.09721v1

摘要：

视觉语言模型（VLMs），如 CLIP，是通过文本和图像对之间的对比学习来训练的，从而产生对齐的图像和文本嵌入，这对许多下游任务非常有用。不过，CLIP 的一个显著缺点是，由此产生的嵌入空间似乎缺乏纯文本替代方案的某些结构。例如，人们早就注意到文本嵌入在使用向量算术的嵌入空间中满足 "emph{analogies}"，而 CLIP 却没有这样的特性。在本文中，我们提出了一种以对比方式训练 CLIP 的方法，以推理嵌入空间中的差异。我们对 CLIP 进行了微调，使图像嵌入空间中的差异与我们在图像-标题配对数据集上使用大型语言模型合成的 \emph{图像差异的文本描述}相对应。我们首先证明，我们的方法显著提高了根据特定属性对图像进行排序的能力（例如，大象比猫大），这在检索或构建基于属性的分类器时非常有用，并提高了许多下游图像分类任务的zeroshot分类性能。此外，我们的方法还实现了一种新的推理机制，我们称之为 "比较提示"（comparative prompting），在这种机制中，我们利用了关于感兴趣类别之间差异的文本描述的先验知识，从而在分类中实现了更大的性能提升。最后，我们还说明了所得到的嵌入结果在嵌入空间（如文本到图像的生成）中服从更大程度的几何特性。

4.One missing piece in Vision and Language: A Survey on Comics Understanding

标题:视觉与语言》中缺失的一块：漫画理解调查
author:Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas
publish:under review. project website:

https://github.com/emanuelevivoli/awesome-comics-understanding
date Time:2024-09-14

paper pdf:http://arxiv.org/pdf/2409.09502v1

摘要：

视觉语言模型近来已发展成为能够在一系列任务中实现高性能的多功能系统，例如文档理解、视觉问题解答和接地，而且通常是在零镜头环境下。漫画理解是一个复杂而多面的领域，它将从这些进步中受益匪浅。漫画作为一种媒介，结合了丰富的视觉和文字叙事，对人工智能模型提出了挑战，其任务包括图像分类、对象检测、实例分割，以及通过连续面板进行更深入的叙事理解。然而，漫画的独特结构--在风格、阅读顺序和非线性叙事方面的创造性变化--带来了一系列不同于其他视觉语言领域的挑战。在本调查报告中，我们从数据集和任务两个角度对漫画理解进行了全面回顾。我们的贡献包括五个方面：(1) 我们分析了漫画媒体的结构，详细介绍了其独特的构成元素；(2) 我们调查了漫画研究中广泛使用的数据集和任务，强调了它们在推动该领域发展中的作用；(3) 我们介绍了漫画理解层（LoCU）框架，这是一种新颖的分类法，它重新定义了漫画中的视觉语言任务，并为未来的工作奠定了基础；(4) 我们按照 LoCU 框架对现有方法进行了详细的回顾和分类； (5) 最后，我们强调了当前的研究挑战，并提出了未来的探索方向，特别是在应用于漫画的视觉语言模型方面。本调查报告首次提出了以任务为导向的漫画智能框架，旨在通过解决数据可用性和任务定义方面的关键差距来指导未来的研究。与本调查相关的项目可访问 https://github.com/emanuelevivoli/awesome-comics-understanding。

标题:通过对比学习提升多模态分类能力
author:Zhiyu Zhang, Da Liu, Shengqiang Liu, Anna Wang, Jie Gao, Yali Li
date Time:2024-09-14

paper pdf:http://arxiv.org/pdf/2409.09282v1

摘要：

对比学习已成为多模态表征学习中最令人印象深刻的方法之一。然而，以往的多模态研究主要关注跨模态理解，忽视了模态内对比学习，从而限制了每种模态的表征。在本文中，我们提出了一种名为" T u r b o Turbo Turbo"的新型对比学习策略，通过联合模内和跨模态对比学习来促进多模态理解。具体来说，多模态数据对通过前向传递两次，并使用不同的隐去掩码，以获得每种模态的两种不同表征。有了这些表征，我们就能得到多个模态内和模态间的对比目标，用于训练。最后，我们将自监督 Turbo 与多模态监督分类相结合，并在两个音频-文本分类任务中演示了其有效性，在语音情感识别基准数据集上取得了最先进的性能。

6.Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

标题:跨任务、跨领域和跨知识类型的视觉问题解答视觉语言模型选择指南
author:Neelabh Sinha, Vinija Jain, Aman Chadha
publish:8 pages + references + 6 pages of Appendix
date Time:2024-09-14

paper pdf:http://arxiv.org/pdf/2409.09269v1

摘要：

视觉问题解答（VQA）已成为一些应用中帮助用户体验的关键用例，尤其是在视觉语言模型（VLM）在零镜头推理中取得良好效果之后。但是，在实际应用中，使用标准化框架评估不同的视觉语言模型以满足应用需求仍具有挑战性。本文介绍了一个综合框架，用于在实际环境中评估针对 VQA 任务定制的 VLM。我们提出了一个新颖的数据集，该数据集从已确立的 VQA 基准中提取，并标注了任务类型、应用领域和知识类型这三个关键的实际方面，而这些方面的任务可能会有所不同。我们还介绍了 GoEval，这是一种使用 GPT-4o 开发的多模态评估指标，与人类判断的相关系数达到 56.71%。我们对十种最先进的 VLM 进行了实验，结果表明，没有任何一种模型具有普遍的优势，因此适当的选择成为设计决策的关键。Gemini-1.5-Pro和GPT-4o-mini等专有模型普遍优于其他模型，而InternVL-2-8B和CogVLM-2-Llama-3-19B等开源模型则在特定情况下表现出竞争优势，同时还提供了其他优势。这项研究为根据具体任务要求和资源限制选择 VLM 提供了指导，也可推广到其他视觉语言任务中。

7.ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning

标题:ChangeChat：通过多模态指令调整进行遥感变化分析的互动模型
author:Pei Deng, Wenqian Zhou, Hanlin Wu
publish:5 pages, 2 figures
date Time:2024-09-13

paper pdf:http://arxiv.org/pdf/2409.08582v1

摘要：

遥感（RS）变化分析通过检测图像随时间发生的变化，对监测地球的动态过程至关重要。传统的变化检测擅长于识别像素级的变化，但缺乏对这些变化进行上下文关联的能力。虽然最近在变化字幕方面取得的进步提供了对变化的自然语言描述，但它们并不支持交互式的用户特定查询。为了解决这些局限性，我们推出了 ChangeChat，它是首个专为 RS 变化分析设计的位时视觉语言模型 (VLM)。ChangeChat 利用多模态指令调整，使其能够处理复杂的查询，如变化字幕、特定类别量化和变化定位。为了提高该模型的性能，我们开发了 ChangeChat-87k 数据集，该数据集是结合基于规则的方法和 GPT 辅助技术生成的。实验表明，ChangeChat 为 RS 变化分析提供了一个全面的交互式解决方案，在特定任务上的性能可与最先进的（SOTA）方法相媲美，甚至更胜一筹，并大大超过了最新的通用域模型 GPT-4。代码和预训练权重可从 https://github.com/hanlinwu/ChangeChat 网站获取。

8.Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

标题:Mamba-YOLO-World：将 YOLO-World 与用于开放词汇检测的 Mamba 相结合
author:Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang
date Time:2024-09-13

paper pdf:http://arxiv.org/pdf/2409.08513v3

摘要：

开放词汇检测（OVD）旨在检测预定义类别集之外的对象。作为将 YOLO 系列融入 OVD 的开创性模型，YOLO-World 非常适合优先考虑速度和效率的场景。然而，其性能却受到颈部特征融合机制的阻碍，这导致了二次复杂性和有限的引导感受野。为了解决这些局限性，我们提出了 Mamba-YOLO-World，这是一种基于 YOLO 的新型 OVD 模型，采用了拟议的 MambaFusion 路径聚合网络（MambaFusion-PAN）作为其颈部架构。具体来说，我们引入了一种基于状态空间模型的创新特征融合机制，该机制由并行引导选择性扫描算法和串行引导选择性扫描算法组成，具有线性复杂性和全局引导感受野。它利用多模式输入序列和曼巴隐藏状态来引导选择性扫描过程。实验证明，在 COCO 和 LVIS 基准测试中，我们的模型在零次和微调设置下均优于原始 YOLO-World，同时保持了可比的参数和 FLOP。此外，它还以更少的参数和 FLOP 超越了现有的最先进 OVD 方法。

9.Generalization Boosted Adapter for Open-Vocabulary Segmentation

标题:用于开放词汇分割的泛化增强适配器
author:Wenhao Xu, Changwei Wang, Xuxiang Feng, Rongtao Xu, Longzhao Huang, Zherui Zhang, Li Guo, Shibiao Xu
date Time:2024-09-13

paper pdf:http://arxiv.org/pdf/2409.08468v1

摘要：

视觉语言模型（VLMs）已经展示了非凡的开放词汇物体识别能力，这促使它们适应于像分割这样的密集预测任务。然而，由于 VLMs 缺乏像素级粒度，且可用于微调的数据有限，因此将其直接应用于此类任务仍具有挑战性，从而导致过度拟合和泛化效果不佳。为了解决这些局限性，我们提出了通用增强适配器（GBA），这是一种新颖的适配器策略，可增强 VLMs 在开放词汇分割中的通用性和鲁棒性。GBA 由两个核心部分组成：(1) 样式多样化适配器 (SDA)，该适配器将特征分离为振幅和相位成分，仅对振幅进行操作，以丰富特征空间表示，同时保持语义一致性；以及 (2) 关联约束适配器 (CCA)，该适配器采用交叉关注，在文本类别和目标区域之间建立更紧密的语义关联，抑制无关的低频 "噪声 "信息，避免错误关联。通过浅层 SDA 和深层 CCA 的协同作用，GBA 可以有效缓解过拟合问题，提高特征表征的语义相关性。作为一个简单、高效、即插即用的组件，GBA 可以灵活地集成到各种基于 CLIP 的方法中，在多个开放词汇分割基准测试中表现出了广泛的适用性和一流的性能。

10.VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation

标题:VLTP：视觉语言引导下的标记剪枝，用于任务导向型分割
author:Hanning Chen, Yang Ni, Wenjun Huang, Yezi Liu, SungHeon Jeong, Fei Wen, Nathaniel Bastian, Hugo Latapie, Mohsen Imani
date Time:2024-09-13

paper pdf:http://arxiv.org/pdf/2409.08464v1

摘要：

视觉变换器（ViTs）已成为许多分割模型的支柱，不断实现最先进的（SOTA）性能。然而，它们的成功需要付出巨大的计算成本。图像标记剪枝是解决这一复杂性的最有效策略之一。然而，当应用于更复杂的任务导向分割（TOS）时，以前的方法就显得力不从心了，在这种情况下，每个图像片段的类别不是预先定义的，而是取决于特定的输入任务。这项工作介绍了视觉语言引导标记剪枝（VLTP），这是一种新颖的标记剪枝机制，可以加速基于 ViT 的分割模型，特别是多模态大语言模型（MLLM）引导的 TOS。我们认为，ViT 不需要通过所有层处理每个图像标记，只需要处理与推理任务相关的标记。我们设计了一种新的剪枝解码器，将图像标记和视觉语言引导作为输入，预测每个图像标记与任务的相关性。只有相关性高的图像标记才会被传递到 ViT 的深层。实验表明，VLTP 框架在不降低性能的情况下将 ViT 的计算成本降低了约 25%，在仅降低 1% 性能的情况下降低了约 40%。

11.Improving Text-guided Object Inpainting with Semantic Pre-inpainting

标题:利用语义预绘制改进文本引导的对象绘制
author:Yifu Chen, Jingwen Chen, Yingwei Pan, Yehao Li, Ting Yao, Zhineng Chen, Tao Mei
publish:ECCV 2024. Source code is available at

https://github.com/Nnn-s/CATdiffusion
date Time:2024-09-12

paper pdf:http://arxiv.org/pdf/2409.08260v1

摘要：

近年来，大型文本到图像扩散模型取得了成功，并在生成高质量图像方面具有显著的潜力。为了进一步提高图像的可编辑性，人们对在图像指定区域内插入文字提示所描述的新对象这一下游任务产生了浓厚的兴趣。然而，从两个方面来看，这个问题并不简单：1) 在所有的去噪时间步中，仅仅依靠一个 U-Net 来对齐文本提示和视觉对象是不足以生成所需的对象的；2) 在复杂的扩散模型采样空间中，无法保证对象生成的可控性。在本文中，我们建议将典型的单阶段对象绘制分解为两个级联过程：1) 语义预绘制，在多模态特征空间中推导出所需物体的语义特征；2) 在扩散潜空间中生成高场度物体，以这些绘制的语义特征为中心。为此，我们级联了一个基于变换器的语义 Inpainter 和一个对象 Inpainting 扩散模型，从而形成了一个用于文本引导对象 Inpainting 的新型 CAscaded 变换器-扩散（CAT-Diffusion）框架。从技术上讲，语义着色器经过训练，可以根据未屏蔽的上下文和文本提示预测目标对象的语义特征。然后，语义着色器的输出作为信息视觉提示，通过参考适配器层引导高场度对象生成，从而实现可控对象着色。在 OpenImages-V6 和 MSCOCO 上进行的广泛评估验证了 CAT-Diffusion 优于最先进的方法。代码见 \url{https://github.com/Nnn-s/CATdiffusion}。

12.Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding

标题:为全景叙事接地而动态提示冻结文本到图像的扩散模型
author:Hongyu Li, Tianrui Hui, Zihan Ding, Jing Zhang, Bin Ma, Xiaoming Wei, Jizhong Han, Si Liu
publish:Accepted by ACM MM 2024
date Time:2024-09-12

paper pdf:http://arxiv.org/pdf/2409.08251v1

摘要：

全景叙事接地（PNG）的核心目标是细粒度图像-文本配准，它需要对给定叙事标题的参照对象进行全景分割。以往的判别方法只能通过全景分割预训练或 CLIP 模型适应来实现弱对齐或粗粒度对齐。鉴于文本到图像扩散模型的最新进展，有几项研究表明，这些模型能够通过交叉注意图实现图像到文本的精细配准，并提高一般分割性能。然而，直接使用短语特征作为静态提示，将冻结的 Diffusion 模型应用于 PNG 任务，仍然存在任务差距大、视觉语言交互不足等问题，导致性能较差。因此，我们在 Diffusion UNet 中提出了提取-注入短语适配器（EIPA）旁路，利用图像特征动态更新短语提示，并将多模态线索注入回来，从而更充分地利用 Diffusion 模型的细粒度图像-文本配准能力。此外，我们还设计了一个多级相互聚合（MLMA）模块，以相互融合多级图像和短语特征，从而进行细分。在 PNG 基准上进行的大量实验表明，我们的方法达到了最先进的新性能。

13.ComAlign: Compositional Alignment in Vision-Language Models

标题:ComAlign：视觉语言模型中的构图对齐
author:Ali Abdollah, Amirmohammad Izadi, Armin Saghafian, Reza Vahidimajd, Mohammad Mozafari, Amirreza Mirzaei, Mohammadmahdi Samiei, Mahdieh Soleymani Baghshah
date Time:2024-09-12

paper pdf:http://arxiv.org/pdf/2409.08206v1

摘要：

像 CLIP 这样的视觉语言模型（VLM）在为下游任务提取可转移特征方面展现出了非凡的能力。然而，这些模型的训练过程通常基于图像和文本全局嵌入之间的粗粒度对比损失，这可能会丢失这些模式的组成结构。最近的许多研究表明，VLM 缺乏对组成结构的理解，如属性绑定和识别对象关系。虽然最近有一些方法试图实现更精细的配准，但这些方法要么不是基于提取适当粒度的有意义成分，要么没有正确利用模态的对应关系（尤其是成分较多的图像-文本对）。针对这些局限性，我们引入了合成对齐（ComAlign），这是一种细粒度方法，只使用图像-文本对形式的弱监督来发现文本和图像成分更精确的对应关系。我们的方法强调，从文本模式中提取的组成结构（包括实体和关系）也必须保留在图像模式中。为了加强图像和文本模式中细粒度概念的对应性，我们在现有的视觉和语言编码器基础上，使用一个小型数据集训练一个轻量级网络。通过训练，该网络可使不同模态的结构节点和边缘保持一致。在各种 VLM 和数据集上的实验结果表明，我们的插件模型在检索和合成基准方面有显著的改进，从而肯定了我们的插件模型的有效性。

14.Open-Vocabulary Remote Sensing Image Semantic Segmentation

标题:开放词汇遥感图像语义分割
author:Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang
date Time:2024-09-12

paper pdf:http://arxiv.org/pdf/2409.07683v1

摘要：

开放词汇图像语义分割（OVS）旨在将图像分割为一组开放类别的语义区域。现有的开放词汇图像语义分割方法通常依赖于基础视觉语言模型，并利用相似性计算来完成开放词汇图像语义分割任务。然而，这些方法主要针对自然图像，难以应对遥感图像的独特特征，如快速变化的方向和显著的尺度变化。这些挑战使地球视觉中的 OVS 任务变得更加复杂，需要专门的方法。为了解决这一难题，我们从遥感图像的独特特征中汲取灵感，提出了首个专为遥感图像设计的 OVS 框架。特别是，为了解决方向不同的问题，我们引入了一个旋转聚合相似性计算模块，该模块可生成方向自适应相似性地图作为初始语义地图。这些地图随后会在空间和分类两个层面上进行改进，以生成更精确的语义地图。此外，为了管理显著的尺度变化，我们将多尺度图像特征整合到上采样过程中，从而生成最终的尺度感知语义掩码。为了推动地球视觉领域的 OVS 并鼓励可重复研究，我们建立了首个开源的遥感图像 OVS 基准，其中包括四个公共遥感数据集。在该基准上进行的大量实验证明，我们提出的方法达到了最先进的性能。所有代码和数据集均可从 https://github.com/caoql98/OVRS 获取。

15.PiTe: Pixel-Temporal Alignment for Large Video-Language Model

标题:PiTe：大型视频语言模型的像素时空对齐
author:Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
date Time:2024-09-11

paper pdf:http://arxiv.org/pdf/2409.07239v1

摘要：

在大型语言模型（LLMs）浪潮的推动下，大型可视语言模型（LVLMs）已成为弥合图像与文本之间鸿沟的关键进展。然而，由于语言与时空数据结构之间关系的复杂性，视频使得 LVLMs 难以充分发挥作用。最近的大型视频语言模型（LVidLMs）通过一般的多模态任务，将图像等静态视觉数据的特征整合到语言特征的潜在空间中，以充分发挥 LLMs 的能力。在本文中，我们将同时从空间和时间两个维度，针对不同模态探索通过物体轨迹进行细粒度配准的方法。因此，我们提出了一种由轨迹引导的像素-时间对齐（Pixel-Temporal Alignment）的新型 LVidLM，并将其命名为 PiTe，这种 LVidLM 具有良好的适用模型特性。为了实现精细的视频语言配准，我们策划了一个多模态预训练数据集 PiTe-143k，该数据集通过我们的自动注释管道，为视频和字幕中出现和提及的所有单个对象提供了像素级的移动轨迹。同时，PiTe 在无数与视频相关的多模态任务中表现出了惊人的能力，大大超越了最先进的方法。

16.Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout

标题:多模态情感识别与视觉语言提示和模态退出
author:Anbin QI, Zhongliang Liu, Xinyong Zhou, Jinba Xiao, Fengrun Zhang, Qi Gan, Ming Tao, Gaozheng Zhang, Lu Zhang
date Time:2024-09-11

paper pdf:http://arxiv.org/pdf/2409.07078v1

摘要：

在本文中，我们介绍了针对第二届多模态情感识别挑战赛第 1 赛道（MER2024-SEMI）的解决方案。为了提高情感识别的准确性和泛化性能，我们提出了几种多模态情感识别方法。首先，我们介绍了 EmoVCLIP，这是一种基于 CLIP 的微调模型，使用视觉语言提示学习，专为基于视频的情感识别任务而设计。通过利用对 CLIP 的提示学习，EmoVCLIP 提高了预训练 CLIP 在情感视频上的性能。此外，为了解决多模态融合中的模态依赖问题，我们采用了模态剔除（modality dropout）技术来实现稳健的信息融合。此外，为了帮助百川更好地提取情感信息，我们建议使用 GPT-4 作为百川的提示。最后，我们采用自我训练策略来利用未标记的视频。在这一过程中，我们使用由我们的模型生成的带有高置信度伪标签的未标签视频，并将它们纳入训练集。实验结果表明，我们的模型在 MER2024-SEMI 赛道中排名第一，在测试集上的准确率达到 90.15%。