AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.01-2024.06.05

文章目录～

[1.CountCLIP -- [Re] Teaching CLIP to Count to Ten](#1.CountCLIP -- [Re] Teaching CLIP to Count to Ten)
[2.Wings: Learning Multimodal LLMs without Text-only Forgetting](#2.Wings: Learning Multimodal LLMs without Text-only Forgetting)
[3.Prompt-based Visual Alignment for Zero-shot Policy Transfer](#3.Prompt-based Visual Alignment for Zero-shot Policy Transfer)
[4.Exploiting LMM-based knowledge for image classification tasks](#4.Exploiting LMM-based knowledge for image classification tasks)
[5.A-Bench: Are LMMs Masters at Evaluating AI-generated Images?](#5.A-Bench: Are LMMs Masters at Evaluating AI-generated Images?)
[6.Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment](#6.Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment)
[7.Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models](#7.Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models)
[8.Zero-Shot Image Segmentation via Recursive Normalized Cut on Diffusion Features](#8.Zero-Shot Image Segmentation via Recursive Normalized Cut on Diffusion Features)
[9.Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning](#9.Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning)
[10.Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts](#10.Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts)
[11.Multimodal Reasoning with Multimodal Knowledge Graph](#11.Multimodal Reasoning with Multimodal Knowledge Graph)
[12.HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model](#12.HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model)
[13.Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels](#13.Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels)
[14.Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP](#14.Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP)
[15.Zero-Shot Out-of-Distribution Detection with Outlier Label Exposure](#15.Zero-Shot Out-of-Distribution Detection with Outlier Label Exposure)
[16.UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment](#16.UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment)
[17.CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment](#17.CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment)
[18.Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation](#18.Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation)
[19.FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning](#19.FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning)
[20.Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering](#20.Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering)

1.CountCLIP -- [Re] Teaching CLIP to Count to Ten

标题:CountCLIP -- [Re] 教 CLIP 数到十
author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03586v1

摘要：

大型视觉语言模型（VLM）可以学习丰富的图像-文本联合表征，从而在相关的下游任务中表现出色。然而，它们未能展示出对物体的定量理解，也缺乏良好的计数感知表征。本文对 "教CLIP数到十"（Paiss等人，2023年）进行了可重复性研究，该研究提出了一种微调CLIP模型（Radford等人，2021年）的方法，通过引入计数对比损失项来提高图像中零点计数的准确性，同时保持零点分类的性能。我们利用较少的计算资源，在其训练数据的较小子集上提高了模型的性能。我们用自己的代码重现了他们的研究，从而验证了这些说法。具体实现请访问 https://github.com/SforAiDl/CountCLIP。

2.Wings: Learning Multimodal LLMs without Text-only Forgetting

标题:翅膀在没有纯文本遗忘的情况下学习多模态 LLM
author:Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03496v1

摘要：

多模态大语言模型（MLLM）由训练有素的 LLM 启动，首先将图像与文本对齐，然后对多模态混合输入进行微调。然而，MLLM 会灾难性地遗忘纯文本指令，而这些指令不包括图像，可以在初始 LLM 中解决。在本文中，我们介绍了 Wings，一种在纯文本对话和多模态理解中都表现出色的新型 MLLM。通过分析多模态指令中的 MLLM 注意力，我们发现纯文本遗忘与从图像前文本到图像后文本的注意力转移有关。由此，我们构建了额外的模块，作为增强学习器来补偿注意力的转移。互补的视觉学习器和文本学习器就像两侧的 "翅膀"，并行连接在每一层的注意力区块中。起初，图像和文本输入与视觉学习器一起与主注意力保持一致，以平衡对视觉元素的关注。随后，文本学习器与基于注意力的路由协作整合，将视觉学习器和文本学习器的输出融合在一起。我们设计了低级残留注意力（LoRRA），以保证学习者的高效率。实验结果表明，Wings 在纯文本和视觉答题任务中的表现都优于等比例 MLLM。在一个新构建的交错图像-文本（IIT）基准上，Wings 在从纯文本到多模态的问题解答任务中都表现出了卓越的性能。

3.Prompt-based Visual Alignment for Zero-shot Policy Transfer

标题:基于提示的零镜头策略传输视觉对齐
author:Haihan Gao, Rui Zhang, Qi Yi, Hantao Yao, Haochen Li, Jiaming Guo, Shaohui Peng, Yunkai Gao, QiCheng Wang, Xing Hu, Yuanbo Wen, Zihao Zhang, Zidong Du, Ling Li, Qi Guo, Yunji Chen
publish:This paper has been accepted by ICML2024
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03250v1

摘要：

强化学习（RL）中的过度拟合已成为应用的主要障碍之一。现有的方法没有为特征提取器提供明确的语义约束，阻碍了代理学习统一的跨域表示，导致代理在未见域上的性能下降。此外，还需要来自多个领域的丰富数据。为了解决这些问题，我们在这项工作中提出了基于提示的视觉对齐（PVA），这是一种稳健的框架，可以减轻图像中的有害域偏差，从而实现零镜头策略转移。视觉语言模型（VLM）可以作为连接文本空间和图像空间的桥梁，受此启发，我们利用文本序列中包含的语义信息作为显式约束来训练视觉对齐器。因此，视觉对齐器可以将多个领域的图像映射到一个统一的领域，并实现良好的泛化性能。为了更好地描述语义信息，我们采用了提示调整来学习可学习的标记序列。有了明确的语义信息约束，PVA 可以在有限的跨域数据访问条件下学习统一的跨域表示，并在未见域中实现出色的零点泛化能力。我们利用 CARLA 模拟器在基于视觉的自动驾驶任务中验证了 PVA。实验表明，在有限的多领域数据访问条件下，代理在未知领域的泛化效果很好。

4.Exploiting LMM-based knowledge for image classification tasks

标题:利用基于 LMM 的知识完成图像分类任务
author:Maria Tzelepi, Vasileios Mezaris
publish:Accepted for publication, 25th Int. Conf. on Engineering Applications

of Neural Networks (EANN/EAAAI 2024), Corfu, Greece, June 2024. This is the

"submitted manuscript"
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03071v1

摘要：

在本文中，我们利用大型多模态模型（LMM）中编码的知识来完成图像分类任务。更具体地说，我们使用 MiniGPT-4 模型，以多模态提示的方式提取图像的语义描述。在目前的文献中，视觉语言模型（如 CLIP 等方法）被用作特征提取器，仅使用图像编码器来解决图像分类任务。在本文中，我们建议额外使用文本编码器来获取与 MiniGPT-4 生成的语义描述相对应的文本嵌入。因此，我们同时使用图像和文本嵌入来解决图像分类任务。在三个数据集上进行的实验评估验证了利用基于 LMM 的知识提高分类性能的有效性。

5.A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

标题:A-Bench：LMMs 是评估人工智能生成图像的高手吗？
author:Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03070v1

摘要：

如何准确、高效地评估人工智能生成的图像（AIGI）仍然是生成模型面临的一个重要挑战。鉴于用户研究需要高昂的成本和大量的时间，许多研究人员转而采用大型多模态模型（LMM）作为 AIGI 评估工具，但其精确性和有效性仍然值得怀疑。此外，传统基准通常主要利用自然捕获的内容而非 AIGI 来测试 LMM 的能力，这导致 AIGI 存在明显差距。因此，我们在本文中介绍了 A-Bench，这是一个旨在诊断 LMM 是否是评估 AIGIs 的高手的基准。具体来说，A-Bench 遵循两个关键原则：1) 同时强调高级语义理解和低级视觉质量感知，以满足 AIGI 的复杂需求。2) 利用各种生成模型创建 AIGI，并利用各种 LMM 进行评估，从而确保了全面的验证范围。最终，我们从 16 个文本到图像模型中抽取了 2,864 个 AIGI，每个 AIGI 都与人类专家注释的问题-答案配对，并在 18 种主要 LMM 中进行测试。我们希望 A-Bench 能大大加强评估过程，提高 AIGI 的生成质量。该基准可在 https://github.com/Q-Future/A-Bench 上查阅。

6.Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

标题:利用多实例视觉提示生成器增强多模态大语言模型，丰富视觉表征
author:Wenliang Zhong, Wenyi Wu, Qi Li, Rob Barton, Boxin Du, Shioulin Sam, Karim Bouyarmane, Ismail Tutar, Junzhou Huang
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02987v1

摘要：

多模态大语言模型（MLLMs）通过利用一些视觉适配器将视觉表征与 LLMs 融合，在各种视觉语言任务中实现了 SOTA 性能。在本文中，我们首先确定了使用基于查询的转换器（如 Q-former）的适配器是一种简化的多实例学习方法，无需考虑实例的异质性/相关性。然后，我们提出了一个称为多实例视觉提示生成器（MIVPG）的通用组件，通过利用同一样本的图像或斑块之间的实例相关性，将丰富的视觉表征纳入 LLM。在来自不同场景的三个公共视觉语言（VL）数据集上进行的定量评估表明，所提出的 MIVPG 在主要 VL 任务中改进了 Q-former。

7.Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models

标题:视觉-文本交叉对齐：完善视觉语言模型中的相似性得分
author:Jinhao Li, Haopeng Li, Sarah Erfani, Lei Feng, James Bailey, Feng Liu
publish:22 pages, 16 figures, published to ICML 2024
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02915v1

摘要：

最近有研究发现，使用预先训练好的视觉语言模型（VLM），例如 CLIP，将整幅查询图像与由大型语言模型生成的若干更精细的文字描述进行对齐，可以显著提高零拍摄性能。然而，在本文中，我们根据经验发现，更精细的描述往往能更有效地与查询图像的局部区域而非整个图像对齐，然后我们从理论上验证了这一发现。因此，我们提出了一种名为加权视觉-文本交叉配准（WCA）的方法。这种方法首先采用局部视觉提示技术，旨在识别查询图像中的局部视觉区域。然后，通过使用预先训练好的 VLM 创建一个相似性矩阵，将局部视觉区域与更精细的描述进行交叉配准。为了确定查询图像与每个类别的匹配程度，我们根据矩阵中的加权相似度开发了一个评分函数。广泛的实验证明，我们的方法显著提高了各种数据集的零拍摄性能，其结果甚至可与少拍摄学习方法相媲美。

8.Zero-Shot Image Segmentation via Recursive Normalized Cut on Diffusion Features

标题:通过扩散特征递归归一化切分实现零镜头图像分割
author:Paul Couairon, Mustafa Shukor, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02842v1

摘要：

基础模型已成为语言、视觉和多模态任务等各个领域的强大工具。虽然之前的工作已经解决了无监督图像分割问题，但它们明显落后于有监督模型。在本文中，我们使用扩散 UNet 编码器作为基础视觉编码器，并引入了 DiffCut，这是一种无监督的零镜头分割方法，它完全利用了最终自我关注块的输出特性。通过广泛的实验，我们证明了在基于图的分割算法中利用这些扩散特征的效果明显优于之前最先进的零镜头分割方法。具体来说，我们利用递归归一化切割算法，对检测对象的粒度进行软调节，并生成定义明确的分割图，精确捕捉错综复杂的图像细节。我们的工作凸显了嵌入在扩散 UNet 编码器中的非常准确的语义知识，这些知识可以作为下游任务的基础视觉编码器。项目页面 https://diffcut-segmentation.github.io

标题:在多模态学习中利用视觉标记扩展文本语境
author:Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou
publish:12 pages. The website is

\url{https://fingerrec.github.io/visincontext}
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02547v1

摘要：

由于 GPU 内存和计算成本巨大，训练具有较长上下文长度的模型对多模态模型来说是一项重大挑战。本探索性研究并不介绍最先进的模型，而是介绍一种创新方法，旨在有效增加多模态大语言模型（MLLM）的上下文文本长度。我们介绍了可视化上下文文本处理（VisInContext），它使用可视化标记来处理较长的上下文文本。这项技术大大减少了 GPU 内存使用量以及训练和推理阶段的浮点运算（FLOPs）。例如，对于一个 560 亿参数的 MOE 模型，我们的方法将预训练的上下文文本长度从 256 个标记扩展到 2048 个标记，而 FLOPs 却几乎相同。实验结果表明，使用 VisInContext 训练的模型在常见的下游基准上提供了更优越的性能，可用于上下文少量评估。此外，VisInContext 与现有的增加上下文文本长度的方法相辅相成，增强了文档理解能力，在文档质量保证任务和顺序文档检索中显示出巨大的潜力。

标题:为什么只有文字？利用多模态提示增强视觉和语言导航能力
author:Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu
publish:IJCAI 2024
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02208v1

摘要：

当前的视觉语言导航（VLN）任务主要采用文字说明来引导代理。然而，由于文字本身的抽象性，相同的文字说明可能与不同的视觉信号相关联，从而造成严重的模糊性，并限制了用户向代理传递视觉领域的先验知识。为了填补这一空白，我们提出了 "多模态提示的视觉语言导航"（VLN-MP），这是一项通过在指令中整合自然语言和图像来增强传统 VLN 的新型任务。VLN-MP 不仅通过有效处理纯文本提示保持了向后兼容性，而且在视觉提示的数量和相关性不同的情况下也始终显示出优势。视觉提示的可能形式包括精确图像和相似物体图像，为不同的导航场景提供了适应性和多样性。为了在统一的框架下评估 VLN-MP，我们实施了一个新的基准，该基准提供了以下功能：(1) 无需训练的管道，可将文本指令转化为带有地标图像的多模态形式；(2) 针对不同下游任务的多模态指令数据集；(3) 设计用于处理各种图像提示的新型模块，可与最先进的 VLN 模型无缝集成。在四个 VLN 基准（R2R、RxR、REVERIE、CVDN）上进行的广泛实验表明，结合视觉提示可显著提高导航性能。在保持纯文本提示效率的同时，VLN-MP 还能让代理在探索前的环境中进行导航，而且性能优于基于文本的模型，这表明它具有更广泛的适用性。

11.Multimodal Reasoning with Multimodal Knowledge Graph

标题:利用多模态知识图谱进行多模态推理
author:Junlin Lee, Yequan Wang, Jing Li, Min Zhang
publish:Accepted by ACL 2024 (Main Conference)
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02030v2

摘要：

使用大型语言模型（LLM）进行多模态推理时，经常会出现幻觉，以及 LLM 中存在不足或过时的知识。一些方法试图通过使用文本知识图谱来缓解这些问题，但其单一的知识模式限制了全面的跨模态理解。在本文中，我们提出了利用多模态知识图谱进行多模态推理（MR-MKG）的方法，该方法利用多模态知识图谱（MMKG）来学习丰富的跨模态语义知识，从而大大增强了 LLM 的多模态推理能力。具体而言，该方法利用关系图注意网络对 MMKGs 进行编码，并设计了一个跨模态配准模块，用于优化图像与文本的配准。我们构建了一个以 MMKG 为基础的数据集，通过预训练让 LLM 具备多模态推理的初步专业知识。值得注意的是，MR-MKG 只需对一小部分参数（约为 LLM 参数大小的 2.25%）进行训练，就能实现卓越的性能。在多模态问题解答和多模态类比推理任务上的实验结果表明，我们的 MR-MKG 方法优于以前的一流模型。

12.HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model

标题:HPE-CogVLM：基于视觉语言模型的新头部姿势基础任务探索
author:Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.01914v1

摘要：

头部姿态估计（HPE）任务需要对三维空间关系有复杂的理解，并需要对偏航、俯仰和滚动欧拉角进行精确的数值输出。以往的 HPE 研究主要基于非大型语言模型（Non-LLMs），这些模型依赖于从完整图像中裁剪出来的特写人头作为输入，在真实世界场景中缺乏鲁棒性。在本文中，我们提出了一个新颖的框架，利用 CogVLM 的视觉基础能力来增强 HPE 预测任务。CogVLM 是一种视觉语言模型（VLM），具有预测物体边界框（BBoxes）的接地能力，可以使用完整的图像信息输入进行 HPE 训练和预测。为了将 HPE 任务集成到 VLM 中，我们首先通过研究数据排演方法中的排演率来应对大型语言模型（LLM）中的灾难性遗忘问题。然后，我们提出并验证了一种基于 LoRA 层的模型合并方法，该方法能保持参数的完整性，从而提高框架中的 HPE 性能。结果表明，在跨数据集评估中，我们的 HPE-CogVLM 在 HPE 预测的平均绝对误差方面比目前基于非 LLM 的先进方法降低了 31.5%。此外，我们还将基于 LoRA 层的模型合并方法与 CogVLM 中的仅 LoRA 微调和其他合并方法进行了比较。结果表明，我们的框架在所有 HPE 指标上都优于它们。

13.Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels

标题:跨多域标签的混合学习视频瞬间检索
author:Weitong Cai, Jiabo Huang, Shaogang Gong
publish:Accepted by BMVC2022
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01791v1

摘要：

视频时刻检索（VMR）是根据给定的文本查询描述（句子），在未经剪辑的原始视频中搜索视觉时间时刻。现有的研究要么从收集目标时刻时间边界的详尽帧注释开始（完全监督），要么仅使用视频级视频-文本配对标签进行学习（弱监督）。前者由于数据集规模和多样性受限，且标注成本高昂，因此对未知概念和/或新场景的泛化能力较差；后者则会受到不完整标签造成的视觉-文本误相关的影响。在这项工作中，我们引入了一种称为混合学习视频时刻检索的新方法，通过知识转移来解决这一问题，即当完全监督的源域与弱标签的目标域不共享共同标签空间时，将从源域学习到的视频-文本匹配关系调整到弱标签的目标域。我们的目标是探索两个领域之间共享的通用知识，以改进弱标签目标领域的模型学习。具体来说，我们引入了一个多模态（视觉-文本）匹配信息共享和多模态特征对齐的多分支视频-文本对齐模型（EVA），以优化与领域无关的视觉和文本特征以及每个任务的鉴别性联合视频-文本表征。实验表明，EVA 在探索源域中的时间片段注释以帮助学习目标域中无时间标签的视频时刻检索方面非常有效。

14.Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

标题:超越 CLIP 的 ViTs 中通过文本分解和解读图像表示法
author:Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi
publish:22 pages, 15 figures
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01583v1

摘要：

最近的研究探索了 CLIP-ViT 模型的各个组件如何利用 CLIP 的共享图像-文本表示空间为最终表示做出贡献。这些组件（如注意力头和 MLP）已被证明能够捕捉形状、颜色或纹理等不同的图像特征。然而，要了解这些组件在任意视觉转换器（ViT）中的作用却具有挑战性。为此，我们引入了一个通用框架，它可以识别 CLIP 以外的视觉转换器中各种组件的作用。具体来说，我们(a) 将最终表示自动分解为来自不同模型组件的贡献，(b) 将这些贡献线性映射到 CLIP 空间，通过文本对其进行解释。此外，我们还引入了一种新颖的评分函数，可根据组件对特定特征的重要性对其进行排序。将我们的框架应用于各种 ViT 变体（如 DeiT、DINO、DINOv2、Swin、MaxViT），我们可以深入了解不同组件在特定图像特征方面的作用。这些深入了解有助于使用文本描述或参考图像进行图像检索、可视化标记重要性热图以及减轻虚假相关性等应用。

15.Zero-Shot Out-of-Distribution Detection with Outlier Label Exposure

标题:零镜头分布外检测与离群标签暴露
author:Choubo Ding, Guansong Pang
publish:Accepted by IJCNN2024, 8 pages
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01170v1

摘要：

随着 CLIP 等视觉语言模型被广泛应用于零拍任务，并在分布内（ID）数据上获得了显著的性能，在零拍设置中检测和拒绝分布外（OOD）输入对于确保此类模型的安全使用至关重要。大多数现有的零镜头 OOD 检测器都依赖于基于 ID 类别标签的提示，以指导 CLIP 对 ID 图像进行分类并拒绝 OOD 图像。而在这项工作中，我们建议利用大量不同的辅助离群点类别标签作为伪离群点类别文本提示给 CLIP，以增强零镜头离群点检测，我们称这种方法为离群点标签暴露（Outlier Label Exposure，OLE）。关键的直觉是，与 OOD 图像相比，ID 图像与这些离群点类别提示的相似度较低。一个问题是，原始类标签通常包括噪声标签，例如 ID 标签的同义词，这使得基于 OLE 的原始检测无效。为了解决这个问题，我们引入了离群点原型学习模块，该模块利用离群点标签的提示嵌入来学习一小部分关键离群点原型，用于基于嵌入相似性的 OOD 评分。此外，离群点类及其原型可以与 ID 类松散地耦合在一起，从而在它们之间形成不可分割的决策区域。因此，我们还引入了离群点标签生成模块，该模块综合离群点原型和 ID 类嵌入，生成介于两者之间的离群点原型，以进一步校准 OLE 中的检测。尽管 OLE 非常简单，但大量实验表明，它大大提高了检测性能，并在大规模 OOD 和硬 OOD 检测基准中取得了新的一流性能。

16.UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

标题:UniQA：用于图像质量和美学评估的统一视觉语言预培训
author:Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01069v1

摘要：

图像质量评估（IQA）和图像美学评估（IAA）旨在模拟人类对图像视觉质量和美学吸引力的主观感知。由于学习目标不同，现有方法通常将这两项任务分开处理。然而，这些方法忽视了这两项任务之间的内在联系，从而阻碍了人类主观感知的任务识别共享表征的学习。为了应对这一挑战，我们提出了 "质量与美学统一视觉语言预训练"（UniQA），以学习两个任务的一般感知，从而使它们同时受益。针对 IQA 数据集没有文本而 IAA 数据集存在文本噪声的问题，(1) 我们利用多模态大语言模型 (MLLM) 生成高质量的文本描述；(2) 为 IAA 生成的文本可作为元数据，用于净化有噪声的 IAA 数据。为了使预训练的 UniQA 有效地适应下游任务，我们进一步提出了一种轻量级适配器，利用多功能线索来充分利用预训练模型的广泛知识。广泛的实验证明，我们的方法在 IQA 和 IAA 任务上都达到了最先进的性能，同时还展示了卓越的零镜头和少标签图像评估能力。源代码将发布在 https://github.com/zht8506/UniQA 网站上。

17.CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment

标题:CLIP 引导下的属性感知预训练用于通用图像质量评估
author:Daekyu Kwon, Dongyoung Kim, Sehwan Ki, Younghyun Jo, Hyong-Euk Lee, Seon Joo Kim
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01020v1

摘要：

在无参考图像质量评估（NR-IQA）中，数据集规模有限这一挑战阻碍了鲁棒性和通用性模型的开发。传统方法通过利用大型数据集为 IQA 提取丰富的表征来解决这一问题。此外，一些方法提出了基于视觉语言模型（VLM）的 IQA，但通用 VLM 和 IQA 之间的领域差距限制了它们的可扩展性。在这项工作中，我们提出了一种新颖的预训练框架，通过有选择性地从 VLM 中提取与质量相关的知识，并利用大型数据集的可扩展性，为 IQA 构建可通用的表示。具体来说，我们为五个具有代表性的图像质量属性精心选择了最佳文本提示，并使用 VLM 生成伪标签。通过大型图像数据集可以生成大量属性感知伪标签，从而使我们的 IQA 模型能够学习到丰富的图像质量表征。我们的方法在多个 IQA 数据集上实现了最先进的性能，并表现出显著的泛化能力。利用这些优势，我们提出了一些应用，如评估图像生成模型和训练图像增强模型，从而证明了我们的模型在现实世界中的适用性。我们将提供相关代码，以供访问。

18.Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation

标题:Cascade-CLIP：用于零镜头语义分割的级联视觉语言嵌入对齐
author:Yunheng Li, ZhongYu Li, Quansheng Zeng, Qibin Hou, Ming-Ming Cheng
publish:Accepted by ICML 2024
date Time:2024-06-02

paper pdf:http://arxiv.org/pdf/2406.00670v2

摘要：

预训练的视觉语言模型（如 CLIP）已成功应用于零镜头语义分割。现有的基于 CLIP 的方法主要利用最后一层的视觉特征与文本嵌入对齐，而忽略了中间层包含丰富对象细节的关键信息。然而，我们发现直接聚合多层次的视觉特征会削弱对新类别的零拍摄能力。不同层视觉特征之间的巨大差异使得这些特征很难与文本嵌入很好地匹配。为了解决这个问题，我们引入了一系列独立的解码器，以级联的方式将多层次视觉特征与文本嵌入对齐，形成了一个新颖而简单的框架，命名为 Cascade-CLIP。我们的 Cascade-CLIP 非常灵活，可轻松应用于现有的零镜头语义分割方法。实验结果表明，我们简单的 Cascade-CLIP 在 COCO-Stuff、Pascal-VOC 和 Pascal-Context 等分段基准上实现了卓越的零镜头性能。我们的代码可在以下网址获取： https://github.com/HVision-NKU/Cascade-CLIP

19.FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning

标题:FuRL：作为强化学习模糊奖励的视觉语言模型
author:Yuwei Fu, Haichao Zhang, Di Wu, Wei Xu, Benoit Boulet
publish:ICML 2024
date Time:2024-06-02

paper pdf:http://arxiv.org/pdf/2406.00645v2

摘要：

在这项工作中，我们研究了如何利用预先训练好的视觉语言模型（VLM）进行在线强化学习（RL）。特别是，我们将重点放在具有预定义文本任务描述的稀疏奖励任务上。我们首先确定了在 RL 任务中应用 VLM 作为奖励时的奖励错位问题。为了解决这个问题，我们在奖励对齐和中继 RL 的基础上引入了一种轻量级微调方法，命名为模糊 VLM 奖励辅助 RL（FuRL）。具体来说，我们通过微调 VLM 表示并使用中继 RL 来避免局部最小值，从而提高了 SAC/DrQ 基线代理在稀疏奖励任务上的性能。在 Meta-world 基准任务上进行的大量实验证明了所提方法的有效性。代码见：https://github.com/fuyw/FuRL。

20.Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering

标题:利用物理先验理解合成 4D 动态场景，用于视频问题解答
author:Xingrui Wang, Wufei Ma, Angtian Wang, Shuo Chen, Adam Kortylewski, Alan Yuille
date Time:2024-06-02

paper pdf:http://arxiv.org/pdf/2406.00622v1

摘要：

对于视觉语言模型（VLM）来说，从视频中理解物体的动态属性及其在三维场景中的交互作用对于有效推理至关重要。在这项工作中，我们引入了一个视频问题解答数据集 SuperCLEVR-Physics，重点关注物体的动态属性。我们专注于物理概念--4D 场景中的速度、加速度和碰撞，模型需要完全理解这些动态属性，并在此基础上回答问题。通过对当前各种 VLM 的评估，我们发现这些模型在理解这些动态属性方面存在困难，因为它们缺乏关于三维空间结构和世界动态时变的明确知识。为了证明明确的 4D 场景动态表示对理解世界动态的重要性，我们进一步提出了 NS-4Dynamics，这是一种神经符号模型，用于在明确的视频场景表示下推理 4D 动态属性。利用结合物理先验分布的场景渲染似然，4D 场景解析器可以估计物体随时间变化的动态属性，并将观测结果解释为世界状态的 4D 场景表示。通过进一步结合神经符号推理，我们的方法可以在未来预测、事实推理和反事实推理中实现高级应用。我们的实验表明，我们的 NS-4Dynamics 在理解动态特性以及回答事实查询、未来预测和反事实推理等问题方面压倒了以前的 VLM。此外，基于明确的 4D 场景表示，我们的模型能有效地重建 4D 场景并重新模拟未来或反事实事件。