AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.04.10-2024.04.15

文章目录~

[1.Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models](#1.Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models)
[2.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection](#2.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection)
[3.UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark](#3.UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark)
[4.FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba](#4.FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba)
[5.RankCLIP: Ranking-Consistent Language-Image Pretraining](#5.RankCLIP: Ranking-Consistent Language-Image Pretraining)
[6.TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning](#6.TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning)
[7.DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection](#7.DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection)
[8.PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization](#8.PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization)
[9.AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning](#9.AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning)
[10.ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition](#10.ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition)
[11.PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification](#11.PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification)
[12.Training a Vision Language Model as Smartphone Assistant](#12.Training a Vision Language Model as Smartphone Assistant)
[13.MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion](#13.MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion)
[14.Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation](#14.Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation)
[15.Improving Continuous Sign Language Recognition with Adapted Image Models](#15.Improving Continuous Sign Language Recognition with Adapted Image Models)
[16.Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation](#16.Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation)
[17.Latent Guard: a Safety Framework for Text-to-image Generation](#17.Latent Guard: a Safety Framework for Text-to-image Generation)
[18.Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning](#18.Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning)
[19.Post-Hoc Reversal: Are We Selecting Models Prematurely?](#19.Post-Hoc Reversal: Are We Selecting Models Prematurely?)
[20.PRAM: Place Recognition Anywhere Model for Efficient Visual Localization](#20.PRAM: Place Recognition Anywhere Model for Efficient Visual Localization)
[21.Implicit and Explicit Language Guidance for Diffusion-based Visual Perception](#21.Implicit and Explicit Language Guidance for Diffusion-based Visual Perception)
[22.PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination](#22.PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination)
[23.Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs](#23.Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs)
[24.Transferable and Principled Efficiency for Open-Vocabulary Segmentation](#24.Transferable and Principled Efficiency for Open-Vocabulary Segmentation)

1.Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models

标题:利用受控视觉语言模型在野外进行逼真图像修复
author:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
publish:CVPRW 2024; Code: https://github.com/Algolzw/daclip-uir
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09732v1

摘要：

尽管扩散模型已成功应用于各种图像复原（IR）任务，但其性能对训练数据集的选择非常敏感。通常情况下，在特定数据集中训练的扩散模型无法恢复有分布外退化的图像。为了解决这个问题，这项工作利用了一个功能强大的视觉语言模型和一个合成降解管道来学习野外图像修复（野外 IR）。更具体地说，所有低质量图像都使用合成降级管道进行模拟，该管道包含多种常见降级，如模糊、大小调整、噪声和 JPEG 压缩。然后，我们为降级感知 CLIP 模型引入鲁棒训练，以提取丰富的图像内容特征，协助高质量图像修复。我们的基础扩散模型是图像修复 SDE（IR-SDE）。在此基础上，我们进一步提出了快速生成无噪声图像的后验采样策略。我们在合成和真实世界退化数据集上评估了我们的模型。此外，在统一图像复原任务中的实验表明，所提出的后置采样提高了各种退化情况下的图像生成质量。

2.Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

标题:LLM 能否理解视觉异常？揭示 LLM 在零点异常检测中的能力
author:Jiaqi Zhu, Shaofeng Cai, Fang Deng, Junran Wu
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09654v1

摘要：

大型视觉语言模型（LVLMs）在以自然语言为指导推导视觉表征方面具有明显的优势。最近的探索利用 LVLMs 应对零镜头视觉异常检测（VAD）挑战，将图像与指示正常和异常情况的文本描述（称为异常提示）配对。然而，现有方法依赖于静态异常提示，容易产生跨语义歧义，并且优先考虑全局图像级表征，而非精确异常定位所必需的关键局部像素级图像到文本对齐。在本文中，我们介绍了 ALFA，这是一种无需训练的方法，旨在通过统一的模型应对这些挑战。我们提出了一种运行时提示适应策略，首先生成信息丰富的异常提示，以充分利用大型语言模型（LLM）的功能。这一策略通过上下文评分机制得到加强，以实现每幅图像异常提示的适应和跨语义歧义的缓解。我们进一步引入了一种新颖的细粒度对齐器，通过将图像-文本对齐从全局语义空间投射到局部语义空间，融合局部像素级语义以实现精确的异常定位。在极具挑战性的 MVTec 和 VisA 数据集上进行的广泛评估证实了 ALFA 在利用语言潜力进行零镜头 VAD 方面的有效性，与最先进的零镜头 VAD 方法相比，ALFA 在 MVTec AD 和 VisA 数据集上的 PRO 分别显著提高了 12.1% 和 8.9%。

标题:UNIAA：统一的多模态图像美学评估基线和基准
author:Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09619v1

摘要：

作为昂贵的专家评估的替代方法，图像美学评估（IAA）是计算机视觉领域的一项重要任务。然而，传统的图像美学评估方法通常局限于单一数据源或任务，限制了其普遍性和更广泛的应用。在这项工作中，为了更好地与人类美学接轨，我们提出了一个统一多模态图像美学评估（UNIAA）框架，包括一个名为 UNIAA-LLaVA 的多模态大语言模型（MLLM）和一个名为 UNIAA-Bench 的综合基准。我们选择同时具备视觉感知和语言能力的 MLLMs 进行 IAA，并建立了一种低成本范式，将现有数据集转化为统一的高质量视觉指令调谐数据，并在此基础上训练 UNIAA-LaVA。为了进一步评估 MLLM 的 IAA 能力，我们构建了 UNIAA-Bench，其中包括三个审美层次：它包括三个审美层次：感知、描述和评估。广泛的实验验证了 UNIAA 的有效性和合理性。与现有的 MLLM 相比，UNIAA-LaVA 在 UNIAA-Bench 的所有级别上都取得了具有竞争力的性能。具体来说，我们的模型在审美感知方面的表现优于 GPT-4V，甚至接近初级人类水平。我们发现 MLLM 在 IAA 中具有巨大潜力，但仍有很大的改进空间。我们将发布 UNIAA-LaVA 和 UNIAA-Bench。

4.FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba

标题:FusionMamba：使用 Mamba 对多模态图像融合进行动态特征增强
author:Xinyu Xie, Yawen Cui, Chio-In Ieong, Tao Tan, Xiaozhi Zhang, Xubin Zheng, Zitong Yu
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09498v1

摘要：

多模态图像融合旨在将来自不同模态的信息结合在一起，生成具有全面信息和细致纹理的单一图像。然而，基于卷积神经网络的融合模型由于侧重于局部卷积操作，在捕捉全局图像特征方面存在局限性。基于变压器的模型虽然在全局特征建模方面表现出色，但由于其二次方复杂性，在计算方面面临挑战。最近，选择性结构化状态空间模型（Selective Structured State Space Model）在线性复杂度的长距离依赖性建模方面展现出了巨大的潜力，为解决上述难题提供了一条前景广阔的途径。在本文中，我们提出了一种新颖的动态特征增强方法 FusionMamba，用于与 Mamba 进行多模态图像融合。具体来说，我们为图像融合设计了一种改进的高效 Mamba 模型，将高效的视觉状态空间模型与动态卷积和通道关注相结合。这种改进的模型不仅保持了 Mamba 的性能和全局建模能力，还减少了信道冗余，同时增强了局部增强能力。此外，我们还设计了一个动态特征融合模块（DFFM），包括两个动态特征增强模块（DFEM）和一个跨模态融合 Mamba 模块（CMFM）。前者用于动态纹理增强和动态差异感知，后者用于增强模式间的相关特征并抑制多余的跨模式信息。FusionMamba 在各种多模态医学图像融合任务（CT-MRI、PET-MRI、SPECT-MRI）、红外与可见光图像融合任务（IR-VIS）和多模态生物医学图像融合数据集（GFP-PC）中都取得了最先进的性能（SOTA），证明了我们的模型具有泛化能力。FusionMamba 的代码见 https://github.com/millieXie/FusionMamba。

5.RankCLIP: Ranking-Consistent Language-Image Pretraining

标题:RankCLIP：排名一致的语言图像预训练
author:Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun
publish:10 pages, 3 figures, 6 tables. Code and model checkpoints are

available at https://github.com/Jam1ezhang/RankCLIP
date Time:2024-04-15

paper pdf:http://arxiv.org/pdf/2404.09387v1

摘要：

在不断发展的视觉语言模型中，对比语言图像预训练（CLIP）通过利用对大量文本图像对的自监督对比学习，在许多下游任务（如零镜头分类）中树立了新的标杆。然而，它对僵化的一对一映射的依赖忽略了文本和图像之间以及文本和图像内部复杂且往往是多方面的关系。为此，我们引入了 RankCLIP，这是一种新颖的预训练方法，它超越了 CLIP 及其变体的僵化的一对一匹配框架。通过利用模态内和跨模态排序一致性，RankCLIP 改进了配准过程，使其能够捕捉每种模态之间和内部细微的多对多关系。通过全面的实验，我们证明了 RankCLIP 的增强能力，它能有效提高各种下游任务的性能，尤其是在零镜头分类方面比最先进的方法有显著提高，这突出了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

6.TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

标题:TrafficVLM：用于交通视频字幕的可控视觉语言模型
author:Quang Minh Dinh, Minh Khoi Ho, Anh Quan Dang, Hung Phong Tran
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09275v1

摘要：

由于对高效、可靠的城市监控系统的需求日益增长，交通视频描述和分析近来备受关注。大多数现有方法只关注交通事件片段的定位，严重缺乏与事件中所有相关主体的行为和背景有关的描述细节。在本文中，我们提出了一种新颖的多模式密集视频字幕模型--TrafficVLM，用于车辆自我摄像头视图。TrafficVLM 从空间和时间两方面对交通视频事件进行不同层次的分析建模，并在事件的不同阶段为车辆和行人生成细粒度的长描述。我们还为 TrafficVLM 提出了控制生成输出的条件组件和多任务微调范式，以增强 TrafficVLM 的学习能力。实验表明，TrafficVLM 在车辆视图和俯视摄像机视图上都表现出色。我们的解决方案在 2024 年人工智能城市挑战赛第 2 赛道中取得了优异成绩，在挑战赛中排名第三。我们的代码可在 https://github.com/quangminhdinh/TrafficVLM 公开获取。

7.DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

标题:DetCLIPv3：实现多功能生成式开放词汇对象检测
author:Lewei Yao, Renjie Pi, Jianhua Han, Xiaodan Liang, Hang Xu, Wei Zhang, Zhenguo Li, Dan Xu
publish:Accepted to CVPR2024
date Time:2024-04-14

paper pdf:http://arxiv.org/pdf/2404.09216v1

摘要：

现有的开放词汇对象检测器通常需要用户提供一组预定义的类别，这大大限制了它们的应用场景。在本文中，我们将介绍一种高性能检测器 DetCLIPv3，它不仅在开放词汇对象检测方面表现出色，而且还能为检测到的对象生成分层标签。DetCLIPv3 有三个核心设计：1.多用途模型架构：我们设计了一个强大的开放集检测框架，并通过整合标题头进一步增强了生成能力。2.高信息密度数据：我们开发了一个自动标注管道，利用可视化大型语言模型来完善大规模图像-文本对的标题，提供丰富的多粒度对象标签，以增强训练效果。3.高效的训练策略：我们采用低分辨率输入的预训练阶段，使对象字幕机能够从大量图像-文本配对数据中高效地学习广泛的视觉概念。随后是微调阶段，利用少量高分辨率样本进一步提高检测性能。通过这些有效的设计，DetCLIPv3展示了卓越的开放词汇检测性能，例如，我们的Swin-T骨干模型在LVIS minival基准测试中实现了47.0的零点固定AP，分别比GLIPv2、GroundingDINO和DetCLIPv2高出18.0/19.6/6.6个AP。在 VG 数据集的密集字幕任务中，DetCLIPv3 也达到了 19.7 AP 的先进水平，展示了其强大的生成能力。

8.PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization

标题:PracticalDG：对视觉语言模型进行扰动蒸馏，实现混合领域泛化
author:Zining Chen, Weiqiu Wang, Zhicheng Zhao, Fei Su, Aidong Men, Hongying Meng
publish:Accepted to CVPR2024
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.09011v1

摘要：

领域泛化（Domain Generalization，DG）旨在解决源域和目标域之间的分布偏移问题，目前的 DG 方法默认设置为源域和目标域的数据具有相同的类别。然而，在实际场景中，目标域中存在未见过的类别。为了解决这个问题，开放集域泛化（OSDG）应运而生，并专门提出了几种方法。然而，大多数现有方法都采用了复杂的架构，与 DG 方法相比改进甚微。最近，视觉语言模型（VLM）按照微调范式被引入到 DG 中，但大型视觉模型的训练开销巨大。因此，在本文中，我们创新性地将 VLM 的知识转移到轻量级视觉模型中，并通过从分数、类别和实例（SCI）等三个角度引入扰动蒸馏（Perturbation Distillation，PD）来提高鲁棒性，命名为 SCI-PD。此外，以前的方法都是以具有相同和固定分割的基准为导向，忽略了源域之间的差异。通过我们提出的新基准混合域泛化（HDG）和新指标 H 2 H^{2} H2-CV，我们发现这些方法的性能急剧下降。广泛的实验证明，我们的方法在多个数据集上的表现优于最先进的算法，尤其是在面对数据稀缺的情况下，鲁棒性得到了提高。

9.AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning

标题:AMU-Tuning：基于CLIP的有效Logit偏差，实现快速学习
author:Yuwei Tang, Zhenyi Lin, Qilong Wang, Pengfei Zhu, Qinghua Hu
publish:Accepted by CVPR 2024
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.08958v1

摘要：

最近，预训练视觉语言模型（如 CLIP）在少拍学习方面显示出巨大潜力，并吸引了大量研究兴趣。尽管人们一直在努力提高 CLIP 的少量学习能力，但对影响现有方法有效性的关键因素还没有很好的研究，这限制了对 CLIP 在少量学习方面潜力的进一步探索。在本文中，我们首先介绍了一种统一的表述方法，从对数偏置的角度分析基于 CLIP 的少次学习方法，从而鼓励我们学习有效的对数偏置，以进一步提高基于 CLIP 的少次学习方法的性能。为此，我们拆解了计算对数偏置的三个关键组件（即对数特征、对数预测器和对数融合），并实证分析了其对少次分类性能的影响。基于对关键要素的分析，本文提出了一种新颖的 AMU-Tuning 方法，用于学习基于 CLIP 的少拍分类的有效对数偏置。具体来说，我们的 AMU-Tuning 方法通过利用适当的 KaTeX parse error: Expected '}', got 'EOF' at end of input: ...rline{textbf{A} 辅助特征来预测对数偏置，并将这些特征输入到具有 / u n d e r l i n e t e x t b f M /underline{textbf{M}} /underlinetextbfM 多分支训练的高效特征初始化线性分类器中。最后，我们还开发了一种基于 u n d e r l i n e t e x t b f U underline{textbf{U}} underlinetextbfU不确定性的融合方法，将logit偏差纳入到CLIP中，以实现少量分类。实验是在几个广泛使用的基准上进行的，结果表明 AMU-Tuning 明显优于其同行，同时在基于 CLIP 的少量学习中实现了最先进的性能。

10.ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition

标题:ChimpVLM：人种图增强黑猩猩行为识别
author:Otto Brookes, Majid Mirmehdi, Hjalmar Kuhl, Tilo Burghardt
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.08937v1

摘要：

我们的研究表明，通过为视觉架构提供访问详细描述物种行为的嵌入式文本描述的途径，可以增强对相机捕捉到的黑猩猩行为的理解。我们特别介绍了一种视觉语言模型，该模型采用直接从相机陷阱视频中提取的视觉特征的多模态解码来处理代表行为的查询标记并输出类别预测。查询标记使用黑猩猩行为的标准化ethogram进行初始化，而不是使用随机或基于名称的初始化。此外，我们还探讨了在已知行为模式的文本语料库上使用经过微调的屏蔽语言模型初始化查询词库的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统，并分别在多类和多标签识别任务中展示了我们的多模态解码方法和查询初始化策略的性能优势。结果和消减证实了性能的提高。我们在 PanAf500 的 top-1 准确率（+6.34%）以及 PanAf20K 的整体（+1.1%）和尾级（+2.26%）平均精确度方面的表现均优于视觉模型和视觉语言模型。我们共享完整的源代码和网络权重，以实现结果的完全可重复性和易于使用。

标题:PM2：用于少量医学图像分类的新型提示多模态模型范例
author:Zhenwei Wang, Qiule Sun, Bingbing Zhang, Pengfei Wang, Jianxin Zhang, Qiang Zhang
date Time:2024-04-13

paper pdf:http://arxiv.org/pdf/2404.08915v1

摘要：

由于只有极少数医学实例可用于训练，因此 "少量学习 "已成功应用于医学图像分类。由于注释医学图像的数量有限，图像表征不应仅从单一图像模式中获得，因为单一图像模式不足以描述概念类别。在本文中，我们提出了一种基于多模态基础模型的医学图像分类新提示多模态模型范式，称为 PM2。除了图像模态外，PM2 还引入了另一种补充文本输入（称为提示），以进一步描述相应的图像或概念类别，并促进跨不同模态的少量学习。为了更好地探索提示工程的潜力，我们对新范式下的五种不同提示方案进行了实证研究。此外，多模态模型中的线性探测是一种线性分类头，只将类标记作为输入，这完全忽略了高级视觉标记中固有的丰富统计数据的优点。因此，我们另辟蹊径，同时对视觉标记和类标记的特征分布进行线性分类。为了有效挖掘这些丰富的统计数据，我们采用了全局协方差池化和高效的矩阵幂归一化来聚合视觉标记。然后，我们研究并结合两个分类头。一个是共享来自视觉编码器的图像类别标记和由文本编码器编码的提示表示。另一个是对来自视觉编码器的视觉标记的特征分布进行分类。在三个医疗数据集上进行的广泛实验表明，无论采用哪种提示方案，我们的 PM2 都明显优于同行，达到了最先进的性能。

12.Training a Vision Language Model as Smartphone Assistant

标题:训练视觉语言模型作为智能手机助手
author:Nicolai Dorka, Janusz Marecki, Ammar Anwar
publish:ICLR 2024 workshop on Generative Models for Decision Making
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08755v1

摘要：

为了应对数字助理能够执行大量用户任务的挑战，我们的研究重点是基于指令的移动设备控制领域。我们利用最近在大型语言模型（LLM）方面取得的进展，提出了一种可在移动设备上完成各种任务的视觉语言模型（VLM）。我们的模型仅通过与用户界面（UI）进行交互来发挥作用。它使用来自设备屏幕的视觉输入，模仿人类的交互方式，包括点击和轻扫等手势。输入和输出空间的这种通用性使我们的代理可以与设备上的任何应用程序进行交互。与以前的方法不同，我们的模型不仅可以在单个屏幕图像上运行，还可以在由过去的屏幕截图序列和相应动作创建的视觉语言句子上运行。在极具挑战性的 Android in the Wild 基准测试中对我们的方法进行的评估证明了它的功效和潜力。

13.MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion

标题:MambaDFuse：基于 Mamba 的多模态图像融合双阶段模型
author:Zhe Li, Haiwei Pan, Kejia Zhang, Yuhua Wang, Fengming Yu
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08406v1

摘要：

多模态图像融合（MMIF）旨在将不同模态的互补信息整合到单一的融合图像中，以全面地表示成像场景并促进下游视觉任务。近年来，随着深度神经网络的发展，多模态图像融合任务取得了重大进展。然而，受限于固有的局部还原偏差（CNN）或二次计算复杂性（Transformers），现有方法无法有效、高效地提取特定模态和模态融合特征。为了克服这一问题，我们提出了基于 Mamba 的双相融合（MambaDFuse）模型。首先，我们设计了一个双级特征提取器，通过从 CNN 和 Mamba 块中提取低级和高级特征来捕捉单模态图像中的远距离特征。然后，提出了双阶段特征融合模块，以获得结合不同模态互补信息的融合特征。它使用通道交换法进行浅层融合，使用增强型多模态 Mamba（M3）块进行深层融合。最后，融合图像重建模块利用特征提取的反变换来生成融合结果。通过大量实验，我们的方法在红外可见光图像融合和医学图像融合方面取得了良好的融合效果。此外，在一个统一的基准测试中，MambaDFuse 在物体检测等下游任务中也表现出了更好的性能。带有检查点的代码将在同行评审结束后公布。

14.Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation

标题:校准与重建：用于参考图像分割的深度集成语言
author:Yichen Yan, Xingjian He, Sihan Chen, Jing Liu
publish:9 pages, 8 figures ICMR2024. arXiv admin note: text overlap with

arXiv:2305.14969
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08281v1

摘要：

引用图像分割的目的是从图像中分割自然语言表达所引用的对象。其主要挑战在于如何有效地将细粒度语义信息从文本特征传播到视觉特征。最近的许多研究都利用变换器来应对这一挑战。然而，传统的变换器解码器会随着层级的加深而扭曲语言信息，从而导致不理想的结果。在本文中，我们引入了 CRFormer，这是一种在变换解码器中迭代校准多模态特征的模型。我们首先使用视觉特征生成语言查询，强调输入语言的不同方面。然后，我们提出了一种新颖的校准解码器（CDec），其中的多模态特征可通过输入语言特征进行迭代校准。在校准解码器中，我们使用每个解码器层的输出和原始语言特征来生成新的查询以进行持续校准，从而逐步更新语言特征。在 CDec 的基础上，我们引入了语言重构模块和重构损失。该模块利用解码器最后一层的查询来重构输入语言并计算重构损失。这可以进一步防止语言信息丢失或失真。我们的实验表明，与最先进的方法相比，我们的方法在 RefCOCO、RefCO+ 和 G-Ref 数据集上的性能更加出色。

15.Improving Continuous Sign Language Recognition with Adapted Image Models

标题:通过调整图像模型提高连续手语识别能力
author:Lianyu Hu, Tongkai Shi, Liqing Gao, Zekang Liu, Wei Feng
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08226v1

摘要：

网络规模的弱标签图像-文本对的增加极大地促进了大规模视觉-语言模型（如 CLIP）的发展，这些模型在一系列下游任务中表现出令人印象深刻的泛化性能。然而，由于模型规模庞大、可用数据稀缺，这些模型在下游任务中对整个模型进行微调的应用受到了限制。此外，对模型进行全面微调很容易遗忘在预训练阶段获得的通用基本知识，并过度适应下游数据。为了使这些大型视觉语言模型（如 CLIP）在执行连续手语识别（CSLR）时保持高效率，同时保留其通用性，我们提出了一种新颖的策略（AdaptSign）。特别是采用 CLIP 作为视觉骨干，提取参数固定的帧特征，并引入一组可学习模块来模拟空间手势变化或捕捉时间手势运动。引入的附加模块相当轻量级，仅需额外 3.2% 的计算量，具有很高的效率。在这一过程中，预训练阶段获得的通用知识在冻结的 CLIP 骨干中得到了很好的保存。广泛的实验表明，尽管 AdaptSign 非常高效，但与现有方法相比，它在 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等一系列 CSLR 基准测试中表现出了卓越的性能。可视化效果显示，AdaptSign 可以学会动态地关注标志视频中的信息空间区域和跨帧轨迹。

16.Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation

标题:关注你的邻居：无需训练的开放词汇语义分割
author:Sina Hajimiri, Ismail Ben Ayed, Jose Dolz
date Time:2024-04-12

paper pdf:http://arxiv.org/pdf/2404.08181v1

摘要：

尽管针对密集视觉识别问题（如语义分割）的深度学习取得了重大进展，但传统方法仍受到固定类集的限制。与此同时，视觉语言基础模型（如 CLIP）因其强大的泛化能力，已在众多零镜头图像级任务中展现出显著效果。最近，有大量工作研究了如何在开放词汇语义分割（OVSS）中利用这些模型。然而，现有方法往往依赖于不切实际的监督预训练或访问额外的预训练网络。在这项工作中，我们为免训练 OVSS 提出了一个强大的基线，称为 "邻域感知 CLIP（NACLIP）"，代表了针对这种情况对 CLIP 的直接调整。我们的方法在 CLIP 视觉转换器的自我关注中强制实现了补丁的本地化，尽管这对密集预测任务至关重要，但在 OVSS 文献中却被忽视了。通过采用有利于分割的设计选择，我们的方法显著提高了性能，而无需额外数据、辅助预训练网络或大量超参数调整，因此在实际应用中非常实用。我们在 8 个流行的语义分割基准上进行了实验，在大多数情况下都取得了最先进的性能。我们的代码可在 https://github.com/sinahmr/NACLIP 上公开获取。

17.Latent Guard: a Safety Framework for Text-to-image Generation

标题:潜伏守护：文本到图像生成的安全框架
author:Runtao Liu, Ashkan Khakzar, Jindong Gu, Qifeng Chen, Philip Torr, Fabio Pizzati
publish:under review
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.08031v1

摘要：

文本到图像（T2I）模型具有生成高质量图像的能力，可被用于创建不当内容。为了防止滥用，现有的安全措施要么基于文本黑名单（很容易被规避），要么基于有害内容分类（需要大量数据集进行训练，灵活性低）。因此，我们提出了 Latent Guard，一个旨在改进文本到图像生成安全措施的框架。受到基于黑名单的方法的启发，Latent Guard 在 T2I 模型的文本编码器之上学习一个潜在空间，从而可以检查输入文本嵌入中是否存在有害概念。我们提出的框架由针对任务的数据生成管道（使用大型语言模型）、临时架构组件和对比学习策略组成，以便从生成的数据中获益。我们在三个数据集上验证了我们方法的有效性，并与四个基线进行了对比。代码和数据将在 https://github.com/rt219/LatentGuard 上共享。

18.Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning

标题:两种效应，一种触发：对比视觉语言表征学习中的模态差距、对象偏差和信息失衡
author:Simon Schrodi, David T. Hoffmann, Max Argus, Volker Fischer, Thomas Brox
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07983v1

摘要：

像 CLIP 这样的对比视觉语言模型因其可在各种下游任务中应用所学表征而广受欢迎。尽管它们在某些任务（如零镜头图像识别）中取得了成功，但在其他任务（如属性检测）中的表现却出人意料地糟糕。以前的工作将这些挑战归因于模态差距，即共享表征空间中图像和文本的分离，以及对物体的偏爱而非其他因素，如属性。在这项工作中，我们研究了这两种现象。我们发现，只有少数嵌入维度会导致模态差距。此外，我们还提出了一种衡量对象偏向的方法，并发现对象偏向并不会导致在属性等其他概念上的表现变差。但是，是什么导致了模态差距和对象偏差的出现呢？为了回答这个问题，我们精心设计了一个实验环境，允许我们控制模态之间共享信息的数量。结果发现，模式差距和对象偏差背后的驱动因素是图像和说明之间的信息不平衡。

19.Post-Hoc Reversal: Are We Selecting Models Prematurely?

标题:事后逆转：我们是否过早地选择了模型？
author:Rishabh Ranjan, Saurabh Garg, Mrigank Raman, Carlos Guestrin, Zachary Chase Lipton
publish:9 pages + references + appendix, 7 figures
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07815v1

摘要：

为了提高性能、鲁棒性和不确定性估计等，训练过的模型通常采用温度缩放 (TS)、集合和随机加权平均 (SWA) 等事后变换方法。然而，这些变换通常都是在通过标准方法最终确定基础模型之后才应用的。在本文中，我们通过广泛的实证研究对这种做法提出了质疑。特别是，我们证明了一种被称为 "事后逆转 "的现象，即在应用这些事后变换后，性能趋势发生了逆转。这种现象在高噪声环境中尤为突出。例如，虽然基础模型在训练初期会出现严重的过拟合，但传统的集合和 SWA 都有利于经过更多历时训练的基础模型。事后反转还能抑制双重下降的出现，并减轻基础模型中测试损失与测试误差之间的不匹配。基于我们的研究结果，我们提出了事后选择技术，这是一种简单的技术，通过这种技术，事后指标可以为模型开发决策提供信息，如提前停止、检查点和更广泛的超参数选择。我们的实验分析涵盖了真实世界的视觉、语言、表格和图形数据集，这些数据集来自卫星成像、语言建模、人口普查预测和社交网络分析等领域。在 LLM 指令调整数据集上，事后选择的 MMLU 比原始选择提高了 > 1.5 倍。代码见 https://github.com/rishabh-ranjan/post-hoc-reversal。

20.PRAM: Place Recognition Anywhere Model for Efficient Visual Localization

标题:PRAM：用于高效视觉定位的任意位置识别模型
author:Fei Xue, Ignas Budvytis, Roberto Cipolla
publish:project page: https://feixue94.github.io/pram-project/
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07785v1

摘要：

人类在已知环境中进行自我定位时，首先要识别特定物体上的地标及其空间关系，然后通过将识别物体的详细结构与记忆中的结构对齐来验证位置。受此启发，我们提出了位置识别随处模型（PRAM），以便像人类一样高效地进行视觉定位。PRAM 由两个主要部分组成：识别和注册。具体来说，首先，我们采用了以地图为中心的自监督地标定义策略，将室内或室外场景中的地点作为独特的地标。然后，利用从图像中提取的稀疏关键点作为基于变压器的深度神经网络的输入，进行地标识别；这些关键点使 PRAM 能够以较高的时间和内存效率识别数百个地标。关键点连同识别出的地标标签将进一步用于查询图像和三维地标地图之间的配准。与以往的分层方法不同，PRAM 丢弃了全局和局部描述符，减少了 90% 以上的存储空间。由于 PRAM 利用识别和地标验证分别取代了全局参考搜索和穷举匹配，因此它的运行速度是之前最先进方法的 2.4 倍。此外，PRAM 还为视觉定位开辟了新方向，包括多模态定位、以地图为中心的特征学习和分层场景坐标回归。

21.Implicit and Explicit Language Guidance for Diffusion-based Visual Perception

标题:基于扩散的视觉感知的隐性和显性语言引导
author:Hefeng Wang, Jiale Cao, Jin Xie, Aiping Yang, Yanwei Pang
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07600v1

摘要：

文本到图像的扩散模型在条件图像合成方面显示出强大的能力。通过大规模的视觉语言预训练，扩散模型能够在不同的文本提示下生成纹理丰富、结构合理的高质量图像。然而，如何将预训练的扩散模型应用于视觉感知是一个有待解决的问题。在本文中，我们为基于扩散的感知提出了一个隐式和显式语言引导框架，命名为 IEDP。我们的 IEDP 由隐式语言引导分支和显式语言引导分支组成。隐式分支利用冻结的 CLIP 图像编码器直接生成隐式文本嵌入，并将其输入扩散模型，而不使用显式文本提示。显式分支利用相应图像的地面实况标签作为文本提示，为扩散模型的特征提取提供条件。在训练过程中，我们通过共享这两个分支的模型权重来联合训练扩散模型。因此，隐式和显式分支可以共同指导特征学习。在推理过程中，我们只使用隐式分支进行最终预测，不需要任何地面实况标签。我们在两个典型的感知任务上进行了实验，包括语义分割和深度估计。我们的 IEDP 在这两项任务中都取得了可喜的成绩。在语义分割方面，我们的 IEDP 在 AD20K 验证集上的 mIoU 得分为 55.9%，比基准方法 VPD 高出 2.2%。在深度估计方面，我们的 IEDP 比基准方法 VPD 高出 10.2%。

22.PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination

标题:PromptSync：通过感知类别的原型对齐和识别，弥合视觉语言模型中的领域差距
author:Anant Khandelwal
publish:Accepted at CVPR 2024 LIMIT, 12 pages, 8 Tables, 2 Figures
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07520v2

摘要：

视觉语言（V-L）模型（如 CLIP）具有零点泛化的潜力，这促使它们在处理众多下游任务时被广泛采用。以前的方法采用测试时间提示调整来使模型适应未知领域，但它们忽略了类分布不平衡的问题。在本研究中，我们明确解决了这一问题，采用了由测试样本和过滤增强视图获得的平均类别概率加权的类别感知原型对齐。此外，我们还通过对比学习进行原型判别，确保类概率尽可能准确。对齐和判别损失的结合可以起到几何正则的作用，防止提示表征坍缩为单一类别，并有效弥合源域和测试域之间的分布差距。我们的方法被命名为 PromptSync，它能在 V-L 模型的文本和视觉分支上同步每个测试样本的提示。在领域泛化基准的实证评估中，我们的方法在总体性能上比以前的最佳方法高出 2.33%，在从基础到新颖的泛化中高出 1%，在跨数据集转移任务中高出 2.84%。

23.Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

标题:学习定位物体可提高视觉-LLM 的空间推理能力
author:Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07449v1

摘要：

将大型语言模型（LLMs）整合到视觉领域任务中，形成视觉 LLMs（VLMs），使视觉语言任务，尤其是视觉问题解答（VQA）的表现出类拔萃。然而，现有的 V-LLMs（如 BLIP-2、LLaVA）在空间推理和定位意识方面表现较弱。尽管这些模型能生成高度描述性和精细的文本答案，但在区分左右位置等简单任务上却失效了。在这项工作中，我们探索了基于图像空间坐标的指令微调目标如何为 V-LLM 注入空间意识。我们发现了最佳坐标表示法、数据效率指令微调目标和伪数据生成策略，从而提高了 V-LLM 的空间感知能力。此外，我们的模型还能改善图像和视频领域的 VQA，减少不期望的幻觉，并生成更好的上下文对象描述。涉及 14 个不同数据集的 5 项视觉语言任务的实验证明，我们提出的框架明显提高了性能。

24.Transferable and Principled Efficiency for Open-Vocabulary Segmentation

标题:开放词汇分割的可转移性和原则性效率
author:Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
date Time:2024-04-11

paper pdf:http://arxiv.org/pdf/2404.07448v1

摘要：

最近，预训练基础视觉语言模型的成功使得开放式词汇分割（OVS）成为可能。尽管性能可观，但这种方法带来了严重的计算开销，面临两个挑战：1) 骨干模型规模庞大；2) 微调成本高昂。这些挑战阻碍了这种 OVS 策略在现实世界中的广泛应用和经济承受能力。虽然模型压缩和高效微调等传统方法可以应对这些挑战，但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻易移植，必须在不同的模型上重新训练，这就需要付出代价。在高效 OVS 的背景下，我们的目标是通过利用训练成本更低的小型模型，实现与之前基于大型视觉语言基础模型的 OVS 作品相当甚至更好的性能。我们的核心策略是使我们的效率原则化，从而无需进一步定制即可从一个 OVS 框架无缝移植到其他框架。在各种 OVS 基准上进行的综合实验证明，我们在分割准确性和计算成本之间的权衡优于之前的研究成果。我们的代码可在 https://github.com/Xujxyang/OpenTrans