多模态大语言模型arxiv论文略读(三十六)

Test-Time Backdoor Attacks on Multimodal Large Language Models

➡️ 论文标题:Test-Time Backdoor Attacks on Multimodal Large Language Models

➡️ 论文作者:Dong Lu, Tianyu Pang, Chao Du, Qian Liu, Xianjun Yang, Min Lin

➡️ 研究机构: Southern University of Science and Technology、Sea AI Lab、University of California, Santa Barbara

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中表现出色,但其训练数据通常来自不可信的外部来源,这使得MLLMs面临后门攻击的风险。传统的后门攻击通过污染训练数据来设置有害效果,然后在测试阶段通过触发输入激活这些效果。然而,这些攻击方法通常需要访问和修改训练数据。

➡️ 研究动机:研究团队发现,MLLMs的多模态能力无意中使得在测试阶段进行后门攻击成为可能,即使没有访问训练数据。这种测试时后门攻击(Test-Time Backdoor Attacks)通过在输入图像中注入通用对抗扰动,可以在文本模态中设置后门,并在测试阶段通过触发提示激活有害效果。这种攻击方法不仅能够动态改变后门触发提示和有害效果,还暴露了新的防御挑战。

➡️ 方法简介:研究团队提出了一种名为AnyDoor的方法,通过在输入图像中注入通用对抗扰动,来在文本模态中设置后门。AnyDoor利用了通用对抗攻击的技术,但其独特之处在于能够将设置和激活有害效果的时间分离,且无需访问或修改训练数据。研究团队通过优化通用对抗扰动,使得模型在接收到特定触发提示时表现出有害行为。

➡️ 实验设计:研究团队在三个公开数据集(VQAv2、SVIT、DALL-E)上进行了实验,评估了不同攻击策略(如像素攻击、角点攻击和边框攻击)和不同扰动预算下的攻击效果。实验结果表明,AnyDoor在多种MLLMs(如LLaVA-1.5、MiniGPT-4、InstructBLIP和BLIP-2)上均能有效实现测试时后门攻击。此外,研究团队还进行了广泛的消融研究,以评估不同参数设置对攻击效果的影响。

EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

➡️ 论文标题:EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

➡️ 论文作者:Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai

➡️ 研究机构: 南京大学国家新型软件技术重点实验室

➡️ 问题背景:多模态大语言模型(MLLMs)近年来吸引了越来越多的关注,但这些模型可能会生成与对应图像不一致的描述,这种现象被称为对象幻觉。现有的方法通过手动标注包含和不包含幻觉的配对响应,并使用各种对齐算法来提高图像和文本之间的对齐能力,但这些方法不仅在微调阶段需要大量的计算资源,还需要昂贵的人工标注来构建对齐算法所需的配对数据。

➡️ 研究动机:为了减少对配对数据的需求并提高计算效率,研究团队提出了一种高效的细粒度遗忘框架(EFUF),该框架通过梯度上升利用三种定制的损失函数来消除幻觉,而无需配对数据。这种方法不仅减少了幻觉,还保持了生成质量,同时计算开销适中。

➡️ 方法简介:EFUF框架首先利用CLIP模型评估文本-图像的一致性,通过设置阈值来区分幻觉对象和非幻觉对象,从而构建正样本和负样本数据集。在微调阶段,EFUF通过三种损失函数(正损失、负损失和句子损失)来优化模型,旨在减少幻觉内容的生成,同时保持模型生成连贯长文本的能力。

➡️ 实验设计:研究团队在MSCOCO数据集上进行了实验,评估了模型在减少幻觉和保持生成质量方面的表现。实验结果表明,EFUF框架在多个MLLMs上均能有效减少幻觉,同时保持或提高生成文本的质量。

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

➡️ 论文标题:Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

➡️ 论文作者:Yongqi Li, Wenjie Wang, Leigang Qu, Liqiang Nie, Wenjie Li, Tat-Seng Chua

➡️ 研究机构: The Hong Kong Polytechnic University, National University of Singapore, Harbin Institute of Technology (Shenzhen)

➡️ 问题背景:当前的生成式语言模型(Generative Language Models, LLMs)已经展示了其在记忆文档知识并有效回应用户查询方面的能力。然而,这些模型的响应仅限于文本输出。为了进一步扩展这些模型的能力,研究团队提出了一种新的框架,使多模态大语言模型(Multimodal Large Language Models, MLLMs)能够在参数中记忆并召回图像,从而直接响应用户的视觉内容查询。

➡️ 研究动机:尽管现有的LLMs和MLLMs在文本生成方面表现出色,但它们缺乏生成视觉输出的能力。研究团队旨在通过引入一种生成式跨模态检索框架(Generative Cross-Modal Retrieval Framework, GRACE),使MLLMs能够记忆图像并在参数中召回这些图像,以响应用户的文本查询。这不仅能够提升MLLMs的实用性,还为跨模态检索提供了一种新的范式。

➡️ 方法简介:GRACE框架通过为图像分配唯一的标识符字符串,将图像记忆和召回问题转化为生成问题。该框架包括两个训练步骤:1) 学习记忆:训练MLLM将图像与其对应的标识符关联起来;2) 学习召回:训练MLLM根据文本查询生成相应的图像标识符。通过这种方式,GRACE使MLLMs能够在没有图像输入的情况下,直接生成与查询相关的图像标识符。

➡️ 实验设计:研究团队在Flickr30K和MS-COCO两个常用数据集上评估了GRACE的性能。实验设计了不同的标识符类型(如字符串标识符、数字标识符、语义标识符、结构化标识符和原子标识符),以全面评估不同标识符对模型性能的影响。实验结果表明,原子标识符在两个数据集上均表现最佳,甚至超过了CLIP模型。然而,随着图像数量的增加,原子标识符方法的词汇表大小也会显著增加,这可能影响模型的可扩展性。

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

➡️ 论文标题:RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

➡️ 论文作者:Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd

➡️ 研究机构: University of Oxford, Beijing Academy of Artificial Intelligence

➡️ 问题背景:当前的端到端自动驾驶系统虽然在决策控制上表现出色,但其黑箱性质导致了透明度不足,影响了用户对系统的信任。此外,多模态大语言模型(MLLMs)在增强自动驾驶系统的解释性方面显示出了巨大潜力,但数据稀缺、领域差异大、训练成本高昂以及灾难性遗忘等问题限制了这些模型的泛化能力。

➡️ 研究动机:为了解决上述挑战,研究团队提出了RAG-Driver,一种基于检索增强上下文学习(RA-ICL)的多模态大语言模型,旨在提高自动驾驶系统的泛化能力和解释性。通过利用检索到的类似驾驶场景作为上下文信息,RAG-Driver能够在未见过的环境中提供高质量的驾驶动作解释和理由,而无需额外的训练。

➡️ 方法简介:RAG-Driver的核心在于其检索增强的上下文学习机制。该模型通过一个统一的感知和规划模块处理多模态输入,并通过一个记忆单元存储和检索相关的驾驶经验。记忆单元中的数据包括视频嵌入、控制信号以及人类专家的文本解释和理由。在决策过程中,模型会检索与当前场景最相似的驾驶经验,并将这些经验作为上下文信息,增强模型的预测和解释能力。

➡️ 实验设计:研究团队在多个数据集上进行了实验,包括BDD-X和Spoken-SAX。实验设计了不同的任务,如驾驶动作解释、理由提供和控制信号预测,以评估RAG-Driver在不同条件下的性能。实验结果表明,RAG-Driver在标准基准测试中达到了最先进的性能,并在未见过的环境中表现出色的零样本泛化能力。

Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

➡️ 论文标题:Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

➡️ 论文作者:Shengzhi Li, Rongyu Lin, Shichao Pei

➡️ 研究机构: TIFIN Inc、KAUST、University of Massachusetts Boston

➡️ 问题背景:多模态大型语言模型(MLLMs)在结合文本和视觉解释能力方面取得了显著进展,但视觉指令调优(Visual Instruction Tuning)可能导致语言指令跟随能力的下降。这种现象在视觉问答(VQA)数据集的使用中尤为明显,因为这些数据集缺乏原始文本指令数据集的多样性和复杂性,导致MLLMs在语言任务上的表现不如其语言模型基础。

➡️ 研究动机:为了解决视觉指令调优导致的语言能力下降问题,研究团队探索了基于偏好对齐的方法,特别是直接偏好优化(DPO),以缓解模态冲突并提升模型的指令跟随能力。研究旨在通过细粒度的偏好数据集,恢复并增强MLLMs的语言能力,同时保持或提升其多模态能力。

➡️ 方法简介:研究团队提出了一个系统的方法,通过构建一个包含5,000个样本的多模态偏好数据集,来评估不同对齐方法的效果。数据集包括从SciGraphQA和LRV-Instruct中收集的图像-文本提示,以及通过Gemini获得的细粒度注释。研究团队评估了三种对齐方法:直接偏好优化(DPO)、SteerLM和拒绝采样(Rejection Sampling),并与传统的监督微调(SFT)进行了对比。

➡️ 实验设计:实验在多个基准数据集上进行,包括视觉指令基准(如MM-Vet和LLaVA-Bench)、视觉多选基准(如PoPE和MM-Bench)和语言指令跟随基准(如MT-Bench和AlpacaEval)。实验设计了不同的超参数设置,以优化DPO模型的性能,并评估了不同方法在不同任务上的表现。结果表明,DPO方法在恢复和提升MLLMs的语言能力方面表现最佳,同时在视觉任务上也表现出色。

相关推荐
sduwcgg2 分钟前
kaggle配置
人工智能·python·机器学习
DolphinScheduler社区3 分钟前
白鲸开源与亚马逊云科技携手推动AI-Ready数据架构创新
人工智能·科技·开源·aws·白鲸开源·whalestudio
欣然~32 分钟前
借助 OpenCV 和 PyTorch 库,利用卷积神经网络提取图像边缘特征
人工智能·计算机视觉
白熊1881 小时前
【计算机视觉】CV实战项目 - 基于YOLOv5的人脸检测与关键点定位系统深度解析
人工智能·yolo·计算机视觉
nenchoumi31191 小时前
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
论文阅读·人工智能·笔记·学习·vln
后端小肥肠1 小时前
文案号搞钱潜规则:日入四位数的Coze工作流我跑通了
人工智能·coze
LCHub低代码社区2 小时前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
-曾牛2 小时前
Spring AI 快速入门:从环境搭建到核心组件集成
java·人工智能·spring·ai·大模型·spring ai·开发环境搭建
阿川20152 小时前
云智融合普惠大模型AI,政务服务重构数智化路径
人工智能·华为云·政务·deepseek
自由鬼2 小时前
开源AI开发工具:OpenAI Codex CLI
人工智能·ai·开源·软件构建·开源软件·个人开发