
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文标题:Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文作者:Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
➡️ 研究机构: Huazhong University of Science and Technology, Lehigh University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在生成详细图像描述、代码生成、视觉对象定位和高级多模态推理等任务中表现出强大的能力。然而,这些模型在训练过程中可能会接触到有害或私密内容,因此需要通过安全机制进行微调,以确保生成的内容安全。尽管如此,研究发现,通过对抗性攻击,可以绕过这些模型的安全约束和内容过滤机制,尤其是通过模型API的漏洞。
➡️ 研究动机:现有的研究主要集中在模型输入中的对抗性样本,而对模型API中的漏洞关注较少。为了填补这一研究空白,研究团队发现了GPT-4V中的系统提示泄露漏洞,并基于此提出了一种新的MLLM破解攻击方法------SASP(Self-Adversarial Attack via System Prompt)。此外,研究还探讨了修改系统提示以防御破解攻击的潜力。
➡️ 方法简介:研究团队通过精心设计的对话模拟,成功提取了GPT-4V的内部系统提示。基于这些系统提示,他们开发了SASP方法,通过GPT-4作为红队工具,自动搜索潜在的破解提示。此外,通过人工修改这些提示,进一步提高了攻击成功率至98.7%。研究还评估了修改系统提示以防御破解攻击的效果,结果表明,适当设计的系统提示可以显著降低破解成功率。
➡️ 实验设计:实验在三个公开数据集上进行,包括面部识别任务。实验设计了不同语言(英语、中文、泰语)的四种提示类型(直接请求、基线攻击、SASP、SASP+人工修改),以全面评估模型对破解提示的敏感性和抗干扰能力。实验结果表明,SASP方法在英语提示下的攻击成功率为59%,而经过人工修改后的攻击成功率高达99%。此外,研究还通过系统提示召回方法,评估了系统提示在防御破解攻击中的有效性。
Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
➡️ 论文标题:Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
➡️ 论文作者:Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd
➡️ 问题背景:当前的伪装物体检测(Camouflaged Object Detection, COD)方法主要依赖于监督学习模型,这些模型需要大量准确标注的数据集,导致其泛化能力较弱。此外,现有的COD方法在处理新场景时表现不佳,尤其是在视频伪装物体检测(VCOD)等新场景中,性能显著下降。
➡️ 研究动机:为了克服现有COD方法的局限性,研究团队提出了一种基于多模态大语言模型(Multimodal Large Language Models, MLLMs)的零样本伪装物体检测框架(Multimodal Camo-Perceptive Framework, MMCPF)。该框架旨在利用MLLMs的强大泛化能力,提高在伪装场景中的检测性能,而无需重新训练或微调模型。
➡️ 方法简介:研究团队设计了链式视觉感知(Chain of Visual Perception, CoVP)机制,从语言和视觉两个方面增强MLLMs在伪装场景中的感知能力。CoVP包括语言提示机制和视觉完成机制,前者通过描述伪装物体的属性、多义性和多样性来增强MLLMs的感知能力,后者通过改进MLLMs输出的不确定坐标来提高最终生成的二值掩码的准确性。
➡️ 实验设计:研究团队在五个广泛使用的COD数据集上进行了实验,包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。实验设计了不同的提示机制,从简单的文本提示到包含物理和动态描述的复杂提示,以及视觉完成机制,以全面评估MMCPF在不同条件下的表现。实验结果表明,MMCPF在零样本设置下显著优于现有的零样本COD方法,并且在弱监督和全监督方法中也表现出竞争力。
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
➡️ 论文标题:InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
➡️ 论文作者:Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:多模态大型语言模型(MLLMs)在人工智能领域日益突出,不仅在传统的视觉-语言任务中表现出色,还在当代多模态基准测试中展示了令人印象深刻的能力。然而,现有的多模态基准测试通常集中在基本的推理任务上,往往只能产生简单的"是/否"或多选答案,这导致了对MLLMs推理能力评估的混淆和困难。
➡️ 研究动机:为了缓解这一问题,研究团队手动策划了一个专门针对MLLMs的基准数据集,重点在于复杂的推理任务。该基准数据集包括三个关键的推理类别:演绎推理、溯因推理和类比推理。每个样本都设计了多个步骤的推理过程,以评估模型在生成答案时的推理能力。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建InfiMM-Eval基准数据集,来评估MLLMs在复杂视觉推理问题上的表现。该数据集不仅包括图像和问题,还包括详细的推理步骤,这些步骤对于评估模型的推理能力至关重要。评估协议包括直接正确答案的满分和基于推理步骤的相关性和逻辑性的部分分数。
➡️ 实验设计:研究团队在InfiMM-Eval基准数据集上对多个代表性的MLLMs进行了评估,包括了演绎推理、溯因推理和类比推理的样本。实验设计了不同复杂度的推理任务,以全面评估模型的推理能力和决策过程。评估结果通过一个综合的评分系统计算,该系统考虑了推理的复杂度和模型生成答案的准确性。
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
➡️ 论文标题:LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
➡️ 论文作者:Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景:现有的多模态大语言模型(MLLMs)主要采用粗略对齐的图像-文本对预训练的视觉编码器,导致视觉知识的提取和推理不足。这使得MLLMs在处理视觉-语言任务时,容易产生错误和幻觉响应。
➡️ 研究动机:为了克服这一问题,研究团队设计了一种双层视觉知识增强的多模态大语言模型(LION),通过细粒度的空间感知视觉知识和高层次的语义视觉证据的注入,提升MLLMs的视觉理解能力。
➡️ 方法简介:LION通过两个层面增强视觉信息:1) 逐步融合细粒度的空间感知视觉知识,设计了一个视觉聚合器与区域级视觉-语言任务合作,采用分阶段的指令调优策略和混合适配器来解决图像级和区域级任务之间的冲突;2) 软提示高层次的语义视觉证据,利用图像标签作为补充信息,并设计了一种软提示方法来减轻不准确标签的影响。
➡️ 实验设计:在多个多模态基准数据集上进行了实验,包括图像描述生成、视觉问答(VQA)和视觉定位任务。实验结果表明,LION在多个任务上显著优于现有模型,例如在VSR任务上比InstructBLIP提高了约5%的准确率,在TextCaps任务上提高了约3%的CIDEr分数,在RefCOCOg任务上比Kosmos-2提高了约5%的准确率。
A Survey on Multimodal Large Language Models for Autonomous Driving
➡️ 论文标题:A Survey on Multimodal Large Language Models for Autonomous Driving
➡️ 论文作者:Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
➡️ 研究机构: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
➡️ 问题背景:随着大型语言模型(LLMs)和视觉基础模型(VFMs)的出现,多模态AI系统在感知现实世界、做出决策和控制工具方面展现出与人类相当的潜力。LLMs在自动驾驶和地图系统中受到了广泛关注。尽管具有巨大潜力,但目前对将LLMs应用于自动驾驶系统的关键挑战、机遇和未来方向的理解仍然不足。
➡️ 研究动机:为了系统地探讨多模态大型语言模型(MLLMs)在自动驾驶中的应用,本文提供了该领域的全面调查。研究旨在介绍MLLMs的背景、发展以及自动驾驶的历史,概述现有的MLLM工具、数据集和基准,总结首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作,并讨论使用MLLMs在自动驾驶系统中需要解决的重要问题。
➡️ 方法简介:研究团队通过分析现有文献和数据集,总结了MLLMs在自动驾驶中的应用,特别是在感知、运动规划和运动控制模块中的作用。此外,研究还探讨了MLLMs在提高车辆智能、决策和乘客互动方面的潜力。
➡️ 实验设计:研究没有进行具体的实验设计,而是通过文献综述和案例分析,探讨了MLLMs在自动驾驶中的应用现状和未来方向。研究团队还组织了首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD),以促进学术界和工业界的合作,探索多模态大型语言模型在自动驾驶领域的可能性和挑战。