
MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms
➡️ 论文标题:MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms
➡️ 论文作者:Yiqiao Jin, Minje Choi, Gaurav Verma, Jindong Wang, Srijan Kumar
➡️ 研究机构: Georgia Institute of Technology, Microsoft Research Asia
➡️ 问题背景:社交媒体平台是多模态信息交流的中心,涵盖了文本、图像和视频等多种内容形式,这使得机器理解在线空间中的信息或情感变得具有挑战性。多模态大型语言模型(MLLMs)作为解决这些挑战的有希望的方案,但在准确解释人类情感和复杂内容(如虚假信息)方面仍存在困难。
➡️ 研究动机:为了评估MLLMs在理解多模态社交媒体内容方面的能力,研究团队开发了MM-SOC,这是一个全面的基准测试,旨在评估MLLMs在多种任务中的表现,包括虚假信息检测、仇恨言论检测和社会背景生成等。通过这一基准测试,研究团队希望揭示MLLMs在处理社交媒体任务中的性能差异,并为未来的模型改进提供方向。
➡️ 方法简介:研究团队构建了MM-SOC基准测试,该基准测试整合了多个现有的多模态数据集,并引入了一个新的大规模YouTube标签数据集。MM-SOC涵盖了10个任务,包括7个图像-文本分类任务(虚假信息检测、标签分类、讽刺、冒犯性、情感分析、仇恨言论检测和幽默)、2个生成任务(图像描述和社会背景描述)以及一个文本提取任务(OCR)。
➡️ 实验设计:研究团队在四个开源MLLMs的十个不同大小的变体上进行了实验,评估了这些模型在零样本设置下的表现,并与经过微调的基线模型进行了比较。实验结果表明,零样本MLLMs在处理社交媒体任务时表现不佳,但在经过特定的微调策略后,性能有所提升。此外,研究团队还进行了两个案例研究,测试了自我改进和解释增强微调的有效性。
Towards Robust Instruction Tuning on Multimodal Large Language Models
➡️ 论文标题:Towards Robust Instruction Tuning on Multimodal Large Language Models
➡️ 论文作者:Wei Han, Hui Chen, Soujanya Poria
➡️ 研究机构: Singapore University of Technology and Design (SUTD)、Nanyang Technological University (NTU)
➡️ 问题背景:大型语言模型(LLMs)通过在多任务指令跟随数据上进行微调,已经证明了其在零样本任务泛化和对齐人类意图方面的有效性。然而,这些微调模型在遇到不同风格的指令时,往往表现出较弱的鲁棒性。特别是在多模态任务中,这种问题更加突出,因为多模态指令微调(MIFT)需要处理视觉和语言信息。
➡️ 研究动机:现有的多模态大型语言模型(MLLMs)在处理不同风格的指令时,鲁棒性不足。为了提高这些模型的鲁棒性和泛化能力,研究团队提出了一种自动化的指令集扩展方法(INSTREXP),旨在通过生成多样化的指令模板来增强模型的适应性。
➡️ 方法简介:研究团队提出了一种名为INSTREXP的框架,该框架通过使用大型语言模型(LLMs)和元提示(meta-prompts)自动生成多样化的指令模板,从而将原始指令集扩展30倍。生成的指令模板经过规则过滤和自适应采样策略,以确保指令的一致性和多样性。最终,通过在扩展后的数据集上微调MLLMs,验证了该方法的有效性。
➡️ 实验设计:实验在三个多模态指令跟随基准数据集上进行,包括MULTIINSTRUCT、InstructBLIP和MMMU。实验设计了不同的指令生成方法(如直接提示和引导生成),以及不同的采样策略(如原始指令和生成指令的混合比例),以全面评估模型在不同条件下的表现。实验结果表明,使用INSTREXP扩展的数据集可以显著提高MLLMs的性能,甚至接近于使用10倍数据量的微调效果。
Visual Hallucinations of Multi-modal Large Language Models
➡️ 论文标题:Visual Hallucinations of Multi-modal Large Language Models
➡️ 论文作者:Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong
➡️ 研究机构: 中国科学技术大学、杜克大学、香港大学
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉问答任务中经常产生视觉幻觉(VH),即模型生成的文本响应中包含关于图像的错误细节。现有研究主要在现有的图像数据集中发现VH实例,这导致对MLLMs在VH情况下的性能理解存在偏差,因为这些数据集的多样性有限。
➡️ 研究动机:为了更全面地理解和评估MLLMs的视觉幻觉问题,研究团队开发了一种工具VHTest,用于生成多样化的VH实例。通过这种方法,研究团队旨在提供一个更全面的基准数据集,以评估和改进MLLMs在视觉幻觉方面的性能。
➡️ 方法简介:VHTest通过三个关键步骤生成VH实例:1) 在现有图像数据集中找到初始VH实例;2) 生成描述VH模式的文本描述;3) 使用文本到图像生成模型生成新的VH图像。研究团队还设计了问题和参考答案,以构建完整的VH实例。
➡️ 实验设计:研究团队在COCO数据集上进行了实验,生成了1,200个VH实例,涵盖了8种VH模式(存在、形状、颜色、方向、OCR、大小、位置和计数)。实验评估了GPT-4V、LLaVA-1.5和MiniGPT-v2在这些VH实例上的表现,结果显示这些模型在许多VH模式下都存在显著的幻觉问题。此外,研究团队还发现,使用VHTest生成的基准数据集对MLLMs进行微调可以减少其幻觉倾向,而不会牺牲其在其他基准数据集上的性能。
DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models
➡️ 论文标题:DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models
➡️ 论文作者:Yuhang Cao, Pan Zhang, Xiaoyi Dong, Dahua Lin, Jiaqi Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shanghai AI Laboratory
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在处理视觉-语言任务时,通常只关注预定义分辨率的输入,这导致了在回答涉及局部区域的详细问题时的不足。例如,MiniGPT-4和LLaVA等模型依赖于固定的小分辨率图像,这简化了处理但限制了模型识别微细节的能力。相反,高分辨率模型如Monkey和OtterHD虽然能够处理精细的视觉分析,但引入了过多的无关细节,使得在需要全局理解的任务中表现不佳。
➡️ 研究动机:为了克服现有MLLMs在处理局部细节和全局理解之间的矛盾,研究团队提出了DualFocus机制,旨在通过模仿人类认知过程,首先分析整个图像以获取宏观上下文,然后识别并放大重要子区域进行详细检查,从而提高模型在视觉-语言任务中的表现。
➡️ 方法简介:研究团队通过构建一个基于Visual Genome(VG)的定制数据集,来训练MLLMs识别和放大图像中的重要子区域。在训练阶段,模型学习从宏观视角识别重要区域,并通过放大这些区域来获取详细信息。在推理阶段,模型通过宏观和微观两个路径生成答案,并通过困惑度(Perplexity, PPL)选择最合适的答案。
➡️ 实验设计:研究团队使用LLaVA 1.5和Qwen-VL-Chat作为基线模型,进行了不同模型大小(7B和13B参数)和多个基准测试(包括SEED、MMBench、TextVQA和GQA)的比较实验。实验结果表明,DualFocus机制显著提高了模型在各种视觉-语言任务中的表现,特别是在需要详细理解的任务中。此外,DualFocus还减少了模型在POPE基准测试中的幻觉现象,进一步证明了其在保持平衡视角方面的有效性。
MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
➡️ 论文标题:MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
➡️ 论文作者:Jiaqi Li, Miaozeng Du, Chuanyi Zhang, Yongrui Chen, Nan Hu, Guilin Qi, Haiyun Jiang, Siyuan Cheng, Bozhong Tian
➡️ 研究机构: HKUST (GZ)、BJUT、Drexel University、University of Oxford
➡️ 问题背景:多模态知识编辑(Multimodal Knowledge Editing, MKE)是增强多模态大语言模型(Multimodal Large Language Models, MLLMs)能力的关键进展。尽管其潜力巨大,但现有的基准测试主要集中在粗粒度知识上,而细粒度(Fine-Grained, FG)多模态实体知识的复杂性尚未得到充分探索。这一差距在实际部署和提高MLLMs的有效性方面构成了显著挑战,因为FG实体识别对于多模态场景中的精确信息传递至关重要。
➡️ 研究动机:现有的研究和基准测试主要关注粗粒度知识,这在实际应用中往往无法准确表示现实世界的FG实体和场景。为了填补这一空白,研究团队提出了一个全面的基准测试和数据集MIKE,专门用于评估FG多模态实体知识编辑。通过MIKE,研究团队旨在揭示当前最先进的方法在处理FG知识编辑时面临的重大挑战,并为未来的研究和发展提供明确的方向。
➡️ 方法简介:研究团队设计了三个具有挑战性的任务来测试多模态知识编辑方法:Vanilla Name Answering(VNA)、Entity-Level Caption(ELC)和Complex-Scenario Recognition(CSR)。此外,还提出了一种多步骤编辑(Multi-Step Editing)形式,通过编辑2-4个FG实体图像来评估MLLMs的编辑效率。研究团队使用EasyEdit工具包评估了多种知识编辑方法在MIKE上的表现。
➡️ 实验设计:实验在两个MLLMs(BLIP-2和MiniGPT-4)上进行,使用了EasyEdit工具包中的多种多模态知识编辑方法。实验设计了不同的任务和评估指标,包括Reliability、Generality和Locality,以全面评估模型在不同条件下的表现。实验结果表明,每种编辑方法都有其特定的局限性,其中Entity-Level Caption任务对当前编辑方法最具挑战性。