多模态大语言模型arxiv论文略读（四十四）

adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

➡️ 论文标题：adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

➡️ 论文作者：Séamus Lankford, Haithem Afli, Andy Way

➡️ 研究机构: ADAPT Centre, School of Computing, Dublin City University, Munster Technological University

➡️ 问题背景：尽管多语言语言模型（MLLMs）和大型语言模型（LLMs）在自然语言处理领域带来了许多创新，但它们在低资源语言的高质量机器翻译（MT）中的应用仍相对较少探索。此外，目前缺乏一个开源的应用程序，能够同时进行MLLMs的微调和管理完整的MT工作流程，特别是在低资源语言方面。

➡️ 研究动机：为了解决上述不平衡，研究团队开发了adaptMLLM，这是一个开源应用程序，旨在简化MLLMs在机器翻译中的微调过程，特别是针对低资源语言对。该应用不仅为开发者、翻译人员和用户提供了一个直观的界面，还提供了模型评估和部署的功能。

➡️ 方法简介：研究团队提出了一种系统的方法，通过构建adaptMLLM平台，来评估和优化MLLMs在低资源语言对上的翻译性能。该平台包括环境设置、数据准备、模型微调、评估和部署等模块，旨在为用户提供一个全面的解决方案。

➡️ 实验设计：研究团队在两个低资源语言对（英语-爱尔兰语和英语-马拉地语）上进行了实验，使用了LoResMT2021共享任务的数据集。实验设计了不同的超参数调整，并通过BLEU分数和人类评估来全面评估模型的翻译性能。实验结果显示，adaptMLLM在这些语言对上显著提高了翻译质量，特别是在爱尔兰语-英语方向上，BLEU分数提高了40.5分，相对提高了117%。

➡️ 论文标题：Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

➡️ 论文作者：Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, Xuansong Xie

➡️ 研究机构: Dalian University of Technology、DAMO Academy, Alibaba Group

➡️ 问题背景：多模态大语言模型（MLLMs）通过结合大型语言模型（LLMs）和视觉感知模块，已经在多种视觉-语言任务中展现出强大的能力。然而，现有的MLLMs在提供细粒度像素级感知和扩展交互方式方面仍存在不足，尤其是在处理非文本特定输入时。

➡️ 研究动机：为了克服现有MLLMs在细粒度视觉感知和多模态交互方面的限制，研究团队提出了一种新的多模态指令调优LLM------AnyRef，该模型能够生成像素级对象感知和区域感知的自然语言描述，支持文本、边界框、图像和音频等多种模态的参考。

➡️ 方法简介：研究团队设计了一种统一的多模态参考表示方法，将不同模态的输入映射到LLM的词汇空间中，通过引入特殊的标记和重新聚焦机制，增强了模型的像素级感知能力。重新聚焦机制利用注意力分数来增强掩码嵌入，从而提高模型的区域理解能力。

➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括多模态引用分割和区域级引用表达生成任务。实验结果表明，AnyRef在多种任务上均达到了最先进的性能，特别是在多模态引用分割任务中，其性能超过了现有的通用模型和大多数专业模型。

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

➡️ 论文标题：Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

➡️ 论文作者：Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

➡️ 研究机构: 厦门大学、鹏城实验室、中国教育部多媒体可信感知与高效计算重点实验室、厦门大学人工智能研究院

➡️ 问题背景：尽管多模态大语言模型（MLLMs）取得了显著进展，但在细粒度视觉识别任务中仍表现不佳。研究发现，结合低分辨率和高分辨率视觉特征可以有效缓解这一问题。基于此观察，研究团队提出了一种新的高效方法，即混合分辨率适应（MRA）。

➡️ 研究动机：现有的多模态大语言模型在处理细粒度视觉任务时存在不足，如识别小物体和遮挡物体时出现幻觉。为了提高这些模型的视觉识别能力，研究团队提出了一种新的方法，通过混合分辨率适应（MRA）来结合低分辨率和高分辨率图像的优势，同时保持训练和推理的高效性。

➡️ 方法简介：研究团队提出了一种双视觉路径设计，其中一个路径用于编码低分辨率图像的全局信息，另一个路径用于捕捉高分辨率图像的细粒度语义。这两个路径通过混合分辨率适配器（MR-Adapter）紧密交互，将高分辨率信息嵌入低分辨率路径中，从而减少视觉令牌的数量，提高模型的视觉描述能力。

➡️ 实验设计：研究团队将MRA应用于现有的多模态大语言模型LLaVA，构建了新的模型LLaVA-HR。实验在11个视觉-语言任务上进行了广泛的测试，包括常见的VQA2.0和新兴的POPE等基准。实验结果表明，LLaVA-HR在8个任务上优于现有的多模态大语言模型，特别是在TextVQA任务上，性能提升了9.4%。此外，LLaVA-HR的训练和推理成本也显著降低，例如，训练时间仅为20小时，推理速度比LLaVA-1.5快3倍。

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

➡️ 论文标题：SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

➡️ 论文作者：Peng Qi, Zehong Yan, Wynne Hsu, Mong Li Lee

➡️ 研究机构: National University of Singapore

➡️ 问题背景：当前的多模态生成模型在检测和解释虚假信息方面存在不足，尤其是在处理图像被错误使用在不同新闻背景中的情况（即Out-of-Context, OOC）时。这种类型的虚假信息通过将真实的图像与错误的文本结合，误导观众，而现有的检测方法往往缺乏对这些判断的合理解释。

➡️ 研究动机：为了提高对OOC虚假信息的检测准确性和解释能力，研究团队开发了SNIFFER，一个专门设计用于检测和解释OOC虚假信息的多模态大型语言模型。SNIFFER通过两阶段的指令调优，增强了模型在新闻领域的适应性和对OOC虚假信息的识别能力。

➡️ 方法简介：SNIFFER基于InstructBLIP进行两阶段的指令调优。第一阶段通过新闻领域的图像描述数据，调整模型对通用对象与新闻领域实体的概念对齐。第二阶段利用GPT-4生成的OOC特定指令数据，进一步调优模型的判别能力。此外，SNIFFER通过外部工具和检索增强，结合内部和外部验证方法，提供更全面的检测和解释。

➡️ 实验设计：实验在NewsCLIPpings数据集上进行，该数据集包含大量的图像-文本对，其中部分图像被错误地用于不同的新闻背景中。实验评估了SNIFFER在检测OOC虚假信息和生成解释方面的性能，包括内部和外部验证的准确性，以及在不同训练样本量下的早期检测能力。实验结果表明，SNIFFER在检测性能上显著优于现有的多模态大型语言模型和其他最先进的方法，并且能够提供准确和有说服力的解释。

Multimodal Large Language Models to Support Real-World Fact-Checking

➡️ 论文标题：Multimodal Large Language Models to Support Real-World Fact-Checking

➡️ 论文作者：Jiahui Geng, Yova Kementchedjhieva, Preslav Nakov, Iryna Gurevych

➡️ 研究机构: Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)

➡️ 问题背景：虚假信息，尤其是结合误导性图像的虚假信息，对现实世界构成了严重威胁。多模态大型语言模型（Multimodal Large Language Models, MLLMs）结合了图像理解和语言模型的丰富知识与解释能力，成为人类处理大量信息的工具。然而，这些模型在辅助事实核查方面的能力和局限性尚未得到充分研究。

➡️ 研究动机：为了填补这一研究空白，研究团队提出了一种系统框架，旨在评估当前多模态模型在辅助现实世界事实核查中的能力。该框架不依赖外部证据，而是利用模型的内在知识和推理能力，通过设计提示来提取模型的预测、解释和置信度水平，从而对模型的准确性、偏差等关键因素进行详细分析。

➡️ 方法简介：研究团队构建了一个评估框架，包括数据集、提示和评估指标。该框架用于回答研究问题，如MLLMs在识别多模态虚假信息方面的表现如何，如何有效提升模型的事实核查能力，以及MLLMs作为多模态事实核查工具的典型错误有哪些。

➡️ 实验设计：研究在四个数据集上进行了实验，包括Fauxtography、COSMOS、MOCHEG和一个新数据集Post-4V。实验设计了不同的提示方法，如提示集合（Prompt Ensembles, PE）和上下文学习（In-Context Learning, ICL），以评估模型在不同条件下的表现。实验结果表明，GPT-4V在多个数据集上表现出色，准确率超过80%，并能提供有用的解释和良好的校准。而开源模型如MiniGPT和LLaVA在性能上显著落后，但通过PE和ICL方法可以不同程度地提升其表现。