多模态大语言模型arxiv论文略读（105）

➡️ 论文标题：UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

➡️ 论文作者：Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang

➡️ 研究机构: ByteDance Inc, Fudan University, University of Science and Technology of China

➡️ 问题背景：多模态大语言模型（MLLMs）在多种任务中展现了卓越的能力，但这些模型通常针对特定任务进行训练，依赖于特定的输入-输出格式，限制了它们在更广泛任务中的应用。这引发了如何开发一种统一的方法来表示和处理不同多模态任务，以最大化MLLMs的通用性的问题。

➡️ 研究动机：现有的多模态大语言模型虽然在特定任务上表现出色，但缺乏处理多种任务的通用性和理解人类意图的能力。为了克服这些限制，研究团队提出了UnifiedMLLM，旨在通过引入任务令牌和定位令牌，实现不同任务的统一表示，从而增强模型的通用性和任务处理能力。

➡️ 方法简介：UnifiedMLLM通过构建任务特定数据集和多任务数据集，采用三阶段训练策略，逐步提升模型的感知理解、任务理解和完成能力。模型结构包括多模态编码器、适配器、统一表示层、任务路由器和专家模型集成。通过这种方式，模型能够理解用户指令的隐含意图，并生成文本响应、任务令牌和定位令牌，指导后续任务的执行。

➡️ 实验设计：实验在多个公开数据集上进行，包括参考分割任务（RefCOCO, RefCOCO+, RefCOCOg）和图像推理编辑任务。实验评估了模型在不同任务中的性能，特别是在复杂场景下的任务理解和完成能力。实验结果表明，UnifiedMLLM在多个任务中表现出色，超越了现有的方法。

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文标题：Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文作者：Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao

➡️ 研究机构: Shanghai Jiao Tong University, Meta

➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在图形用户界面（GUI）环境中展现了显著的潜力，能够执行复杂的交互任务。然而，这些模型在面对环境中的干扰内容时，是否能够保持对用户目标的忠诚度，仍是一个开放的问题。研究发现，环境中的干扰内容（如广告、弹窗等）可能会导致GUI代理偏离用户目标，执行不相关的操作，甚至表现出不受控制的行为。

➡️ 研究动机：尽管现有研究主要关注多模态代理的有用性（即行动准确性），但本研究旨在探讨这些代理在面对环境干扰时的忠诚度问题。研究团队通过构建模拟数据集，评估了不同MLLMs在干扰环境中的表现，揭示了代理在面对干扰时的脆弱性，并提出了环境注入的对抗性设置，展示了这些干扰可以被恶意利用，导致不可预测的风险。

➡️ 方法简介：研究团队定义了环境干扰问题，并提出了三种行动类型：正确行动、干扰行动和无效行动。通过构建包含四种常见干扰场景（弹窗、搜索、推荐和聊天）的模拟数据集，研究团队评估了不同MLLMs在干扰环境中的表现。实验设计了三种工作模式，分别对应不同的环境感知水平，以全面评估代理在不同条件下的表现。

➡️ 实验设计：实验在10个流行的MLLMs上进行，包括通用代理和专门的GUI代理。实验结果表明，无论是通用代理还是专门的GUI代理，都容易受到环境干扰的影响。研究团队进一步提出了环境注入的对抗性设置，证明了通过利用这些干扰，可以对代理进行攻击，导致其行为偏离用户目标。

Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文标题：Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文作者：Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman

➡️ 研究机构: University of Bern, Bern, Switzerland

➡️ 问题背景：医疗视觉问答（Med-VQA）近年来迅速发展，多模态大语言模型（MLLMs）因其能够将视觉信息融入预训练的语言模型中，为图像解释带来了新的能力。然而，简单的视觉错误引发了对这些模型实际视觉理解能力的质疑。为了评估和增强模型的视觉理解能力，研究提出了基于区域的问题（Region-based Questions），通过组合评估来实现。

➡️ 研究动机：尽管MLLMs在Med-VQA中表现出色，但其视觉理解能力的不足仍然存在。为了检测这些视觉理解失败并提高模型的解释性，研究团队引入了目标视觉提示（Targeted Visual Prompting），旨在通过提供区域及其上下文的定制视觉提示，增强MLLMs处理局部问题的能力。

➡️ 方法简介：研究团队提出了一种新的方法，通过设计包含全局和局部视觉标记的定制视觉提示，使模型能够从两个角度编码图像：仅包含图像区域的视角和包含区域上下文的视角。该方法允许模型在不增加额外参数的情况下，提高VQA任务的性能。

➡️ 实验设计：研究在三个公开数据集上进行了实验，包括DME-VQA、RIS-VQA和INSEGCAT-VQA。实验设计了多种基线方法，包括不使用区域信息、在问题中指定区域、在图像上标记区域、仅提供上下文、仅提供裁剪区域以及使用二值图像表示区域的方法。实验结果表明，目标视觉提示方法在所有数据集上均优于其他基线方法，特别是在处理局部问题时表现尤为突出。

➡️ 论文标题：Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

➡️ 论文作者：Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

➡️ 研究机构: Harvard University, Bytedance

➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种数据类型（如图像、文本和音频）上取得了显著的性能，广泛应用于多模态翻译、视觉问答和内容生成等领域。然而，现有的分布式训练系统在训练MLLMs时效率低下，主要原因是异构模态模型和3D并行中的复杂数据依赖导致了大量GPU空闲时间（bubbles）。

➡️ 研究动机：现有的优化方法主要针对单模态模型，未能有效解决MLLMs训练中的GPU空闲问题。研究团队通过分析大规模MLLMs训练任务，发现超过48%的GPU周期被浪费。为了提高训练效率，研究团队提出了Optimus系统，通过在LLM空闲时间内调度编码器计算，减少GPU空闲时间，从而加速MLLMs的训练。

➡️ 方法简介：Optimus系统通过以下核心设计决策来实现高效训练：

编码器和LLM的独立并行计划：每个GPU同时持有编码器和LLM的模型状态，确保所有GPU都能在LLM空闲时间内执行编码器计算。
双阶段依赖管理：通过局部调度和全局排序来处理MLLM训练中的复杂依赖关系，确保编码器和LLM之间的微批次级依赖。
内核级调度 ：将编码器层分解为内核，利用亚毫秒级的空闲时间，同时在LLM计算期间调度编码器通信内核，以减少迭代时间。
➡️ 实验设计：研究团队在多个代表性的MLLM模型上进行了实验，包括ViT-22B和GPT-175B模型，使用超过3072个GPU。实验结果表明，Optimus系统在训练过程中平均加速了20.3%，在生产集群中加速了20.5%-21.3%。实验还验证了Optimus在不同模型规模和GPU数量下的良好扩展性。

NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文标题：NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文作者：Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao

➡️ 研究机构: 东南大学、密歇根州立大学

➡️ 问题背景：多语言大型语言模型（MLLMs）在非主导语言中的表现不如在主导语言中。尽管现有的翻译-回答方法在一定程度上缓解了这一问题，但其背后的机制尚不明确。研究发现，这些方法虽然提供了足够的语言触发（LTs），但在领域触发（DTs）的保留上存在不足。

➡️ 研究动机：为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响，研究团队通过类比人类认知过程中的语言触发（LTs）和领域触发（DTs），分析了现有方法的局限性，并提出了一种新的方法------原生语言提示（NatLan），以改善非主导语言问答中的知识提取。

➡️ 方法简介：研究团队提出了NatLan，采用多MLLM协作策略，引入了一个增强角色的领域特定MLLM作为翻译者，以提供足够的LTs并最大限度地保留DTs。NatLan通过构建领域特定的角色指令和少量示例（5-shot）来注入领域特定的上下文，从而实现个体增强和联合增强。

➡️ 实验设计：研究在五个非主导语言问答基准上进行了实验，包括多语言MMLU（MMMLU）和C-Eval中文基准。实验设计了不同语言（如阿拉伯语、中文、法语、德语和日语）的问答任务，以评估NatLan在不同条件下的表现。实验结果表明，NatLan在DTs保留和准确性方面均优于现有的顶级方法。