多模态大语言模型arxiv论文略读(105)

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

➡️ 论文标题:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

➡️ 论文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang

➡️ 研究机构: ByteDance Inc, Fudan University, University of Science and Technology of China

➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但这些模型通常针对特定任务进行训练,依赖于特定的输入-输出格式,限制了它们在更广泛任务中的应用。这引发了如何开发一种统一的方法来表示和处理不同多模态任务,以最大化MLLMs的通用性的问题。

➡️ 研究动机:现有的多模态大语言模型虽然在特定任务上表现出色,但缺乏处理多种任务的通用性和理解人类意图的能力。为了克服这些限制,研究团队提出了UnifiedMLLM,旨在通过引入任务令牌和定位令牌,实现不同任务的统一表示,从而增强模型的通用性和任务处理能力。

➡️ 方法简介:UnifiedMLLM通过构建任务特定数据集和多任务数据集,采用三阶段训练策略,逐步提升模型的感知理解、任务理解和完成能力。模型结构包括多模态编码器、适配器、统一表示层、任务路由器和专家模型集成。通过这种方式,模型能够理解用户指令的隐含意图,并生成文本响应、任务令牌和定位令牌,指导后续任务的执行。

➡️ 实验设计:实验在多个公开数据集上进行,包括参考分割任务(RefCOCO, RefCOCO+, RefCOCOg)和图像推理编辑任务。实验评估了模型在不同任务中的性能,特别是在复杂场景下的任务理解和完成能力。实验结果表明,UnifiedMLLM在多个任务中表现出色,超越了现有的方法。

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文标题:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao

➡️ 研究机构: Shanghai Jiao Tong University, Meta

➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在图形用户界面(GUI)环境中展现了显著的潜力,能够执行复杂的交互任务。然而,这些模型在面对环境中的干扰内容时,是否能够保持对用户目标的忠诚度,仍是一个开放的问题。研究发现,环境中的干扰内容(如广告、弹窗等)可能会导致GUI代理偏离用户目标,执行不相关的操作,甚至表现出不受控制的行为。

➡️ 研究动机:尽管现有研究主要关注多模态代理的有用性(即行动准确性),但本研究旨在探讨这些代理在面对环境干扰时的忠诚度问题。研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。

➡️ 方法简介:研究团队定义了环境干扰问题,并提出了三种行动类型:正确行动、干扰行动和无效行动。通过构建包含四种常见干扰场景(弹窗、搜索、推荐和聊天)的模拟数据集,研究团队评估了不同MLLMs在干扰环境中的表现。实验设计了三种工作模式,分别对应不同的环境感知水平,以全面评估代理在不同条件下的表现。

➡️ 实验设计:实验在10个流行的MLLMs上进行,包括通用代理和专门的GUI代理。实验结果表明,无论是通用代理还是专门的GUI代理,都容易受到环境干扰的影响。研究团队进一步提出了环境注入的对抗性设置,证明了通过利用这些干扰,可以对代理进行攻击,导致其行为偏离用户目标。

Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文标题:Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman

➡️ 研究机构: University of Bern, Bern, Switzerland

➡️ 问题背景:医疗视觉问答(Med-VQA)近年来迅速发展,多模态大语言模型(MLLMs)因其能够将视觉信息融入预训练的语言模型中,为图像解释带来了新的能力。然而,简单的视觉错误引发了对这些模型实际视觉理解能力的质疑。为了评估和增强模型的视觉理解能力,研究提出了基于区域的问题(Region-based Questions),通过组合评估来实现。

➡️ 研究动机:尽管MLLMs在Med-VQA中表现出色,但其视觉理解能力的不足仍然存在。为了检测这些视觉理解失败并提高模型的解释性,研究团队引入了目标视觉提示(Targeted Visual Prompting),旨在通过提供区域及其上下文的定制视觉提示,增强MLLMs处理局部问题的能力。

➡️ 方法简介:研究团队提出了一种新的方法,通过设计包含全局和局部视觉标记的定制视觉提示,使模型能够从两个角度编码图像:仅包含图像区域的视角和包含区域上下文的视角。该方法允许模型在不增加额外参数的情况下,提高VQA任务的性能。

➡️ 实验设计:研究在三个公开数据集上进行了实验,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。实验设计了多种基线方法,包括不使用区域信息、在问题中指定区域、在图像上标记区域、仅提供上下文、仅提供裁剪区域以及使用二值图像表示区域的方法。实验结果表明,目标视觉提示方法在所有数据集上均优于其他基线方法,特别是在处理局部问题时表现尤为突出。

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

➡️ 论文标题:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

➡️ 论文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

➡️ 研究机构: Harvard University, Bytedance

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种数据类型(如图像、文本和音频)上取得了显著的性能,广泛应用于多模态翻译、视觉问答和内容生成等领域。然而,现有的分布式训练系统在训练MLLMs时效率低下,主要原因是异构模态模型和3D并行中的复杂数据依赖导致了大量GPU空闲时间(bubbles)。

➡️ 研究动机:现有的优化方法主要针对单模态模型,未能有效解决MLLMs训练中的GPU空闲问题。研究团队通过分析大规模MLLMs训练任务,发现超过48%的GPU周期被浪费。为了提高训练效率,研究团队提出了Optimus系统,通过在LLM空闲时间内调度编码器计算,减少GPU空闲时间,从而加速MLLMs的训练。

➡️ 方法简介:Optimus系统通过以下核心设计决策来实现高效训练:

  1. 编码器和LLM的独立并行计划:每个GPU同时持有编码器和LLM的模型状态,确保所有GPU都能在LLM空闲时间内执行编码器计算。
  2. 双阶段依赖管理:通过局部调度和全局排序来处理MLLM训练中的复杂依赖关系,确保编码器和LLM之间的微批次级依赖。
  3. 内核级调度 :将编码器层分解为内核,利用亚毫秒级的空闲时间,同时在LLM计算期间调度编码器通信内核,以减少迭代时间。
    ➡️ 实验设计:研究团队在多个代表性的MLLM模型上进行了实验,包括ViT-22B和GPT-175B模型,使用超过3072个GPU。实验结果表明,Optimus系统在训练过程中平均加速了20.3%,在生产集群中加速了20.5%-21.3%。实验还验证了Optimus在不同模型规模和GPU数量下的良好扩展性。

NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文标题:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao

➡️ 研究机构: 东南大学、密歇根州立大学

➡️ 问题背景:多语言大型语言模型(MLLMs)在非主导语言中的表现不如在主导语言中。尽管现有的翻译-回答方法在一定程度上缓解了这一问题,但其背后的机制尚不明确。研究发现,这些方法虽然提供了足够的语言触发(LTs),但在领域触发(DTs)的保留上存在不足。

➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法------原生语言提示(NatLan),以改善非主导语言问答中的知识提取。

➡️ 方法简介:研究团队提出了NatLan,采用多MLLM协作策略,引入了一个增强角色的领域特定MLLM作为翻译者,以提供足够的LTs并最大限度地保留DTs。NatLan通过构建领域特定的角色指令和少量示例(5-shot)来注入领域特定的上下文,从而实现个体增强和联合增强。

➡️ 实验设计:研究在五个非主导语言问答基准上进行了实验,包括多语言MMLU(MMMLU)和C-Eval中文基准。实验设计了不同语言(如阿拉伯语、中文、法语、德语和日语)的问答任务,以评估NatLan在不同条件下的表现。实验结果表明,NatLan在DTs保留和准确性方面均优于现有的顶级方法。

相关推荐
赛卡21 分钟前
汽车安全:功能安全FuSa、预期功能安全SOTIF与网络安全Cybersecurity 解析
人工智能·安全·网络安全·车载系统·自动驾驶·汽车
layneyao29 分钟前
RPA+AI:自动化办公机器人开发指南
人工智能·自动化·rpa
Ama_tor2 小时前
14.AI搭建preparationのBERT预训练模型进行文本分类
人工智能·深度学习·bert
QQ676580082 小时前
基于 PyTorch 的 VGG16 深度学习人脸识别检测系统的实现+ui界面
人工智能·pytorch·python·深度学习·ui·人脸识别
张较瘦_2 小时前
[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
论文阅读·人工智能·语言模型
Blossom.1182 小时前
量子通信:从科幻走向现实的未来通信技术
人工智能·深度学习·目标检测·机器学习·计算机视觉·语音识别·量子计算
平凡灵感码头2 小时前
OpenAI 即将推出 GPT-5:开启多模态、持续记忆对话新时代
人工智能·gpt
软件测试小仙女2 小时前
鸿蒙APP测试实战:从HDC命令到专项测试
大数据·软件测试·数据库·人工智能·测试工具·华为·harmonyos
三花AI3 小时前
ComfyUI 子工作流功能:一次编辑全局更新
人工智能
大模型铲屎官3 小时前
【深度学习-Day 23】框架实战:模型训练与评估核心环节详解 (MNIST实战)
人工智能·pytorch·python·深度学习·大模型·llm·mnist