
Guiding Instruction-based Image Editing via Multimodal Large Language Models
➡️ 论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models
➡️ 论文作者:Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan
➡️ 研究机构: UC Santa Barbara, Apple
➡️ 问题背景:基于指令的图像编辑通过自然命令提高了图像操作的可控性和灵活性,无需复杂的描述或区域掩码。然而,人类指令有时过于简短,难以被当前方法捕捉和遵循。多模态大型语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面展现出显著的能力。研究团队探讨了如何利用MLLMs来增强编辑指令,并提出了MLLM-Guided Image Editing (MGIE)。
➡️ 研究动机:现有的基于指令的图像编辑方法在处理简短且模糊的人类指令时存在不足。为了改善这一问题,研究团队引入了MGIE,该方法通过学习生成表达性指令来提供明确的视觉相关指导,从而提高图像编辑的性能。
➡️ 方法简介:MGIE结合了MLLM和扩散模型。MLLM学习生成简洁的表达性指令,提供明确的视觉相关指导;扩散模型则通过端到端训练,利用这些指令的潜在视觉想象来执行图像编辑。研究团队通过构建IPr2Pr数据集来预训练MGIE,并在多个数据集上进行了实验,评估了MGIE在不同编辑任务中的表现。
➡️ 实验设计:研究团队在四个数据集上进行了实验,包括EVR、GIER、MA5k和MagicBrush,涵盖了Photoshop风格的修改、全局照片优化和局部编辑。实验设计了不同的评估指标,如L1距离、DINO视觉相似度、CVS视觉相似度、SSIM和LPIPS,以全面评估MGIE在不同任务中的性能。实验结果表明,MGIE在自动评估指标和人工评估中均表现出显著的性能提升,同时保持了高效的推理速度。
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs
➡️ 论文标题:Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs
➡️ 论文作者:Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang
➡️ 研究机构: 北京大学、蚂蚁集团
➡️ 问题背景:多模态大语言模型(MLLMs)在多种多模态任务中展现了卓越的能力,但在细粒度图像理解任务中仍存在局限性。这种局限性限制了MLLMs在多模态任务中的性能和潜在应用。
➡️ 研究动机:为了提高MLLMs的细粒度图像理解能力,研究团队提出了一种新的框架,通过增强指令调优数据集和调整视觉编码器,来提升模型在细粒度图像理解任务中的表现。
➡️ 方法简介:研究团队设计了一种新的数据集构建管道,将现有数据集的注释扩展到各种参照理解(RC)任务,包括视觉关系推理、粗略视觉空间推理、对象计数和对象检测。此外,引入了一种自一致引导方法,将密集对象注释扩展为指称表达-边界框对,以生成高质量的指令调优数据。
➡️ 实验设计:实验在多个公开数据集上进行,包括视觉-语言任务(如GQA、RefCOCO)和参照理解任务。实验设计了不同的任务类型,以全面评估模型在细粒度图像理解任务中的表现。实验结果表明,该方法在多个任务上显著提升了模型的性能,例如在OK-VQA任务上,Pink模型相比Shikra模型的准确率提高了6.0%。
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants
➡️ 论文标题:Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants
➡️ 论文作者:Tianyu Yu, Jinyi Hu, Yuan Yao, Haoye Zhang, Yue Zhao, Chongyi Wang, Shan Wang, Yinxv Pan, Jiao Xue, Dahai Li, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun
➡️ 研究机构: Tsinghua University、Beijing University of Posts and Telecommunications、Zhihu Inc.、ModelBest Inc.
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在感知图像和遵循开放指令方面表现出色。然而,这些模型的性能依赖于两个关键因素:模型架构以促进视觉模块和大语言模型之间的特征对齐;多模态指令调优数据集以实现人类指令的遵循。现有的MLLMs在模型架构和数据集构建方面存在局限性,限制了模型的学习能力和计算效率。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队提出了Muffin框架和UniMM-Chat数据集。Muffin框架通过直接利用预训练的视觉-语言模型(VLMs)作为视觉和语言之间的桥梁,避免了额外的特征对齐预训练过程。UniMM-Chat数据集则通过合并不同数据集的注释,生成高质量、多样化的多模态指令,以增强模型的知识密集度和生成能力。
➡️ 方法简介:Muffin框架通过引入一组可训练的查询向量,直接利用预训练的VLMs来提取视觉特征,并将其转换为预训练大语言模型的嵌入空间。UniMM-Chat数据集通过要求ChatGPT基于合并的注释生成多轮对话,构建了超过1.1M的高质量多模态指令。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括UniMM-Bench和LLaVA测试集。实验评估了Muffin在视觉问答、复杂推理和详细描述等任务上的性能,并与多个现有模型进行了比较。实验结果表明,Muffin在多个任务上均达到了最先进的性能,显著超越了其他模型。此外,还进行了人类评估,进一步验证了Muffin的优越性。
Comics for Everyone: Generating Accessible Text Descriptions for Comic Strips
➡️ 论文标题:Comics for Everyone: Generating Accessible Text Descriptions for Comic Strips
➡️ 论文作者:Reshma Ramaprasad
➡️ 研究机构: Microsoft Research
➡️ 问题背景:漫画是一种流行的视觉叙事形式,能够传达幽默、情感和信息。然而,漫画对于视障(BLV)社区来说是不可访问的,因为他们无法感知漫画的图像、布局和文字。为了使漫画对视障社区更加友好,研究团队致力于生成自然语言描述,以帮助视障人士通过屏幕阅读软件访问漫画内容。
➡️ 研究动机:尽管漫画是一种广泛受欢迎的媒介,但它们对视障社区来说是不可访问的。为了改善这一状况,研究团队提出了一种基于多模态大语言模型(MLLM)的方法,通过计算机视觉技术提取漫画中的信息,并使用这些信息作为上下文来生成描述。这项研究旨在为视障社区提供更丰富的漫画体验。
➡️ 方法简介:研究团队的方法分为两个步骤:首先,使用计算机视觉技术提取漫画图像中的面板、角色和文字信息;其次,将这些信息作为上下文传递给MLLM,以生成描述。研究团队使用了LLaVA模型作为MLLM,并通过增强提示(enhanced prompt)来提高模型的性能。
➡️ 实验设计:研究团队在60个来自三个流行漫画系列(Dilbert、Garfield和Peanuts)的漫画样本上进行了实验。实验评估了模型在字符和文本检测、字符识别以及最终描述生成方面的性能。实验结果表明,使用增强提示的方法显著提高了描述的质量和相关性。
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model
➡️ 论文标题:DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model
➡️ 论文作者:Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, Hengshuang Zhao
➡️ 研究机构: The University of Hong Kong、Zhejiang University、Huawei Noah's Ark Lab、University of Sydney
➡️ 问题背景:近年来,自动驾驶领域取得了显著进展,但现有的自动驾驶系统多采用模块化设计,包括感知、规划和控制模块,这些模块通常基于详细的规则方法来处理各种场景。然而,当遇到未见过的情况时,这些系统可能会失败。为了提高自动驾驶系统的智能性和适应性,数据驱动的学习方法逐渐成为主流。然而,端到端的自动驾驶系统通常被视为黑箱,缺乏可解释性,这限制了其在商业应用中的信任度和普及度。
➡️ 研究动机:现有的研究虽然尝试通过可视化和语言模型来提高自动驾驶系统的可解释性,但这些方法通常受限于小型语言模型的容量,只能处理预定义的问题,提供僵化的回答。大型语言模型(LLMs)的出现为解决这一问题提供了新的可能。LLMs具有丰富的世界知识和推理能力,可以更好地处理多模态数据,如图像和视频。因此,研究团队开发了DriveGPT4,旨在利用LLMs实现可解释的端到端自动驾驶系统。
➡️ 方法简介:研究团队提出了DriveGPT4,这是一个基于大型语言模型的可解释端到端自动驾驶系统。DriveGPT4能够处理多帧视频输入和文本查询,生成自然语言解释和低级别的车辆控制信号。为了训练DriveGPT4,研究团队基于BDD-X数据集创建了一个视觉指令调优数据集,并使用ChatGPT生成了更多的对话数据,以增强模型的多样性和灵活性。
➡️ 实验设计:研究团队在BDD-X数据集上进行了实验,评估了DriveGPT4在多个任务上的表现,包括车辆动作描述、动作理由解释和控制信号预测。实验设计了不同难度的场景,包括简单场景(如直行)、中等难度场景(如变道、加速、交叉口)和复杂场景(如车辆转弯、交通灯变化)。评估指标包括CIDEr、BLEU4和ROUGE-L,这些指标广泛用于自然语言处理领域,能够全面评估模型的性能。实验结果表明,DriveGPT4在所有任务上均优于基线方法,展示了其在可解释端到端自动驾驶中的有效性和优越性。