多模态大语言模型arxiv论文略读(149)

Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks?

➡️ 论文标题:Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks?

➡️ 论文作者:Quan Zhang, Yuxin Qi

➡️ 研究机构: Tsinghua University, Beijing, China; Shanghai Jiao Tong University, Shanghai, China

➡️ 问题背景:当前的弱监督时间动作定位(Weakly-Supervised Temporal Action Localization, WTAL)方法在处理视频中的动作定位时,面临不完整定位和过度定位的问题。这些问题导致了动作实例的不准确识别,尤其是在处理长视频时,需要大量的帧级标注,这既昂贵又不切实际。

➡️ 研究动机:为了克服WTAL方法中的不完整定位和过度定位问题,研究团队提出了一种新的学习范式MLLM4WTAL,该范式利用多模态大语言模型(MLLMs)来提供时间动作的关键语义和完整的语义先验,以增强传统的WTAL方法。通过这种方法,研究团队旨在提高WTAL方法的性能,同时避免在推理阶段使用MLLMs带来的高计算开销。

➡️ 方法简介:MLLM4WTAL范式包括两个主要模块:关键语义匹配(Key Semantic Matching, KSM)和完整语义重建(Complete Semantic Reconstruction, CSR)。KSM模块通过匹配视频片段中的关键语义来激活关键的时间动作区间,而CSR模块则通过重建被遮掩的关键动作词的完整语义,来挖掘尽可能完整的动作实例范围。此外,研究团队还提出了一种双先验交互增强优化策略,以实现KSM和CSR模块之间的强协作,从而获得更准确和完整的定位结果。

➡️ 实验设计:研究团队在两个流行的基准数据集THUMOS14和ActivityNet1.2上进行了广泛的实验,验证了所提出方法的有效性。实验结果表明,MLLM4WTAL在这些数据集上实现了最先进的性能,并且可以轻松扩展到现有的最先进方法中,显著提高其性能,而无需在推理阶段引入额外的开销。

Multimodal Instruction Tuning with Hybrid State Space Models

➡️ 论文标题:Multimodal Instruction Tuning with Hybrid State Space Models

➡️ 论文作者:Jianing Zhou, Han Li, Shuai Zhang, Ning Xie, Ruijie Wang, Xiaohan Nie, Sheng Liu, Lingyun Wang

➡️ 研究机构: University of Illinois at Urbana-Champaign, Amazon, Seattle, WA

➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理高分辨率图像和高帧率视频时面临计算资源的挑战。随着图像分辨率和视频帧率的提高,输入序列的长度显著增加,导致计算复杂度急剧上升,尤其是在自注意力机制中。现有的方法要么通过预训练模型来处理长上下文,忽视了效率问题,要么通过降采样(如识别关键图像块或帧)来减少上下文长度,这可能导致信息丢失。

➡️ 研究动机:为了在保持MLLMs高效处理长上下文能力的同时,解决计算资源的挑战,研究团队提出了一种新的混合Transformer-MAMBA模型(MMJAMBA),该模型能够在处理高分辨率图像和高帧率视频时,显著提高推理效率。

➡️ 方法简介:研究团队提出了一种混合Transformer-MAMBA模型,通过结合Transformer和MAMBA层,有效处理长上下文。该模型能够在训练时使用短上下文输入(如低分辨率图像),而在推理时使用长上下文输入(如高分辨率图像),从而在保持高效训练的同时,提高推理性能。此外,研究团队还提出了一种"训练短上下文推理长上下文"(Train-Short-Inference-Long)的策略,进一步优化了模型的效率和性能。

➡️ 实验设计:研究团队在18个基准数据集上进行了实验,涵盖了图像和视频任务。实验结果表明,MMJAMBA在多个基准测试中均优于现有的开源和专有模型,特别是在处理高分辨率图像和高帧率视频时,推理效率提高了约4倍。此外,研究团队还进行了详细的模型分析,包括消融实验和案例研究,以阐明模型的内部机制和实际应用中的表现。

LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

➡️ 论文标题:LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation

➡️ 论文作者:Zhenshi Li, Dilxat Muhtar, Feng Gu, Xueliang Zhang, Pengfeng Xiao, Guangjun He, Xiaoxiang Zhu

➡️ 研究机构: 南京大学、德国慕尼黑工业大学、慕尼黑机器学习中心、中国科学院国家空间科学中心

➡️ 问题背景:遥感图像的解释和多层级特征、对象关系及其动态趋势的理解在城市可持续发展、预警系统和地表过程等应用中发挥着重要作用。人工智能(AI)已经彻底改变了遥感数据的分析,而视觉基础模型的最新进展进一步提高了使用遥感数据解释地球表面的效率和质量。然而,视觉基础模型的一个主要缺点是需要为特定的下游任务进行定制设计,导致功能固定和泛化能力有限。此外,它们缺乏与人类互动的能力,难以完全满足多样化的人类需求。

➡️ 研究动机:语言作为人类交流的主要媒介,在促进与机器的互动中起着根本作用。大型语言模型(LLMs)如ChatGPT展示了卓越的对话能力、逐步推理技能和作为通用任务解决者的能力。为了进一步向人类水平的AI迈进,多模态大型语言模型(MLLMs)增强了LLMs的视觉感知能力,使它们能够"看到"和理解世界。这些模型在理解遥感数据方面已经展示了强大的能力。开发专门用于解释遥感图像的MLLMs具有多个优势,包括统一建模、人机交互、推理能力和增强的多模态任务潜力。然而,当前的研究存在三个主要问题:缺乏高质量的大规模图像-字幕数据集、空间识别能力弱和幻觉倾向、以及全面评估MLLMs的挑战。

➡️ 方法简介:为了解决上述问题,研究团队提出了LHRS-Bot-Nova,这是一种改进的遥感专业MLLM,用于全面解释遥感图像并遵循人类指令。为了增强遥感导向的视觉-语言对齐,研究团队构建了一个大规模的遥感图像-字幕数据集LHRS-Align-Recap,通过特征引导的图像重字幕生成高质量的字幕。此外,研究团队扩展了LHRS-Instruct数据集,增加了更多关注空间识别和鲁棒性的对话,以增强模型的空间意识。研究团队还集成了一个包含丰富负面样本的现成的鲁棒视觉指令数据集,以平衡数据集并减少幻觉的发生。

➡️ 实验设计:研究团队对LHRS-Bot-Nova进行了广泛的评估,不仅在标准的遥感任务如分类、视觉问答和视觉定位上进行了测试,还在一个设计用于全面评估MLLMs在遥感领域表现的多选题评估基准LHRS-Bench上进行了测试。评估结果表明,LHRS-Bot-Nova在各种任务中表现出色,特别是在空间识别能力和减少幻觉方面。

Spider: Any-to-Many Multimodal LLM

➡️ 论文标题:Spider: Any-to-Many Multimodal LLM

➡️ 论文作者:Jinxiang Lai, Jie Zhang, Jun Liu, Jian Li, Xiaocheng Lu, Song Guo

➡️ 研究机构: HKUST、Tencent

➡️ 问题背景:当前的多模态大语言模型(Multimodal LLMs, MLLMs)虽然能够处理多种模态的输入和输出,但它们主要局限于生成成对的模态组合(如"文本+图像")。这种限制导致了用户体验的碎片化,因为用户需要通过多轮对话来获取不同模态的信息。为了克服这一限制,研究团队提出了Spider,一个能够生成任意组合模态的高效框架。

➡️ 研究动机:现有的多模态大语言模型在生成模态组合时,通常只能处理成对的模态(如"文本+图像"),这限制了模型在实际应用中的灵活性和用户体验。为了实现更灵活的多模态生成,研究团队设计了Spider,旨在通过单次响应生成任意组合的模态内容,从而提供更全面和连贯的用户体验。

➡️ 方法简介:Spider框架包括三个核心组件:基础模型(Base Model)、高效解码器控制器(Efficient Decoders-Controller)和多模态指令模板(Any-to-Many Instruction Template)。基础模型负责处理基本的模态转换任务,高效解码器控制器用于调度和控制多个解码器生成多模态内容,多模态指令模板则用于生成多模态信号提示,确保模型能够准确理解并生成所需的多模态内容。

➡️ 实验设计:研究团队构建了一个新的文本格式多模态(Text-formatted Many-Modal, TMM)数据集,用于训练Spider模型。TMM数据集包含三种类型的数据集,用于不同的训练目的,包括T-to-TXs数据集、X-to-TXs数据集和T-to-TXs指令数据集。通过这些数据集,Spider能够学习X-to-Xs能力,即在单次响应中生成任意组合的模态内容。最终,训练好的Spider模型生成了一个新的伪X-to-Xs数据集,这是首个X-to-Xs多模态数据集,为未来的多模态生成任务提供了丰富的数据支持。

Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

➡️ 论文标题:Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

➡️ 论文作者:Chutian Meng, Fan Ma, Jiaxu Miao, Chi Zhang, Yi Yang, Yueting Zhuang

➡️ 研究机构: 浙江大学计算机科学与技术学院

➡️ 问题背景:扩散模型在图像生成领域中发挥了重要作用,但当前评估文本到图像模型(T2I)的方法存在局限性。这些方法主要关注文本输入和图像输出之间的匹配,但由于跨模态信息不对称,导致评估结果不可靠或不完整。为了更准确地评估T2I模型的性能,研究团队提出了图像再生任务(Image Regeneration Task),通过要求模型根据参考图像生成图像来评估其生成能力。

➡️ 研究动机:现有的T2I模型评估方法主要集中在文本输入和图像输出两个模态上,这导致了信息不对称,使得评估变得困难。此外,一个好的生成模型应该在复杂的现实场景中表现良好,而现有的评估方法往往只关注单一属性,缺乏对复杂现实场景的全面评估。基于这些洞察,研究团队提出了图像再生任务,旨在通过模拟人类绘画复制的形式,提供一个自然且合理的T2I模型质量评估方法。

➡️ 方法简介:研究团队提出了一个基于图像再生任务的T2I模型评估框架------ImageRepainter。该框架包括两个阶段:图像理解(Image Understanding)和迭代生成(Iterative Generation)。在图像理解阶段,使用多模态大语言模型(MLLM)生成图像理解树(IUT),以组织图像信息并生成初始文本提示。在迭代生成阶段,通过多次迭代生成、选择图像,并根据反馈修改提示,以生成高质量的图像。

➡️ 实验设计:研究团队在两个基准数据集上进行了实验,分别评估生成图像的内容和风格。实验设计了多个评估指标,包括CLIP分数、DINOv2分数和GPT4v分数,以全面评估模型的生成能力和感知质量。此外,还进行了用户研究,以验证评估方法与人类判断的一致性。实验结果表明,ImageRepainter框架在评估T2I模型的生成能力和感知质量方面优于现有的评估方法。