多模态大语言模型arxiv论文略读（106）

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

➡️ 论文标题：Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

➡️ 论文作者：Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie

➡️ 研究机构: Harbin Institute of Technology, Shenzhen、Peng Cheng Laboratory

➡️ 问题背景：当前的智能体在执行开放世界中的长期任务时，面临的主要挑战是缺乏必要的世界知识和多模态经验。这些智能体在复杂任务中的表现远未达到人类水平，尤其是在需要长期记忆和多模态信息处理的任务中。

➡️ 研究动机：为了克服现有智能体在执行长期任务时的不足，研究团队提出了一种混合多模态记忆模块（Hybrid Multimodal Memory），旨在通过结构化知识和多模态经验的存储与利用，提升智能体在复杂环境中的任务执行能力。

➡️ 方法简介：研究团队设计了混合多模态记忆模块，包括层次化有向知识图谱（Hierarchical Directed Knowledge Graph, HDKG）和抽象多模态经验池（Abstracted Multimodal Experience Pool, AMEP）。HDKG将知识转化为图结构，使智能体能够显式地表示和学习世界知识；AMEP则动态总结和存储多模态信息，为智能体提供丰富的历史经验参考。

➡️ 实验设计：研究团队在Minecraft环境中进行了广泛的实验，评估了Optimus-1在长期任务中的表现。实验设计了多个任务组，包括木头、石头、铁、金、钻石、红石和盔甲等任务，以全面评估Optimus-1在不同任务中的性能。实验结果表明，Optimus-1在多个任务组中显著优于现有的智能体，接近人类水平的表现。此外，研究还通过消融实验验证了各模块对性能的贡献，以及AMEP中成功和失败案例对任务执行的影响。

MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

➡️ 论文标题：MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

➡️ 论文作者：Haoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang, Tat-Seng Chua

➡️ 研究机构: University of Electronic Science and Technology of China, Zhejiang University, National University of Singapore, Tongji University

➡️ 问题背景：时间事件预测（Temporal Event Forecasting）旨在根据历史事件预测未来事件。尽管该领域已取得显著进展，但现有方法大多忽略了丰富的多模态信息，特别是图像。在大规模语言模型（LLMs）时代，利用图像进行时间事件预测的研究尚未得到充分探索。

➡️ 研究动机：研究团队旨在探讨图像在时间事件预测中的作用，并提出一种将图像整合到LLM预测框架中的方法。具体来说，研究团队识别了图像在时间事件预测中的两个主要功能：突出（highlighting）和补充（complementary）。通过这些功能，图像可以增强对时间事件的理解，从而提高预测性能。

➡️ 方法简介：研究团队提出了一种名为MM-Forecast的框架，该框架包括一个图像功能识别模块（Image Function Identification module），该模块基于多模态大规模语言模型（MLLMs）来识别图像的功能，并将其转换为语言描述，然后将这些描述整合到LLM预测模型中。MM-Forecast框架可以处理结构化和非结构化数据，并且兼容两种流行的LLM组件：上下文学习（ICL）和检索增强生成（RAG）。

➡️ 实验设计：研究团队构建了一个新的多模态数据集MidEast-TE-mm，该数据集是在现有的MidEast-TE-mini数据集基础上扩展而来的，增加了图像数据。实验设计了两种预测任务：结构化事件预测和非结构化事件预测。实验结果表明，通过整合视觉信息，MM-Forecast在时间事件预测任务中显著提高了预测准确性。

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

➡️ 论文标题：Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

➡️ 论文作者：Qirui Jiao, Daoyuan Chen, Yilun Huang, Bolin Ding, Yaliang Li, Ying Shen

➡️ 研究机构: Sun Yat-Sen University、Alibaba Group

➡️ 问题背景：高性能的多模态大语言模型（MLLMs）在很大程度上依赖于数据质量。为了提升MLLMs在细粒度图像识别任务中的表现，研究团队提出了一种新的数据合成方法，该方法受到对比学习和图像差异描述的启发。通过生成包含细微对象变化的相似图像对，该方法旨在提高模型在识别图像差异和细粒度图像分析方面的能力。

➡️ 研究动机：现有的研究主要集中在改进模型架构和提高数据集质量两个方面。然而，对于如何通过数据合成方法来增强MLLMs在图像差异识别任务中的表现，研究较少。本研究通过生成包含细微对象变化的图像对，旨在为MLLMs提供更高质量的训练数据，从而提升其在图像差异识别和细粒度图像分析任务中的表现。

➡️ 方法简介：研究团队提出了一种系统的方法，通过生成包含细微对象变化的相似图像对，然后利用差异区域生成器（Difference Area Generator）和差异描述生成器（Difference Captions Generator）来生成高质量的"对象替换"数据集（IMG-DIFF）。该数据集可以自动扩展，并用于微调最先进的MLLMs，如InternVL2，显著提升了模型在图像差异识别和视觉问答任务中的表现。

➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括图像差异识别和多模态大语言模型（MLLMs）的基准测试。实验设计了不同的过滤强度和对象替换类型，以全面评估模型在不同条件下的表现。实验结果表明，使用IMG-DIFF数据集微调后的MLLMs在多个基准测试中显著优于现有的最先进模型，如GPT-4V和Gemini。此外，研究团队还对数据集的多样性和质量进行了全面评估，确认了其丰富性和高标准。

➡️ 论文标题：mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

➡️ 论文作者：Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

➡️ 研究机构: 阿里巴巴集团

➡️ 问题背景：多模态大型语言模型（MLLMs）在处理单图像任务方面取得了显著进展，但在处理长图像序列时仍面临挑战。现有方法在处理多图像、视频等长视觉输入时，存在计算开销大、视觉细节丢失等问题。

➡️ 研究动机：为了克服现有方法在处理长图像序列时的不足，研究团队提出了mPLUG-Owl3，旨在通过引入创新的超注意力块（Hyper Attention Blocks），提高模型在处理长图像序列时的效率和性能。

➡️ 方法简介：mPLUG-Owl3通过在语言模型中引入超注意力块，实现了视觉和语言的高效融合。具体来说，超注意力块在变压器块中并行执行自注意力和跨模态注意力，从而在保持低内存消耗和高推理效率的同时，增强了模型对视觉信息的适应性补充能力。

➡️ 实验设计：研究团队在20个基准测试上评估了mPLUG-Owl3的性能，包括单图像、多图像和视频任务。实验结果表明，mPLUG-Owl3在14个基准测试中达到了同类模型的最佳性能。此外，研究团队还提出了一个名为"干扰抵抗"（Distractor Resistance）的挑战性长视觉序列评估，以评估模型在面对干扰时的专注能力。

Instruction Tuning-free Visual Token Complement for Multimodal LLMs

➡️ 论文标题：Instruction Tuning-free Visual Token Complement for Multimodal LLMs

➡️ 论文作者：Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang

➡️ 研究机构: 深圳大学、南洋理工大学、香港理工大学、浙江大学、西安电子科技大学

➡️ 问题背景：随着大型语言模型（LLMs）的成熟，多模态LLMs（MLLMs）在视觉和语言之间架起了优雅的桥梁。然而，当前的研究面临诸如需要高质量的指令对和在图像到文本训练目标中视觉信息的丢失等挑战。

➡️ 研究动机：为了克服这些挑战，研究团队提出了一种视觉令牌补充框架（VTC），旨在帮助MLLMs恢复缺失的视觉特征，从而提高响应的准确性。VTC通过集成文本到图像生成作为识别文本无关特征的指南，并开发视觉选择器生成补充视觉令牌来丰富原始视觉输入，进一步设计了迭代策略以提取更多视觉信息。

➡️ 方法简介：研究团队提出了一种无需额外图像-文本对的训练管道，通过构建视觉令牌补充框架（VTC），该框架能够在不进行额外训练的情况下，通过迭代使用视觉选择器来提取更多的视觉信息。VTC的训练过程无需额外的图像-文本对，实现了无需指令调优的特性。

➡️ 实验设计：在三个公开数据集上进行了实验，包括LVLM-eHub、MME和DEMON，涵盖了22种不同的视觉任务。实验设计了不同因素的变化，如视觉令牌的迭代生成，以及不同类型的视觉任务，以全面评估模型在不同条件下的表现。实验结果表明，VTC在视觉对话等任务上显著优于基线模型，特别是在视觉对话任务上，VTC比InstructBLIP提高了45%的性能。