多模态大语言模型arxiv论文略读（131）

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

➡️ 论文标题：MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

➡️ 论文作者：Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu

➡️ 研究机构: 北京大学、中国科学院软件研究所、北京人工智能研究院

➡️ 问题背景：多模态大型语言模型（MLLMs）在处理复杂具身任务时展现出潜力，通过检索多模态任务相关轨迹数据来完成任务。然而，当前的检索方法主要关注文本或视觉线索在轨迹中的表面相似性，忽视了这些相似性对具体任务的有效性。这限制了MLLMs在具身任务中的表现，尤其是在具身环境中缺乏有效的接地信息。

➡️ 研究动机：为了克服这一限制，研究团队提出了一种新的方法------MLLM As ReTriever (MART)，通过利用交互数据来微调MLLM检索器，使其能够全面考虑轨迹的有效性，并优先考虑对未见过的任务有用的轨迹。此外，研究团队还引入了轨迹抽象机制，利用MLLMs的总结能力来减少轨迹中的令牌数量，同时保留关键信息，使代理能够更好地理解轨迹中的重要信息。

➡️ 方法简介：MART的核心是通过交互学习训练轨迹检索器。具体来说，对于训练集中的每个任务，从训练记忆库中抽取K个轨迹，作为MLLM代理的参考，执行具身任务。根据任务执行的成功率，可以得到每个轨迹对具身任务的有效性，并通过成功率比较生成部分排序列表，产生

(\binom{K}{2})对偏好对，其中成功率较高的轨迹被视为正样本，成功率较低的轨迹被视为负样本。这些偏好对被用作正负样本数据集D，用于根据Bradley-Terry奖励建模损失微调MLLM，以增强其评估能力。

➡️ 实验设计：研究团队在两个环境（AI2-THOR和LEGENT）中进行了实验，评估了MART在不同任务设置下的表现。实验设计了不同的任务，包括导航、物体操作等，以全面评估MART在不同环境下的任务成功率和轨迹检索的有效性。实验结果表明，MART在未见过的任务上显著提高了任务成功率，相比基线方法平均提高了超过10%。

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

➡️ 论文标题：Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

➡️ 论文作者：Xin Zou, Yizhou Wang, Yibo Yan, Sirui Huang, Kening Zheng, Junkai Chen, Chang Tang, Xuming Hu

➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology, China University of Geosciences, University of Technology Sydney

➡️ 问题背景：尽管多模态大语言模型（Multimodal Large Language Models, MLLMs）在理解视觉输入方面表现出强大的能力，但它们容易产生"幻觉"，即生成与视觉输入不一致的内容。这种现象在安全关键应用中（如临床医疗和自动驾驶）尤其令人担忧，因为它影响了MLLMs作为可靠助手的可信度。

➡️ 研究动机：为了应对MLLMs中的幻觉问题，研究团队借鉴了人类认知过程中的一个常见现象：当对某些关键视觉细节的初始记忆模糊时，人们会再次查看这些细节以寻求准确的答案。基于这一认知过程，研究团队提出了Memory-space Visual Retracing (MEMVR)，这是一种无需外部知识检索或额外微调的新型幻觉缓解范式。

➡️ 方法简介：MEMVR通过在模型推理过程中重新注入视觉特征来补充视觉证据，特别是在模型对视觉记忆不确定或遗忘时。具体而言，当模型在推理过程中遇到不确定性时，MEMVR会将视觉提示作为"键值记忆"重新注入到模型的前馈网络（FFN）中，以校正偏离的预测并减少不确定性。研究团队还设计了一种动态的早期层注入策略，确保在生成视觉依赖性强的令牌时及时提供视觉证据。

➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括视觉-语言感知（Vision-Language Perception, VLP）和图像到图像（Image-to-Image, I2I）任务。实验评估了MEMVR在不同长度的令牌生成中的效率和性能，并与现有的对比解码方法（如DoLa和VCD）进行了比较。实验结果表明，MEMVR在减少幻觉和提高模型的总体认知和感知性能方面表现出色，同时保持了高效的推理速度。

ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

➡️ 论文标题：ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

➡️ 论文作者：Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, Boyan Li, Jiamin Su, Xiong Gao, Yi-Fan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen

➡️ 研究机构: Squirrel AI, HKUST(GZ), HKUST, MSU, UCAS, University of Illinois at Chicago

➡️ 问题背景：随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的不断发展，它们在解决数学推理任务方面展现出巨大的潜力。然而，现有的数学基准测试主要集中在评估MLLMs的问题解决能力，而忽略了更复杂的场景，如错误检测，这在教育场景中尤为重要。为了填补这一研究空白，研究团队提出了一个新的任务------多模态错误检测，并引入了ERRORRADAR基准，旨在评估MLLMs在复杂数学推理任务中的表现。

➡️ 研究动机：现有的数学基准测试主要关注MLLMs的问题解决能力，而忽略了错误检测这一关键环节。为了提升MLLMs在复杂数学推理任务中的表现，研究团队设计了ERRORRADAR基准，专门评估MLLMs在错误检测任务中的能力，包括错误步骤识别和错误分类两个子任务。

➡️ 方法简介：研究团队构建了一个包含2,500个高质量多模态K-12数学问题的数据集，这些问题来源于教育机构的真实学生互动数据，并经过严格的标注和丰富的元数据支持。数据集涵盖了多种问题类型（如平面几何、立体几何、图表、代数和数学常识）和错误类别（如视觉感知错误、计算错误、推理错误、知识错误和问题误解）。

➡️ 实验设计：研究团队在ERRORRADAR数据集上进行了广泛的实验，评估了20多个开源和闭源的MLLMs在错误检测任务中的表现。实验设计了两个子任务：错误步骤识别和错误分类。评估指标包括准确率，通过与人类专家的评估结果进行对比，以衡量模型的性能。实验结果表明，即使是最先进的MLLMs（如GPT-4o）在错误检测任务中仍存在显著挑战，与人类专家的性能差距约为10%。

MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration

➡️ 论文标题：MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration

➡️ 论文作者：Lai Wei, Wenkai Wang, Xiaoyu Shen, Yu Xie, Zhihao Fan, Xiaojin Zhang, Zhongyu Wei, Wei Chen

➡️ 研究机构: 华中科技大学、东部理工学院、紫金山实验室、阿里巴巴集团、复旦大学

➡️ 问题背景：当前的多模态大语言模型（MLLMs）在特定的医学图像数据集上进行了微调，以解决医学视觉问答（Med-VQA）任务。然而，这种特定任务的微调方法成本高昂，且需要为每个下游任务单独训练模型，限制了零样本能力的探索。

➡️ 研究动机：为了克服上述限制，研究团队提出了MC-CoT，一个模块化跨模态协作链式思维（CoT）框架，旨在通过整合大型语言模型（LLMs）来增强MLLMs在Med-VQA任务中的零样本性能。MC-CoT通过提供复杂的医学推理链和基于LLM指令的医学图像观察，提高了模型的推理和信息提取能力。

➡️ 方法简介：MC-CoT框架包括三个预设的图像特征提取模块------病理学、放射学和解剖学。每个模块针对图像的特定方面，处理与该领域相关的特定任务，并基于图像数据生成有见地的响应。LLM首先评估输入任务，提供必要的背景知识和战略指导，然后MLLM根据LLM的指令生成最终输出。面对新问题时，MC-CoT利用LLM分解问题，激活一个或多个专门模块，最后由LLM综合各模块的输出，形成连贯且全面的最终答案。

➡️ 实验设计：研究团队在三个Med-VQA数据集（PATH-VQA、VQA-RAD和SLAKE）上评估了MC-CoT的性能，与基线视觉CoT方法和其他协作框架进行了比较。实验设计了不同的任务分配、模块激活和答案生成过程，以全面评估MC-CoT在不同条件下的表现。实验结果表明，MC-CoT在回答准确性和关键信息召回率方面均优于现有方法。

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

➡️ 论文标题：FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

➡️ 论文作者：Siqiao Xue, Tingting Chen, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei

➡️ 研究机构: Ant Group、Zhejiang University、TTIC

➡️ 问题背景：当前的多模态大型语言模型（Multimodal Large Language Models, MLLMs）在多种任务中展现了强大的能力，但在金融领域的多语言多模态问题回答方面仍面临挑战。现有的金融领域基准测试主要集中在文本问题上，缺乏对多模态数据的支持，且问题难度较低，无法全面反映金融从业者日常面临的复杂问题。

➡️ 研究动机：为了评估MLLMs在金融领域的多语言多模态问题回答能力，研究团队开发了FAMMA基准测试。FAMMA旨在评估模型在回答需要高级金融知识和复杂推理的问题时的表现，涵盖公司金融、资产管理、金融工程等8个主要子领域。FAMMA不仅包含文本问题，还结合了图表、表格等视觉数据，以更真实地反映金融从业者的工作环境。

➡️ 方法简介：FAMMA基准测试包含1,758个精心收集的问题-答案对，这些问题来自大学教科书和考试，涉及8个主要金融子领域。问题以多种语言（英语、中文、法语）和多模态格式（文本、图表、表格等）呈现。研究团队评估了包括GPT-4o、Claude-35-Sonnet和Qwen2-VL在内的多个先进MLLMs在FAMMA上的表现。

➡️ 实验设计：实验在FAMMA的验证集和测试集上进行，验证集包含120个问题，测试集包含1638个问题。实验评估了模型在不同难度级别（简单、中等、困难）和不同语言（英语、中文、法语）下的表现。此外，研究团队还邀请了两名金融专业人士参与测试，以建立人类基准。实验结果表明，即使是最先进的模型如GPT-4o和Claude-35-Sonnet，其准确率也仅为42%左右，远低于人类表现（56%）。Qwen2-VL的表现则显著落后于这些封闭源代码模型。