多模态大语言模型arxiv论文略读(131)

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

➡️ 论文标题:MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

➡️ 论文作者:Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu

➡️ 研究机构: 北京大学、中国科学院软件研究所、北京人工智能研究院

➡️ 问题背景:多模态大型语言模型(MLLMs)在处理复杂具身任务时展现出潜力,通过检索多模态任务相关轨迹数据来完成任务。然而,当前的检索方法主要关注文本或视觉线索在轨迹中的表面相似性,忽视了这些相似性对具体任务的有效性。这限制了MLLMs在具身任务中的表现,尤其是在具身环境中缺乏有效的接地信息。

➡️ 研究动机:为了克服这一限制,研究团队提出了一种新的方法------MLLM As ReTriever (MART),通过利用交互数据来微调MLLM检索器,使其能够全面考虑轨迹的有效性,并优先考虑对未见过的任务有用的轨迹。此外,研究团队还引入了轨迹抽象机制,利用MLLMs的总结能力来减少轨迹中的令牌数量,同时保留关键信息,使代理能够更好地理解轨迹中的重要信息。

➡️ 方法简介:MART的核心是通过交互学习训练轨迹检索器。具体来说,对于训练集中的每个任务,从训练记忆库中抽取K个轨迹,作为MLLM代理的参考,执行具身任务。根据任务执行的成功率,可以得到每个轨迹对具身任务的有效性,并通过成功率比较生成部分排序列表,产生

(\binom{K}{2})对偏好对,其中成功率较高的轨迹被视为正样本,成功率较低的轨迹被视为负样本。这些偏好对被用作正负样本数据集D,用于根据Bradley-Terry奖励建模损失微调MLLM,以增强其评估能力。

➡️ 实验设计:研究团队在两个环境(AI2-THOR和LEGENT)中进行了实验,评估了MART在不同任务设置下的表现。实验设计了不同的任务,包括导航、物体操作等,以全面评估MART在不同环境下的任务成功率和轨迹检索的有效性。实验结果表明,MART在未见过的任务上显著提高了任务成功率,相比基线方法平均提高了超过10%。

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

➡️ 论文标题:Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

➡️ 论文作者:Xin Zou, Yizhou Wang, Yibo Yan, Sirui Huang, Kening Zheng, Junkai Chen, Chang Tang, Xuming Hu

➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology, China University of Geosciences, University of Technology Sydney

➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解视觉输入方面表现出强大的能力,但它们容易产生"幻觉",即生成与视觉输入不一致的内容。这种现象在安全关键应用中(如临床医疗和自动驾驶)尤其令人担忧,因为它影响了MLLMs作为可靠助手的可信度。

➡️ 研究动机:为了应对MLLMs中的幻觉问题,研究团队借鉴了人类认知过程中的一个常见现象:当对某些关键视觉细节的初始记忆模糊时,人们会再次查看这些细节以寻求准确的答案。基于这一认知过程,研究团队提出了Memory-space Visual Retracing (MEMVR),这是一种无需外部知识检索或额外微调的新型幻觉缓解范式。

➡️ 方法简介:MEMVR通过在模型推理过程中重新注入视觉特征来补充视觉证据,特别是在模型对视觉记忆不确定或遗忘时。具体而言,当模型在推理过程中遇到不确定性时,MEMVR会将视觉提示作为"键值记忆"重新注入到模型的前馈网络(FFN)中,以校正偏离的预测并减少不确定性。研究团队还设计了一种动态的早期层注入策略,确保在生成视觉依赖性强的令牌时及时提供视觉证据。

➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言感知(Vision-Language Perception, VLP)和图像到图像(Image-to-Image, I2I)任务。实验评估了MEMVR在不同长度的令牌生成中的效率和性能,并与现有的对比解码方法(如DoLa和VCD)进行了比较。实验结果表明,MEMVR在减少幻觉和提高模型的总体认知和感知性能方面表现出色,同时保持了高效的推理速度。

ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

➡️ 论文标题:ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection

➡️ 论文作者:Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, Boyan Li, Jiamin Su, Xiong Gao, Yi-Fan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen

➡️ 研究机构: Squirrel AI, HKUST(GZ), HKUST, MSU, UCAS, University of Illinois at Chicago

➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的不断发展,它们在解决数学推理任务方面展现出巨大的潜力。然而,现有的数学基准测试主要集中在评估MLLMs的问题解决能力,而忽略了更复杂的场景,如错误检测,这在教育场景中尤为重要。为了填补这一研究空白,研究团队提出了一个新的任务------多模态错误检测,并引入了ERRORRADAR基准,旨在评估MLLMs在复杂数学推理任务中的表现。

➡️ 研究动机:现有的数学基准测试主要关注MLLMs的问题解决能力,而忽略了错误检测这一关键环节。为了提升MLLMs在复杂数学推理任务中的表现,研究团队设计了ERRORRADAR基准,专门评估MLLMs在错误检测任务中的能力,包括错误步骤识别和错误分类两个子任务。

➡️ 方法简介:研究团队构建了一个包含2,500个高质量多模态K-12数学问题的数据集,这些问题来源于教育机构的真实学生互动数据,并经过严格的标注和丰富的元数据支持。数据集涵盖了多种问题类型(如平面几何、立体几何、图表、代数和数学常识)和错误类别(如视觉感知错误、计算错误、推理错误、知识错误和问题误解)。

➡️ 实验设计:研究团队在ERRORRADAR数据集上进行了广泛的实验,评估了20多个开源和闭源的MLLMs在错误检测任务中的表现。实验设计了两个子任务:错误步骤识别和错误分类。评估指标包括准确率,通过与人类专家的评估结果进行对比,以衡量模型的性能。实验结果表明,即使是最先进的MLLMs(如GPT-4o)在错误检测任务中仍存在显著挑战,与人类专家的性能差距约为10%。

MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration

➡️ 论文标题:MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration

➡️ 论文作者:Lai Wei, Wenkai Wang, Xiaoyu Shen, Yu Xie, Zhihao Fan, Xiaojin Zhang, Zhongyu Wei, Wei Chen

➡️ 研究机构: 华中科技大学、东部理工学院、紫金山实验室、阿里巴巴集团、复旦大学

➡️ 问题背景:当前的多模态大语言模型(MLLMs)在特定的医学图像数据集上进行了微调,以解决医学视觉问答(Med-VQA)任务。然而,这种特定任务的微调方法成本高昂,且需要为每个下游任务单独训练模型,限制了零样本能力的探索。

➡️ 研究动机:为了克服上述限制,研究团队提出了MC-CoT,一个模块化跨模态协作链式思维(CoT)框架,旨在通过整合大型语言模型(LLMs)来增强MLLMs在Med-VQA任务中的零样本性能。MC-CoT通过提供复杂的医学推理链和基于LLM指令的医学图像观察,提高了模型的推理和信息提取能力。

➡️ 方法简介:MC-CoT框架包括三个预设的图像特征提取模块------病理学、放射学和解剖学。每个模块针对图像的特定方面,处理与该领域相关的特定任务,并基于图像数据生成有见地的响应。LLM首先评估输入任务,提供必要的背景知识和战略指导,然后MLLM根据LLM的指令生成最终输出。面对新问题时,MC-CoT利用LLM分解问题,激活一个或多个专门模块,最后由LLM综合各模块的输出,形成连贯且全面的最终答案。

➡️ 实验设计:研究团队在三个Med-VQA数据集(PATH-VQA、VQA-RAD和SLAKE)上评估了MC-CoT的性能,与基线视觉CoT方法和其他协作框架进行了比较。实验设计了不同的任务分配、模块激活和答案生成过程,以全面评估MC-CoT在不同条件下的表现。实验结果表明,MC-CoT在回答准确性和关键信息召回率方面均优于现有方法。

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

➡️ 论文标题:FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

➡️ 论文作者:Siqiao Xue, Tingting Chen, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei

➡️ 研究机构: Ant Group、Zhejiang University、TTIC

➡️ 问题背景:当前的多模态大型语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了强大的能力,但在金融领域的多语言多模态问题回答方面仍面临挑战。现有的金融领域基准测试主要集中在文本问题上,缺乏对多模态数据的支持,且问题难度较低,无法全面反映金融从业者日常面临的复杂问题。

➡️ 研究动机:为了评估MLLMs在金融领域的多语言多模态问题回答能力,研究团队开发了FAMMA基准测试。FAMMA旨在评估模型在回答需要高级金融知识和复杂推理的问题时的表现,涵盖公司金融、资产管理、金融工程等8个主要子领域。FAMMA不仅包含文本问题,还结合了图表、表格等视觉数据,以更真实地反映金融从业者的工作环境。

➡️ 方法简介:FAMMA基准测试包含1,758个精心收集的问题-答案对,这些问题来自大学教科书和考试,涉及8个主要金融子领域。问题以多种语言(英语、中文、法语)和多模态格式(文本、图表、表格等)呈现。研究团队评估了包括GPT-4o、Claude-35-Sonnet和Qwen2-VL在内的多个先进MLLMs在FAMMA上的表现。

➡️ 实验设计:实验在FAMMA的验证集和测试集上进行,验证集包含120个问题,测试集包含1638个问题。实验评估了模型在不同难度级别(简单、中等、困难)和不同语言(英语、中文、法语)下的表现。此外,研究团队还邀请了两名金融专业人士参与测试,以建立人类基准。实验结果表明,即使是最先进的模型如GPT-4o和Claude-35-Sonnet,其准确率也仅为42%左右,远低于人类表现(56%)。Qwen2-VL的表现则显著落后于这些封闭源代码模型。

相关推荐
lgldl5 分钟前
AI自动生成复杂架构图,流程图,思维导图
人工智能·ai·流程图
只有左边一个小酒窝12 分钟前
(十七)深度学习之线性代数:核心概念与应用解析
人工智能·深度学习·线性代数
Codebee1 小时前
OneCode核心概念解析——View(视图)
前端·人工智能
坚毅不拔的柠檬柠檬2 小时前
AI办公提效,Deepseek + wps生成ppt
人工智能·ai·wps·deepseek
张较瘦_2 小时前
[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁
论文阅读·人工智能·软件工程
张较瘦_2 小时前
[论文阅读] 人工智能 + 软件工程 | USEagent:迈向统一的AI软件工程师
论文阅读·人工智能·软件工程
楼台的春风2 小时前
【Linux驱动开发 ---- 4.1_sysfs 详解】
linux·运维·c语言·数据库·人工智能·驱动开发·嵌入式硬件
Blossom.1182 小时前
基于深度学习的智能视频行为识别系统:技术与实践
人工智能·深度学习·神经网络·目标检测·机器学习·音视频·sklearn
苹果企业签名分发2 小时前
火山引擎豆包大模型系列新品发布
人工智能·火山引擎
硅谷秋水3 小时前
EfficientVLA:面向视觉-语言-动作模型无训练的加速与压缩
人工智能·深度学习·机器学习·机器人