多模态大语言模型arxiv论文略读(156)

De-biased Multimodal Electrocardiogram Analysis

➡️ 论文标题:De-biased Multimodal Electrocardiogram Analysis

➡️ 论文作者:Haitao Li, Ziyu Li, Yiheng Mao, Ziyi Liu, Zhoujian Sun, Zhengxing Huang

➡️ 研究机构: 浙江大学、Transtek Medical Electronics Co., Ltd、浙江实验室

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在医疗领域,尤其是医学影像分析中,逐渐展现出应用潜力。然而,开发针对心电图(ECG)信号的MLLMs面临重大挑战,因为ECG信号在临床环境中至关重要,但缺乏成熟的预训练编码器。现有方法通过外部分类器将ECG信号转换为文本标签,这种方法显著压缩了ECG信息,且未能充分利用大语言模型(LLMs)的推理能力。

➡️ 研究动机:研究团队旨在通过直接将ECG嵌入输入到LLM中,最大化ECG信息的传递,并充分利用LLM的推理能力。此外,研究还发现MLLMs可能仅依赖文本输入生成答案,忽略其他模态的输入。研究团队从因果关系的角度分析了这一现象,发现"病情严重程度"作为混淆变量,导致了问题和答案之间的虚假相关性,使模型忽视ECG输入。为了解决这一问题,研究团队设计了一种去偏预训练方法,以消除混淆变量的影响。

➡️ 方法简介:研究团队提出了一种系统的方法,通过预训练ECG编码器,将ECG嵌入映射到语言模型的语义空间,以最大化ECG信息的传递。此外,研究团队还设计了一种去偏预训练方法,通过分层训练模型,消除"病情严重程度"这一混淆变量的影响。实验设计包括两个阶段:去偏验证任务和开放性问答任务,以确保模型在不同任务中的鲁棒性和泛化能力。

➡️ 实验设计:研究团队使用了两个数据集进行实验,包括MIMIC-ECG和ECG-QA。MIMIC-ECG用于预训练ECG编码器,包含近800,000个ECG-报告对。ECG-QA数据集包含414,348个ECG问答对,用于训练ECG多模态LLM。实验设计了不同类型的问答任务,包括验证、选择和查询,以及对抗性测试集,以评估模型在不同表达方式下的表现。此外,研究团队还构建了一个去偏数据集,通过配对"是"和"否"答案的ECG,消除混淆变量的影响。

mR2^22AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA

➡️ 论文标题:mR2^22AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA

➡️ 论文作者:Tao Zhang, Ziqi Zhang, Zongyang Ma, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Yuxuan Zhao, Zehua Xie, Jin Ma, Ying Shan, Weiming Hu

➡️ 研究机构: CASIA、PCG ARC Lab、Tencent、University of Chinese Academy of Sciences、Huawei Noah's Ark Lab、PeopleAl Inc、ShanghaiTech University

➡️ 问题背景:当前的多模态大型语言模型(MLLMs)在基于知识的视觉问答(VQA)任务中表现不佳,如INFOSEEK和Encyclopedic-VQA,这些任务要求模型具备细粒度的视觉实体知识。MLLMs的知识范围有限且固定,导致回答模糊和不准确。为了解决这一问题,研究者引入了多模态检索增强生成(mRAG)方法,但这些方法存在过度检索、缺乏证据定位和模型复杂度增加的问题。

➡️ 研究动机:为了克服现有mRAG方法的不足,研究团队提出了一种新的框架------多模态检索-反思增强生成(mR2AG)。该框架旨在通过两个简单的反思操作,使MLLMs能够自适应地调用检索、识别有用证据并生成答案,同时保持模型的简洁性和有效性。

➡️ 方法简介:mR2AG框架包括三个主要步骤:1) 检索反思(Retrieval-Reflection),确定是否需要检索;2) 相关性反思(Relevance-Reflection),识别证据段落;3) 答案后处理(Answer Post-Processing),整合多个候选答案。通过这两个反思操作,mR2AG能够有效地利用外部知识,提高MLLMs在基于知识的VQA任务中的表现,同时保持其在视觉依赖任务中的原有性能。

➡️ 实验设计:研究团队在INFOSEEK和Encyclopedic-VQA两个数据集上进行了实验。INFOSEEK数据集包括训练集和三个评估集,涵盖了STRING、TIME和NUMERICAL三类问题。Encyclopedic-VQA数据集包含100万个{图像, 问题, 答案}三元组,涉及16.7K个实体。实验结果表明,mR2AG在这些数据集上显著优于现有的MLLMs和mRAG方法,特别是在多答案和两步推理问题上表现突出。此外,mR2AG还保持了基础MLLMs在视觉依赖任务中的优秀能力。

Multimodal large language model for wheat breeding: a new exploration of smart breeding

➡️ 论文标题:Multimodal large language model for wheat breeding: a new exploration of smart breeding

➡️ 论文作者:Guofeng Yang, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo, Xuping Feng

➡️ 研究机构: 浙江大学生物系统工程与食品科学学院、浙江农业机械学会、浙江大学农学院、康奈尔大学综合植物科学学院土壤与作物科学系

➡️ 问题背景:随着全球粮食危机和可持续农业发展的推动,小麦育种面临着前所未有的挑战和机遇。传统育种方法虽然取得了显著成果,但在面对复杂多变的气候条件、日益严重的病虫害威胁以及不断升级的消费者需求时,其效率和准确性逐渐显现出局限性。此外,小麦育种信息长期以来缺乏统一的工具,数据知识呈现"孤立"分布,阻碍了小麦育种知识的学习。同时,小麦育种涉及生物学、遗传学、气象学和土壤科学等多个学科的交叉,专业人员在进行育种工作时需要跨越多个领域的文献和数据,甚至需要编写代码来访问数据,这极大地限制了他们的工作效率。

➡️ 研究动机:智能育种作为一种创新模式,逐渐成为解决这一问题的关键路径。本研究旨在通过跨域数据融合和前沿技术应用,创新性地构建小麦育种的多模态大语言模型(WBLM),探索其在小麦育种目标中的潜力。研究目的包括:(i) 评估领域知识技术(监督微调、检索增强生成和基于人类反馈的强化学习)的集成应用对实现小麦育种目标的贡献,并分析跨域数据融合在小麦产量预测中的性能;(ii) 探索WBLM在应对多维育种目标时的响应,并从表型估计、环境压力评估、目标种质筛选、栽培技术推荐和种子价格查询等方面生成个性化决策支持;(iii) 发布研究数据集,促进该领域的研究和应用创新。

➡️ 方法简介:研究团队基于不同的预训练开源多模态大语言模型(MLLMs),如Qwen-VL、InternVL、Deepseek-VL,使用监督微调(SFT)、检索增强生成(RAG)和基于人类反馈的强化学习(RLHF)技术,将跨域知识注入MLLMs,从而构建多个小麦育种多模态大语言模型(WBLMs)。通过构建新的评估基准,对这些WBLMs进行了评估。结果表明,使用SFT、RAG和RLHF技术构建的WBLM在性能上领先。消融实验表明,SFT、RAG和RLHF技术的结合可以提高整体生成性能,增强生成质量,平衡生成答案的时效性和适应性,减少幻觉和偏见。

➡️ 实验设计:实验在两个实验基地(浙江长兴和余杭农业实验基地)进行,涉及305个和351个小麦品种。实验数据包括无人机遥感数据、表型数据和环境数据。通过多种传感器和无人机获取高光谱、激光雷达、多光谱和RGB数据,并进行了数据预处理、光谱数据处理、激光雷达数据处理和RGB图像处理。研究团队还构建了跨域知识库,包括多源数据集和外部领域知识库,以支持WBLM的训练和评估。

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

➡️ 论文标题:MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

➡️ 论文作者:Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

➡️ 研究机构: 南京大学、中国科学院自动化研究所、中国科学技术大学、南洋理工大学

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)作为通向通用人工智能(AGI)的重要方向,近年来受到了工业界和学术界的广泛关注。这些模型在多种任务中展现出了强大的能力,如根据流程图编写代码或基于图像创作故事。然而,随着MLLMs的快速发展,各种新的评估基准不断涌现,给研究人员寻找合适的评估基准带来了不便。

➡️ 研究动机:为了帮助研究人员更有效地评估MLLMs,并激发更好的评估方法,研究团队对MLLMs的评估进行了全面的综述,涵盖了评估能力、基准构建、性能测量方法以及未来基准的方向等四个方面。

➡️ 方法简介:研究团队提出了一个系统的分类方法,将现有的评估基准分为基础能力、模型自分析和扩展应用三大类。此外,还详细介绍了基准构建的典型流程,包括数据收集、标注和注意事项,以及评估方法,包括基于人类、基于LLM/MLLM和基于脚本的评估。

➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言理解(VQA)、光学字符识别(OCR)、图表和文档理解、数学推理等多个任务。实验设计了不同类型的评估任务,以全面评估MLLMs在不同场景下的表现。

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy

➡️ 论文标题:Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy

➡️ 论文作者:Te Yang, Jian Jia, Xiangyu Zhu, Weisong Zhao, Bo Wang, Yanhua Cheng, Yan Li, Shengyuan Liu, Quan Chen, Peng Jiang, Kun Gai, Zhen Lei

➡️ 研究机构: 中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院、快手科技、中国科学院大学网络空间安全学院、中国科学院深圳先进技术研究院

➡️ 问题背景:大型语言模型(LLMs)在解释和执行人类指令方面表现出强大的能力。然而,多模态大型语言模型(MLLMs)在指令跟随能力上与纯文本的LLMs相比存在显著差距。研究发现,通过减少图像中的冗余信息,可以显著提高MLLMs的指令跟随能力。然而,这种直观的方法会严重损害MLLMs的多模态理解能力。

➡️ 研究动机:为了缩小MLLMs与LLMs在指令跟随能力上的差距,研究团队提出了一种新的方法,通过视觉模态令牌压缩(VMTC)和跨模态注意力抑制(CMAI)策略,减少图像中的冗余信息,同时保持模型的多模态理解能力。

➡️ 方法简介:研究团队提出了视觉模态令牌压缩(VMTC)和跨模态注意力抑制(CMAI)两种策略。VMTC通过保留关键的前景信息并压缩不重要的背景信息来减少图像冗余。CMAI通过确保每个文本令牌只关注最相关的图像令牌,减少冗余信息对文本生成的影响。

➡️ 实验设计:实验在五个广泛认可的基准数据集上进行,包括VQA-V2、GQA、TextVQA、MME和MMBench。实验评估了模型在指令跟随能力和多模态理解能力上的表现。实验结果表明,所提出的方法在提高MLLMs的指令跟随能力的同时,精确地保持了模型的多模态理解能力。

相关推荐
在猴站学算法2 小时前
机器学习(西瓜书) 第二章 模型评估与选择
人工智能·机器学习
科技宅说3 小时前
36氪专访丨乐橙CEO谢运:AI科技下的业务创新与长期主义下的品牌坚守
人工智能·科技
学术小八4 小时前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯5 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec6 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl6 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji7 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
ai小鬼头9 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域9 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序
飞哥数智坊10 小时前
新版定价不够用,Cursor如何退回旧版定价
人工智能·cursor