多模态大语言模型arxiv论文略读(108)

CROME: Cross-Modal Adapters for Efficient Multimodal LLM

➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM

➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister

➡️ 研究机构: Google Cloud AI Research

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像-语言任务中表现出色,但其广泛应用面临成本效益的训练和适应挑战。现有的方法通常需要昂贵的语言模型再训练和有限的适应性。此外,当前对零样本性能的改进不足以指导特定任务的调优。

➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的视觉-语言指令调优框架CROME,该框架通过引入轻量级的门控跨模态适配器(CROME-Adapter),在保持参数效率的同时,有效结合视觉和文本表示,从而促进跨模态理解。

➡️ 方法简介:CROME框架包括一个预训练的视觉编码器、查询Transformer(Q-Former)和一个新颖的门控跨模态适配器。适配器在输入到冻结的语言模型之前,对视觉和文本表示进行融合,从而避免了昂贵的语言模型再训练。适配器的设计使得CROME在特定任务的微调过程中,仅需训练适配器部分,从而实现高效、灵活的调优。

➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括预训练阶段的图像-标题对数据集和指令调优阶段的图像-指令对数据集。实验评估了CROME在零样本和监督微调场景下的性能,并与现有的开源基线模型进行了比较。实验结果表明,CROME在6/8个基准测试中超越了现有的开源模型,特别是在零样本性能和特定任务微调方面表现出色。

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

➡️ 论文标题:MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

➡️ 论文作者:Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

➡️ 研究机构: 北京大学、百川科技、南开大学、中国科学院大学

➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的发展,评估这些模型在数学问题中的表现成为了一个重要的研究领域。多模态视觉-文本数学推理是评估MLLMs理解能力和复杂多步骤定量推理能力的关键指标。然而,现有的多模态数学基准测试未能充分整合视觉和文本信息。

➡️ 研究动机:为了填补这一空白,研究团队提出了MathScape,这是一个新的基准测试,强调理解和应用结合的视觉和文本信息。MathScape旨在评估基于照片的数学问题场景,通过分类层次方法评估MLLMs的理论理解和应用能力。

➡️ 方法简介:研究团队设计了一个多维度的评估方法,对11个先进的MLLMs进行了评估,揭示了即使是最先进的模型也面临挑战。通过分析评估结果,研究团队识别了MLLMs的局限性,为提升模型性能提供了有价值的见解。

➡️ 实验设计:实验在三个公开数据集上进行,包括不同类型的数学问题(如选择题、填空题和证明题),不同数学知识领域(如代数、几何、概率和统计),以及不同教育阶段(如小学、初中和高中)。实验设计了两个步骤的评估方法,首先使用大语言模型(LLMs)提取每个子问题的答案,然后使用LLMs作为评估者评估每个解决方案的正确性。

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

➡️ 论文标题:Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

➡️ 论文作者:Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao

➡️ 研究机构: 东北大学(中国)、中山大学(中国)、南洋理工大学(新加坡)

➡️ 问题背景:模型合并(Model Merging)是一种高效的机器学习技术,无需收集原始训练数据,也不需要昂贵的计算资源。随着模型合并技术在各个领域的广泛应用,理解现有的模型合并技术变得尤为重要。然而,目前文献中缺乏对这些技术的系统和全面的综述。

➡️ 研究动机:尽管模型合并是一个相对较新的领域,但其发展迅速,并已在多个领域找到应用。为了填补现有文献中的空白,本综述旨在全面概述模型合并的方法、理论、应用及未来研究方向,提供一个全面的分类框架,以增强对模型合并技术的理解。

➡️ 方法简介:研究团队提出了一种新的分类方法,将现有的模型合并技术分为两个阶段:预合并(Pre-Merging)和合并中(During-Merging)。预合并方法旨在为模型合并创造更好的条件,包括线性化微调、架构转换和权重对齐。合并中方法则专注于设计复杂的合并技术,解决任务冲突和干扰问题,包括基本合并方法、加权合并方法、子空间合并方法、基于路由的合并方法和基于后校准的合并方法。

➡️ 实验设计:研究详细讨论了模型合并技术在基础模型(如大型语言模型、多模态大型语言模型和视觉生成模型)以及超过10个机器学习子领域(如持续学习、多任务学习、少样本学习等)中的应用。实验设计涵盖了模型合并技术在不同场景下的应用,展示了其在解决现有挑战方面的潜力。

MMJ-Bench \textit{MMJ-Bench} MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models

➡️ 论文标题: MMJ-Bench \textit{MMJ-Bench} MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models

➡️ 论文作者:Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang

➡️ 研究机构: ShanghaiTech University, China

➡️ 问题背景:随着深度学习的发展,大型语言模型(LLMs)及其多模态变体(Multimodal Large Language Models, MLLMs)在许多实际任务中展现了卓越的性能。然而,MLLMs面临着显著的安全挑战,如越狱攻击(Jailbreak Attacks),攻击者试图绕过模型的安全对齐,以引出有害响应。这种威胁不仅源于LLMs的固有漏洞,还源于MLLMs处理的多种信息渠道。尽管已经提出了各种攻击和防御方法,但在统一和全面评估这些方法方面存在显著差距,因为每种方法都在不同的数据集和评估指标上进行评估,难以比较其有效性。

➡️ 研究动机:为了填补这一空白,研究团队提出了MMJ-Bench,一个用于评估MLLMs越狱攻击和防御技术的统一框架。通过广泛的实验,研究团队评估了各种攻击方法对最先进的MLLMs的有效性,并评估了防御机制对模型在正常任务中的效用和响应时间的影响。

➡️ 方法简介:研究团队设计了一个四步工作流程:数据收集、越狱案例生成、响应生成和评估。数据收集阶段包括有害查询的生成和正常任务数据集的选择。越狱案例生成阶段选择了六种最先进的攻击方法和四种防御方法。响应生成阶段使用了六个来自四个流行模型家族的MLLMs及其变体。评估阶段使用了GPT-4和HarmBench分类器来评估攻击的有效性和防御技术的效果。

➡️ 实验设计:实验在六个MLLMs上进行了,包括LLaVa、MiniGPT4、InstructBlip和Qwen-VL。评估了六种攻击方法(三种生成型攻击和三种优化型攻击)和四种防御方法(一种主动防御和三种反应防御)。评估指标包括攻击成功率(ASR)、检测成功率(DSR)和MM-Vet评分,以全面评估模型在不同条件下的表现。

A Survey on Benchmarks of Multimodal Large Language Models

➡️ 论文标题:A Survey on Benchmarks of Multimodal Large Language Models

➡️ 论文作者:Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang

➡️ 研究机构: Tencent、PKU、NUS、SEU、NJU

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其在视觉问答、视觉感知、理解和推理等应用中的卓越表现,近年来在学术界和工业界受到了广泛关注。然而,尽管MLLMs在多种任务中表现出色,但对其性能的全面评估和理解仍存在不足。

➡️ 研究动机:为了更好地理解MLLMs的优缺点,并为未来的应用和设计提供指导,研究团队对200个MLLMs的评估基准进行了全面回顾,涵盖了感知与理解、认知与推理、特定领域、关键能力和其他模态五个主要方面。研究旨在强调评估在支持MLLMs发展中的重要性,并探讨未来的研究方向。

➡️ 方法简介:研究团队构建了一个包含20-30个子类的评估基准分类体系,涵盖了MLLMs的多个方面。通过分析这些基准,研究团队评估了MLLMs在不同任务中的表现,包括视觉感知、细粒度识别、多模态对话、鲁棒性和安全性等。

➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、细粒度识别、多模态对话等任务。实验设计了不同类型的评估基准,以全面评估MLLMs在不同场景下的表现。此外,研究还统计了自2024年以来在83个基准上表现最佳的前三大MLLMs,结果显示OpenAI的GPT-4和Google的Gemini在多个基准上表现出色。

相关推荐
产品经理独孤虾10 分钟前
人工智能大模型如何助力电商产品经理打造高效的商品工业属性画像
人工智能·机器学习·ai·大模型·产品经理·商品画像·商品工业属性
老任与码21 分钟前
Spring AI Alibaba(1)——基本使用
java·人工智能·后端·springaialibaba
蹦蹦跳跳真可爱58933 分钟前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉
雷羿 LexChien44 分钟前
从 Prompt 管理到人格稳定:探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计(上)
人工智能·python·llm·编辑器·prompt
两棵雪松1 小时前
如何通过向量化技术比较两段文本是否相似?
人工智能
heart000_11 小时前
128K 长文本处理实战:腾讯混元 + 云函数 SCF 构建 PDF 摘要生成器
人工智能·自然语言处理·pdf
敲键盘的小夜猫2 小时前
LLM复杂记忆存储-多会话隔离案例实战
人工智能·python·langchain
开开心心_Every2 小时前
便捷的Office批量转PDF工具
开发语言·人工智能·r语言·pdf·c#·音视频·symfony
cooldream20092 小时前
「源力觉醒 创作者计划」_基于 PaddlePaddle 部署 ERNIE-4.5-0.3B 轻量级大模型实战指南
人工智能·paddlepaddle·文心大模型
亚里随笔2 小时前
L0:让大模型成为通用智能体的强化学习新范式
人工智能·llm·大语言模型·rlhf