多模态大语言模型arxiv论文略读(九十四)

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

➡️ 论文标题:DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

➡️ 论文作者:Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

➡️ 研究机构: Peking University、Beijing Academy of Artificial Intelligence (BAAI)、Dalian University of Technology

➡️ 问题背景:现有的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态理解和推理方面取得了显著进展,但其发展受限于高质量图像-文本数据集的稀缺。这些数据集需要提供丰富的视觉元素和详尽的图像描述,以训练MLLMs准确地解释和互动各种视觉信息。然而,当前的图像描述引擎在提供完整和准确的注释方面存在局限性,尤其是在细粒度视觉线索的识别上。

➡️ 研究动机:为了促进MLLMs在全面视觉感知方面的发展,研究团队提出了一种新的方法------感知融合(Perceptual Fusion),通过整合多种视觉专家模型作为图像先验,利用低成本但高效的MLLM作为中心枢纽,生成详尽的图像描述。该方法旨在克服现有图像描述引擎的感知能力限制,提供更全面的视觉信息,从而增强MLLMs的视觉-语言对齐能力。

➡️ 方法简介:研究团队设计了一种管道,首先从LAION-2B数据集中筛选出100万张高质量、多样化的图像,构建DenseFusion-1M数据集。通过整合多个视觉专家模型(如对象检测、图像标记、文本识别等)提供的信息,利用先进的GPT-4V生成10万条详细的图像描述,作为元数据集。基于此元数据集,开发了一个强大的图像描述引擎,能够生成包含丰富文本信息、多个对象、属性、空间关系和世界知识的超详细图像描述。

➡️ 实验设计:研究团队在10个视觉-语言基准测试上验证了DenseFusion-1M数据集的有效性,特别是在详细文本识别和高分辨率图像感知方面,训练的MLLMs表现优于现有的最先进模型。实验结果表明,DenseFusion-1M数据集显著提升了MLLMs的感知和认知能力。

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

➡️ 论文标题:The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

➡️ 论文作者:Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

➡️ 研究机构: 浙江大学、阿里巴巴集团

➡️ 问题背景:近年来,大规模语言模型(LLMs)及其多模态扩展(MLLMs)在多种任务中展现了卓越的性能。这些模型的性能提升主要得益于参数数量的增加和大量高质量数据的支持。然而,目前对于数据和模型协同发展的研究尚不充分,尤其是在多模态领域。

➡️ 研究动机:现有的研究主要集中在模型架构和训练技术上,而对数据的重要性关注不足。为了填补这一空白,研究团队从数据-模型协同发展的角度,系统地回顾了MLLMs的相关工作,旨在揭示数据技术如何促进MLLMs的发展,以及训练良好的模型如何促进多模态数据技术的进步。

➡️ 方法简介:研究团队提出了一种新的分类法,将数据对模型的贡献和模型对数据的贡献分为两大类,并详细探讨了这些贡献在MLLMs生命周期中的具体作用。此外,研究还回顾了现有的数据和技术,以展示数据-模型协同发展的潜力。

➡️ 实验设计:研究没有具体描述实验设计,而是通过文献回顾和理论分析,系统地总结了数据-模型协同发展的现状和未来方向。研究团队还提出了一个未来发展的路线图,包括基础设施建设、数据-模型自增强等多个方面,以指导学术界和工业界在MLLMs领域的进一步探索。

SEED-Story: Multimodal Long Story Generation with Large Language Model

➡️ 论文标题:SEED-Story: Multimodal Long Story Generation with Large Language Model

➡️ 论文作者:Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

➡️ 研究机构: HKUST (GZ)、ARC Lab, Tencent PCG、Tencent AI Lab、CUHK、HKUST

➡️ 问题背景:随着图像生成和开放形式文本生成技术的显著进步,生成交错的图像-文本内容成为了一个日益引人关注的领域。多模态故事生成,即以交错的方式生成叙述文本和生动图像,已成为一个具有广泛应用价值的任务。然而,这一任务面临着重大挑战,包括对复杂交错数据的理解和生成长序列的连贯、上下文相关文本和视觉内容的能力。

➡️ 研究动机:现有的多模态故事生成方法在生成连贯的长故事时存在局限性,尤其是在保持图像风格一致性和故事吸引力方面。为了克服这些挑战,研究团队提出了SEED-Story,一种利用多模态大语言模型(MLLM)生成多模态长故事的新方法。该方法旨在生成具有丰富叙述文本和上下文相关图像的多模态故事,同时保持图像风格的一致性和故事的连贯性。

➡️ 方法简介:SEED-Story方法包括三个主要阶段:视觉标记化和解标记化、故事指令调优、解标记器适应。首先,使用预训练的视觉变换器(ViT)作为视觉标记器,将图像转换为视觉嵌入,然后通过预训练的扩散模型(如SD-XL)解码这些嵌入以生成图像。其次,通过随机长度的故事数据子集进行指令调优,模型学习预测下一个图像和下一个句子。最后,通过解标记器适应阶段,调整生成图像的风格和纹理,以确保与原始图像的一致性。

➡️ 实验设计:研究团队在多个数据集上进行了实验,包括Flintstones、Pororo、StorySalon和新提出的StoryStream。实验评估了模型在生成长故事时的性能,特别是在图像风格一致性、故事吸引力和图像-文本连贯性方面的表现。实验结果表明,SEED-Story在这些方面均优于现有的多模态故事生成方法。

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

➡️ 论文标题:Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

➡️ 论文作者:Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

➡️ 研究机构: Xi'an Jiaotong-liverpool University、University of Liverpool、University of Macau、HKUST、Microsoft Research Asia、Duke Kunshan University

➡️ 问题背景:大型语言模型(LLMs)在数学推理能力方面展现出了卓越的能力,但如何全面定义和评估这些模型的数学能力,以及如何反映用户在现实世界中的使用体验,已成为一个关键问题。当前的基准测试主要集中在问题解决能力上,存在模型过拟合的风险,无法准确衡量模型的真实数学推理能力。

➡️ 研究动机:研究团队认为,如果一个模型真正理解了一个问题,它应该能够稳健地应用于各种任务中。为此,研究团队提出了MATHCHECK,一个精心设计的清单,用于测试任务泛化和推理稳健性,以及一个自动工具,以高效生成清单。MATHCHECK旨在提供一个全面评估数学推理能力和行为测试的框架。

➡️ 方法简介:MATHCHECK包括多个数学推理任务和稳健性测试,以促进对数学推理能力和行为测试的全面评估。该清单在水平方向上考察了四个数学任务(问题解决、可回答性判断、结果判断和过程判断),在垂直方向上通过原始问题及其三个稳健性变体(问题理解、无关干扰和情景理解)来测试推理稳健性。研究团队还提出了一种基于(M)LLMs的生成框架,以自动构建清单数据。

➡️ 实验设计:研究团队在两个基准数据集MATHCHECK-GSM和MATHCHECK-GEO上进行了实验,分别评估了文本数学推理能力和多模态几何推理能力。实验涵盖了26个LLMs和17个多模态LLMs,评估了它们在不同任务和问题变体上的表现。实验结果表明,前沿的LLMs如GPT-4o在MATHCHECK上的表现依然出色,但许多其他模型家族的表现显著下降。进一步的实验表明,与传统的数学基准测试相比,MATHCHECK更能准确反映模型的真实数学推理能力。

MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine

➡️ 论文标题:MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine

➡️ 论文作者:Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Ziyu Guo, Shicheng Li, Yichi Zhang, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Chunyuan Li, Hongsheng Li

➡️ 研究机构: CUHK、Peking University、Shanghai AI Laboratory、ByteDance、Oracle

➡️ 问题背景:多模态大语言模型(MLLMs)在处理一般视觉场景时表现出色,但在数学问题解决方面,尤其是在视觉上下文中,其能力仍有待提升。具体来说,MLLMs在数学图表的视觉编码、图表-语言对齐以及链式思维(CoT)推理方面存在不足。这导致了对有效训练范式和大规模、高质量数据集的迫切需求,而这些数据集的收集和标注成本高昂且耗时。

➡️ 研究动机:现有的研究和数据集主要集中在文本数学问题上,而视觉数学问题的解决仍然是一个重大挑战。研究团队旨在通过开发一个自动化的数据生成引擎和一个四阶段的训练管道,来解决MLLMs在视觉数学能力上的三个主要问题:不满意的数学图表嵌入、图表-语言对齐不良以及不准确的CoT推理能力。

➡️ 方法简介:研究团队提出了MAVIS,一个数学视觉指令调优框架,包括一个自动化的数据生成引擎,用于高效创建数学视觉数据集。该引擎完全独立于人工干预或GPT API的使用,确保了图表-文本对应、问题-答案的正确性和CoT推理的质量。通过这一方法,研究团队创建了两个数据集:MAVIS-Caption(558K图表-文本对)和MAVIS-Instruct(834K视觉数学问题,包含CoT推理)。

➡️ 实验设计:研究团队设计了一个四阶段的训练管道,逐步解决MLLMs在视觉数学能力上的不足。第一阶段,利用MAVIS-Caption通过对比学习微调一个数学专用的视觉编码器(CLIP-Math)。第二阶段,通过投影层将CLIP-Math与大型语言模型(LLM)对齐,增强数学领域的视觉-语言对齐。第三阶段,利用MAVIS-Instruct进行指令调优,提高模型的逐步问题解决能力。第四阶段,通过直接偏好优化(DPO)进一步增强模型的CoT推理能力。实验结果表明,MAVIS-7B在多个数学基准测试中取得了领先的结果,超越了其他开源的MLLMs。

相关推荐
struggle20253 分钟前
SPEAR开源程序是用于逼真演示 AI 研究的模拟器
人工智能·开源
云空7 分钟前
《ChatGPT o3抗命:AI失控警钟还是成长阵痛?》
人工智能·深度学习·神经网络·机器学习·chatgpt
蹦蹦跳跳真可爱58914 分钟前
Python----神经网络(基于ResNet的汽车分类)
人工智能·python·深度学习·神经网络·汽车
新中地GIS开发老师25 分钟前
25年GIS开发暑期实训营,15天Get三维可视化智慧城市开发项目
前端·人工智能·智慧城市·web·gis开发·webgis·地信
IT科技那点事儿25 分钟前
Accelerate 2025北亚巡展正式启航!AI智御全球·引领安全新时代
人工智能·安全
AI街潜水的八角34 分钟前
手写字魔法消除3:深度学习PmrNet神经网络实现图片修复(含训练代码、数据集和GUI交互界面)
人工智能·深度学习·神经网络
肥猪猪爸44 分钟前
使用LSTM进行时间序列分析
数据结构·人工智能·rnn·深度学习·算法·lstm·时间序列分析
cnbestec1 小时前
开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案
人工智能·具身智能·hellorobot·移动操作机器人·stretch 3
大刘讲IT1 小时前
WMS系统选型与实施避坑手册
运维·人工智能·经验分享·程序人生·能源·制造
华院计算1 小时前
金砖国家人工智能高级别论坛在巴西召开,华院计算应邀出席并发表主题演讲
人工智能