
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding
➡️ 论文标题:3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding
➡️ 论文作者:Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu
➡️ 研究机构: 北京邮电大学、北京数字原生数字城市研究中心、北京大学、北京航空航天大学、北京科技大学
➡️ 问题背景:多模态大语言模型(MLLMs)在理解和处理视觉与语言信息方面展现出了显著的潜力。然而,3D场景-语言对的稀缺性以及现有方法在理解3D场景方面的不足,构成了重大挑战。为了解决这些问题,研究团队构建了一个包含75K指令-响应对的大型数据集,专门针对3D场景任务,如3D视觉问答(VQA)、3D定位和3D对话。
➡️ 研究动机:尽管3D多模态大语言模型(3D-LLMs)具有广阔的应用前景,但它们面临着数据稀缺、训练效率低下以及难以同时捕捉全局场景信息和细粒度对象信息的挑战。为了解决这些问题,研究团队提出了一种新的高效3D多模态指令调优方法(3DMIT),旨在提高3D-LLMs的训练效率和性能。
➡️ 方法简介:3DMIT通过构建一个全面的3D场景-语言指令数据集,结合GPT4-API生成高质量的指令-响应对,涵盖了3D VQA、3D场景描述、3D定位和3D对话等任务。该方法通过直接将3D视觉特征与文本提示相结合,跳过了3D场景与语言对齐的阶段,从而提高了训练效率。
➡️ 实验设计:研究团队在多个3D-语言下游数据集上评估了3DMIT的有效性,包括ScanQA(用于3D VQA)、ScanRefer(用于3D定位)和3D多选题。实验结果表明,3DMIT在这些任务上不仅超越了现有的3D-LLMs基线模型,而且在训练效率上也表现出色。此外,研究还进行了消融研究,探讨了多视角图像令牌和不同预训练3D对象编码器对模型性能的影响。
TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models
➡️ 论文标题:TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models
➡️ 论文作者:Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu, Wenjuan Han
➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University)
➡️ 问题背景:大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在多个领域展示了卓越的通用能力,包括法律、经济、交通和医学等。然而,目前尚不清楚这些模型在交通领域的知识水平和执行交通相关任务的能力。交通在现代社会中扮演着重要角色,影响经济、环境和数十亿人的生活质量。因此,评估这些模型在交通领域的表现具有重要意义。
➡️ 研究动机:为了填补这一研究空白,研究团队提出了TransportationGames,这是一个精心设计的全面评估基准,用于评估(M)LLMs在交通领域的表现。通过综合考虑实际应用场景,TransportationGames旨在测试模型在记忆、理解和应用交通知识方面的表现,为未来的交通领域研究和应用提供基础。
➡️ 方法简介:TransportationGames基于布鲁姆认知模型的前三个层次(记忆、理解和应用)设计了10个任务,涵盖了交通领域的多个子领域,如城市交通、铁路运输、航空和海运。这些任务包括多项选择、判断题和文本生成等类型,旨在全面评估模型在交通领域的知识水平和应用能力。
➡️ 实验设计:研究团队在16个广泛使用的(M)LLMs上进行了实验,包括单模态和多模态模型。实验设计了不同的任务类型和评估指标,如准确率(Accuracy)和ROUGE分数,以全面评估模型在不同任务中的表现。实验结果表明,虽然某些模型在某些任务上表现良好,但整体上仍有很大的提升空间,特别是在多模态知识方面。
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
➡️ 论文标题:Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
➡️ 论文作者:Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie
➡️ 研究机构: New York University、FAIR, Meta、UC Berkeley
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像理解、视觉问答和指令跟随等任务中表现出色,但这些模型在视觉模态上仍存在系统性的缺陷。这些缺陷包括对基本视觉问题的错误回答,如物体的方向、数量和视角等。研究发现,这些视觉缺陷可能源于视觉编码器(如CLIP)的局限性。
➡️ 研究动机:研究团队旨在探索这些视觉缺陷的根源,特别是这些缺陷是否与视觉编码器的性能有关。通过构建Multimodal Visual Patterns (MMVP) 基准测试,研究团队评估了当前最先进的MLLMs在处理基本视觉问题时的表现,以揭示视觉编码器的局限性。
➡️ 方法简介:研究团队首先识别了CLIP模型中的"CLIP-blind pairs"------即在CLIP特征空间中相似但在DINOv2特征空间中不同的图像对。基于这些图像对,研究团队构建了MMVP基准测试,设计了一系列简单且明确的视觉问题,用于评估MLLMs的视觉能力。
➡️ 实验设计:研究团队在MMVP基准测试上评估了多个开源和闭源的MLLMs,包括GPT-4V、Gemini、LLaVA-1.5和InstructBLIP等。实验结果显示,这些模型在处理基本视觉问题时表现不佳,大多数模型的准确率低于随机猜测水平,即使是最先进的GPT-4V和Gemini也存在显著的性能差距。此外,研究团队还通过用户研究评估了人类在相同任务上的表现,发现人类的准确率高达95.7%。
ModaVerse: Efficiently Transforming Modalities with LLMs
➡️ 论文标题:ModaVerse: Efficiently Transforming Modalities with LLMs
➡️ 论文作者:Xinyu Wang, Bohan Zhuang, Qi Wu
➡️ 研究机构: University of Adelaide、Monash University
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在处理和生成多种模态内容(如图像、视频和音频)方面展现了巨大的潜力。然而,现有的MLLMs在训练复杂性、一致性和灵活性方面存在局限性。传统的多模态预训练、适配器训练和LLM作为代理的方法各有优缺点,但都未能在效率和灵活性之间找到理想的平衡。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队提出了一种新的训练范式------Adaptor+Agent,旨在结合适配器训练和LLM作为代理方法的优势,实现高效且灵活的多模态内容处理和生成。
➡️ 方法简介:研究团队提出了Adaptor+Agent范式,通过在输入阶段训练线性适配器将多模态特征映射到LLM的文本空间,而在输出阶段将LLM视为代理,调用外部模型生成最终的多模态输出。此外,团队还引入了I/O对齐策略,通过指令跟随调优方法,确保LLM生成的元响应与外部生成模型的输入要求在语言层面保持一致。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,验证了ModaVerse在处理和生成多模态内容方面的性能。实验结果表明,ModaVerse在保持与现有最先进模型相当性能的同时,显著减少了训练数据和资源的需求。
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
➡️ 论文标题:Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
➡️ 论文作者:Yiqi Wang, Wentao Chen, Xiaotian Han, Xudong Lin, Haiteng Zhao, Yongfei Liu, Bohan Zhai, Jianbo Yuan, Quanzeng You, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:近年来,多模态大型语言模型(Multimodal Large Language Models, MLLMs)在多种多模态任务和应用中展现了令人印象深刻的能力。这些模型被认为是实现强人工智能(Strong AI)或通用人工智能(AGI)的最有力候选者。然而,尽管在现有基准数据集上取得了显著的性能,但目前的MLLMs是否真正具备跨模态推理能力仍是一个开放的问题。特别是,MLLMs在数学推理、多步推理等方面仍存在不足,且存在幻觉问题,这些问题限制了模型的推理能力。
➡️ 研究动机:鉴于推理能力在MLLMs中的重要性和相关研究的快速发展,本文旨在全面回顾当前MLLMs的推理能力,提供深入的分析和讨论,以指导未来的研究方向。研究团队定义了感兴趣的推理能力,总结了现有的评估协议,分析了MLLMs在推理密集型任务中的应用,并讨论了当前实践和未来的发展方向。
➡️ 方法简介:研究团队首先定义了推理能力,并介绍了现有的评估协议。随后,总结了当前MLLMs的状态,深入探讨了多模态指令调优的关键训练阶段,讨论了MLLMs在推理密集型任务中的应用,包括具身AI和工具使用。最后,分析了多模态推理基准测试的结果,并提供了关于当前状态和未来方向的集中见解和讨论。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言感知(Vision-Language Perception, VLP)和图像到图像(Image-to-Image, I2I)任务。实验设计了不同类型的推理任务,如数学问题解决、常识推理、符号推理和与各种环境的交互,以全面评估MLLMs的推理能力。此外,研究团队还使用了多种评估指标,包括准确率、BLEU、CIDEr、ROUGE等,以确保评估的全面性和准确性。