
LLaNA: Large Language and NeRF Assistant
➡️ 论文标题:LLaNA: Large Language and NeRF Assistant
➡️ 论文作者:Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano
➡️ 研究机构: CVLAB, University of Bologna
➡️ 问题背景:多模态大语言模型(MLLMs)在理解和生成文本方面表现出色,但它们在捕捉对象的外观和几何形状方面存在局限性。神经辐射场(NeRFs)作为一种新兴的模态,能够同时编码对象的几何形状和光逼真外观,但目前尚无直接处理NeRFs的MLLMs。
➡️ 研究动机:研究团队旨在探索是否可以通过直接处理NeRFs的权重来构建一个能够理解NeRFs的MLLM。通过这种方法,可以避免渲染图像或提取3D数据结构,从而更有效地利用NeRFs中的信息。
➡️ 方法简介:研究团队提出了LLaNA(Large Language and NeRF Assistant),这是第一个能够直接处理NeRFs权重的多模态大语言模型。LLaNA通过一个元编码器将NeRFs的权重映射到预训练语言模型(如LLaMA 2)的嵌入空间中,从而实现对NeRFs的理解和推理。
➡️ 实验设计:研究团队构建了一个自动化的数据集,包含40,000个NeRFs及其文本注释,用于训练和评估LLaNA。实验设计了简短描述、详细描述、单轮问答和多轮问答等任务,以全面评估模型在不同任务中的表现。实验结果表明,直接处理NeRFs权重的方法在多个任务上均优于通过渲染图像或提取3D数据结构的方法。
RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding
➡️ 论文标题:RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding
➡️ 论文作者:Linrui Xu, Ling Zhao, Wang Guo, Qiujun Li, Kewang Long, Kaiqi Zou, Yuhan Wang, Haifeng Li
➡️ 研究机构: 中南大学 (Changsha, China)
➡️ 问题背景:当前的遥感图像(RSI)智能理解模型正在经历由多模态大语言模型(MLLM)推动的新范式转变,即从学习领域模型(LaDM)转变为学习预训练通用基础模型后进行适应性领域模型(LaGD)。然而,现有的遥感数据集,如RSI-CD、DOTA等,已不再适合新的任务需求。这些数据集主要由图像和注释组成,注释包括标签、边界框和文本,但通常预设了有限的场景和目标类别,主要考察模型对特定类别的识别能力,而忽视了模型对复杂场景和目标之间关系的深入理解和推理能力。
➡️ 研究动机:为了适应新的LaGD范式,研究团队设计了一个高质量、多样化且统一的多模态指令跟随数据集(RS-GPT4V),旨在通过以下特点提升模型的泛化能力、复杂场景理解能力和推理能力:(1)泛化:训练模型学习任务之间的共享知识,并适应不同任务;(2)理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能够用自然语言详细描述场景;(3)推理:训练模型实现高层次的视觉推理。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建RS-GPT4V数据集,将多个任务转化为语言理解任务,实现数据和任务的统一。RS-GPT4V数据集采用了统一的(问题,答案)格式,支持图像描述、视觉问答、复杂场景理解、视觉推理和任务规划等任务。数据集的构建包括两个关键步骤:指令-注释适应和指令-响应生成。指令-注释适应将现有的视觉语言任务转换为(问题,答案)对,而指令-响应生成则利用系统提示和高级GPT-4V模型生成(问题,答案)对。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括图像描述、视觉问答、视觉定位和区域级描述等任务。实验设计了不同的任务类型和模型响应,以全面评估模型在不同任务中的表现。实验结果表明,通过RS-GPT4V数据集微调的MLLMs能够描述细粒度信息和隐含知识,并在多个复杂的遥感场景中表现出更好的推理能力。
PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes
➡️ 论文标题:PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes
➡️ 论文作者:He Cao, Yanjun Shao, Zhiyuan Liu, Zijing Liu, Xiangru Tang, Yuan Yao, Yu Li
➡️ 研究机构: International Digital Economy Academy (IDEA)、Hong Kong University of Science and Technology、Yale University、National University of Singapore
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在多个科学领域中取得了显著的成功,尤其是在合成化学领域。然而,现有的分子-文本建模方法在理解和处理化学反应中的多分子图交互方面存在不足,导致在合成化学任务中的表现不佳。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了PRESTO(Progressive Pretraining Enhances Synthetic Chemistry Outcomes),旨在通过整合全面的预训练策略和数据集配置,弥合分子-文本模态间的差距,从而提高多模态LLMs在合成化学任务中的性能。
➡️ 方法简介:PRESTO框架包括两个主要阶段:1)分子-文本对齐阶段,通过预训练的分子编码器和语言模型,以及随机初始化的分子-语言投影器,学习分子和文本模态之间的对齐;2)领域增量预训练阶段,通过在大规模的分子-文本对数据集上继续训练,进一步理解分子图和文本之间的关系,并注入合成化学领域的知识。
➡️ 实验设计:研究团队在多个合成化学任务上进行了实验,包括前向反应预测、逆合成分析、反应条件预测、试剂选择、反应类型分类和产率回归。实验数据集包括USPTO-Application、PubChem Caption、USPTO-full、USPTO_500_MT等。通过这些实验,研究团队评估了PRESTO在不同任务上的性能,并与直接微调和其他预训练策略进行了对比。
MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency
➡️ 论文标题:MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency
➡️ 论文作者:Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Baizhou Huang, Xu Zhang, Xinyu Hu, Xiaojun Wan
➡️ 研究机构: 北京大学王选计算机技术研究所
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种应用中表现出色,但它们存储的知识可能不准确或过时,主要表现为误读和误识错误。现有的多模态知识编辑基准未能系统地分析编辑方法在纠正这两种错误类型上的表现。
➡️ 研究动机:为了更好地表示和纠正这些错误,研究团队首次将多模态知识分解为视觉和文本组件,并提出了一个强调模态一致性的多模态知识编辑基准(MC-MKE)。该基准旨在独立纠正误读和误识错误,通过编辑相应的知识组件。
➡️ 方法简介:研究团队定义了三种不同的编辑格式(IE_edit、SRO_edit、IRO_edit),并构建了MC-MKE基准,该基准包含三个子集,分别对应三种不同的多模态知识格式。MC-MKE更贴近实际场景,能够更系统和全面地评估多模态知识编辑方法的性能。
➡️ 实验设计:研究团队在MC-MKE的三个子集上评估了四种多模态知识编辑方法(微调、MEND、IKE、SERAC),实验结果揭示了现有方法的局限性,特别是在模态一致性方面。实验还发现,编辑相应的组件有时能获得更好的性能。
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs
➡️ 论文标题:GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs
➡️ 论文作者:Navid Rajabi, Jana Kosecka
➡️ 研究机构: George Mason University
➡️ 问题背景:理解图像中物体之间的空间关系是视觉推理的重要组成部分。早期的视觉和语言模型(VLMs)在识别空间关系方面表现不佳。本研究扩展了先前发布的What'sUp数据集,提出了一个全面的评估方法,以突出9个多模态大语言模型(MLLMs)在空间关系理解方面的优势和劣势,与18个VLMs进行了对比。
➡️ 研究动机:现有的研究主要集中在VLMs在空间关系理解上的不足。本研究旨在通过扩展What'sUp数据集,增加边界框注释和深度信息,来更细致地评估MLLMs在空间关系理解任务中的表现,特别是探讨模型大小、训练方法和视觉分辨率对性能的影响。
➡️ 方法简介:研究团队构建了一个扩展的What'sUp数据集,包括不同子集,如Subset A、Subset B、COCO-Spatial和GQA-Spatial。数据集增加了边界框注释、分割掩码和深度信息。通过结构化的提示策略,如多选(MC)和模板生成(TG),评估模型的空间关系理解和定位能力。
➡️ 实验设计:实验在三个子集上进行,包括Subset A、Subset B、COCO-Spatial和GQA-Spatial。实验设计了不同的提示策略,如多选和模板生成,并评估了模型在不同条件下的表现,特别是对深度信息的利用。实验结果表明,较大的MLLMs在空间关系理解和定位任务中表现更优,但存在一些例外情况。深度信息的加入在某些情况下显著提高了模型的准确性,但也可能在多义关系中引入偏差。