多模态大语言模型arxiv论文略读（八十八）

➡️ 论文标题：MammothModa: Multi-Modal Large Language Model

➡️ 论文作者：Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang

➡️ 研究机构: ByteDance, Beijing, China

➡️ 问题背景：多模态大型语言模型（MLLMs）在理解视觉输入并生成语言方面表现出色，广泛应用于图像描述、视觉问答和视频分析等领域。然而，这些模型在处理高分辨率和长时间视觉输入时，仍面临有效结合复杂语言理解的挑战。

➡️ 研究动机：为了克服现有MLLMs的局限，研究团队设计了MammothModa，通过三个关键设计洞察来提升模型性能：1) 整合视觉能力同时保持复杂的语言理解；2) 扩展上下文窗口以处理高分辨率和长时间视觉特征；3) 使用高质量的双语数据集减少视觉幻觉。

➡️ 方法简介：MammothModa的架构包括三个主要组件：高分辨率输入的视觉编码器和视觉合并模块、投影层，以及带有视觉注意力专家（VE）和共享帧位置ID的大型语言模型（LLM）。视觉合并模块通过平均池化减少特征图的大小，而共享帧位置ID则通过为每个视频帧分配共享的位置编码来避免位置插值问题。

➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括视觉语言理解（VLP）和图像到图像（I2I）任务。实验设计了不同的动态分割方法、视觉合并窗口大小和帧位置ID的使用，以评估模型在不同条件下的性能。实验结果表明，MammothModa在多个基准测试中表现出色，特别是在处理高分辨率图像和长时间视频时，显著提高了效率和性能。

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

➡️ 论文标题：CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

➡️ 论文作者：Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

➡️ 研究机构: Princeton Language and Intelligence (PLI), Princeton University, University of Wisconsin, Madison, The University of Hong Kong

➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理现实世界任务时表现出色，尤其是在分析科学论文或财务报告中的图表理解方面。然而，现有的评估基准往往过于简化和同质化，导致对模型性能的过度乐观估计。研究表明，即使在图表或问题稍作修改的情况下，开源模型的性能也可能大幅下降，最高可达34.5%。

➡️ 研究动机：为了更准确地评估MLLMs的图表理解能力，研究团队提出了CharXiv，这是一个包含2,323个自然、具有挑战性和多样性的图表的全面评估套件。CharXiv旨在通过提供更现实和忠实的评估标准，促进未来对MLLMs图表理解的研究。

➡️ 方法简介：CharXiv的数据集从arXiv论文中手动挑选了8个主要学科的图表，确保了图表的视觉多样性和复杂性。数据集包括两种类型的问题：描述性问题（涉及基本图表信息的提取和聚合）和推理问题（涉及复杂的视觉和数值推理）。所有问题和答案都经过人工专家的精心挑选和验证，确保了数据集的高质量。

➡️ 实验设计：研究团队评估了13个开源模型和11个专有模型在CharXiv上的表现，特别是在描述性和推理问题上的表现。实验结果揭示了开源模型和专有模型之间存在显著的性能差距，尤其是在推理问题上，最强的专有模型GPT-4o的准确率为47.1%，而最强的开源模型InternVL Chat V1.5的准确率仅为29.2%。所有模型的表现都远低于人类的80.5%。此外，研究还对模型在不同类型任务和图表上的表现进行了细粒度分析，揭示了现有MLLMs在图表理解方面的弱点。

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

➡️ 论文标题：DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

➡️ 论文作者：Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin

➡️ 研究机构: 华南理工大学、华为云

➡️ 问题背景：当前的多模态大语言模型（MLLMs）在视觉文档理解（VDU）任务中面临重大挑战，主要由于文档图像的高分辨率、密集文本和复杂布局。这些特性要求MLLMs具备高度的细节感知能力。虽然提高输入分辨率可以改善细节感知能力，但也会导致视觉标记序列变长，增加计算成本，并对模型处理长上下文的能力构成压力。

➡️ 研究动机：为了应对这些挑战，研究团队提出了DocKylin，这是一种以文档为中心的MLLM，通过在像素和标记级别进行视觉内容瘦身，减少VDU场景中的标记序列长度。研究旨在通过引入自适应像素瘦身（APS）和动态标记瘦身（DTS）模块，提高模型的性能和效率。

➡️ 方法简介：研究团队提出了一种系统的方法，通过构建自适应像素瘦身（APS）预处理模块，利用梯度信息识别并消除文档图像中的冗余区域，减少冗余像素的比例，提高计算效率。此外，团队还引入了一种基于双中心聚类的动态标记瘦身（DTS）方法，高效地从大量视觉标记中过滤出信息标记，生成更紧凑的视觉序列。

➡️ 实验设计：实验在多个公开数据集上进行，包括DocVQA、InfoVQA、ChartQA、FUNSD、SROIE和POIE等。实验设计了不同因素的变化，如输入图像的分辨率、文本密度和布局复杂性，以全面评估DocKylin在不同条件下的表现。实验结果表明，DocKylin在多个VDU基准测试中表现出色，显著优于现有的方法。

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

➡️ 论文标题：Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

➡️ 论文作者：Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang

➡️ 研究机构: University of California, Santa Cruz、eBay Inc.、Cybever

➡️ 问题背景：当前，图形用户界面（GUI）在数字设备的交互中占据核心地位，越来越多的努力被投入到构建各种GUI理解模型中。然而，这些努力大多忽略了基于用户指示点的屏幕阅读任务（Screen Point-and-Read, ScreenPR），这一任务对于辅助技术尤为重要，能够为视觉障碍用户提供有价值的帮助。

➡️ 研究动机：为了应对ScreenPR任务的挑战，研究团队开发了Tree-of-Lens (ToL) 代理，利用先进的多模态大语言模型（MLLMs）的泛化能力，处理来自不同领域的GUI截图，并根据用户指示的屏幕上的任意点生成自然语言描述。ToL代理不仅描述了指示区域的内容，还详细说明了屏幕布局，从而帮助用户全面理解界面并避免歧义。

➡️ 方法简介：研究团队提出了ToL接地机制，通过构建层次布局树（Hierarchical Layout Tree）来表示截图的层次结构。该树的节点代表不同尺度的区域，通过训练的GUI区域检测模型自动提取局部和全局区域，形成层次布局树。然后，根据兴趣区域选择目标路径，生成不同视野宽度的镜头作为视觉提示，模拟人类逐步细化的注意力过程，以生成内容和布局描述。

➡️ 实验设计：研究团队在新提出的ScreenPR基准上评估了ToL代理，该基准包括来自网页、移动和操作系统GUI的650张截图，手动标注了1,500个目标点和区域。实验设计了多种评估指标，包括人类评价和自动循环一致性评价，以全面评估ToL代理在内容和布局描述上的准确性和抗干扰能力。实验结果表明，ToL代理在内容和布局描述的准确性上分别比基线模型提高了15%和30%以上。此外，ToL代理还被应用于移动GUI导航任务中，展示了其在识别执行路径中不正确动作方面的实用性。

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

➡️ 论文标题：HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

➡️ 论文作者：Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

➡️ 研究机构: 深圳大数据研究院、香港中文大学（深圳）、深圳国家健康数据研究院

➡️ 问题背景：多模态大语言模型（MLLMs）如GPT-4V在医疗应用中表现出有限的性能，尤其是在缺乏特定于医疗领域的视觉知识方面。尽管存在一些高质量的小规模医疗视觉知识数据集，但扩展这些数据集面临隐私和许可问题。现有方法利用PubMed的大规模去标识化医疗图像-文本对，但数据噪声问题仍然影响模型性能。

➡️ 研究动机：为了提高医疗多模态模型的性能，研究团队提出了一种新的方法，通过利用"非盲"多模态大语言模型（MLLMs）来重新格式化PubMed的图像-文本对，以减少数据噪声并生成更高质量的医疗视觉问答（VQA）数据集。该方法旨在提高模型的医疗多模态能力，并为未来的医疗多模态研究提供高质量的数据资源。

➡️ 方法简介：研究团队从PubMed中筛选出高质量的医疗图像-文本对，并使用GPT-4V作为"非盲"重新格式化工具，生成了包含130万个医疗VQA样本的PubMedVision数据集。该数据集通过多种对话场景和任务类型（如对齐VQA和指令调优VQA）来增强模型的多模态能力。

➡️ 实验设计：研究团队在多个基准测试上进行了实验，包括医疗VQA基准、多模态基准MMMU Health & Medicine轨道以及传统医疗影像任务。实验结果表明，使用PubMedVision数据集训练的模型在多个医疗多模态任务上显著优于现有的开源模型。特别是，HuatuoGPT-Vision在多个医疗多模态基准测试中表现出色，显著提升了模型的医疗多模态能力。