多模态大语言模型arxiv论文略读(十二)

MarineGPT: Unlocking Secrets of Ocean to the Public

➡️ 论文标题:MarineGPT: Unlocking Secrets of Ocean to the Public

➡️ 论文作者:Ziqiang Zheng, Jipeng Zhang, Tuan-Anh Vu, Shizhe Diao, Yue Him Wong Tim, Sai-Kit Yeung

➡️ 研究机构: Hong Kong University of Science and Technology, Shenzhen University

➡️ 问题背景:大型语言模型(LLMs)如ChatGPT/GPT-4在促进用户体验方面展现出了强大的能力。然而,现有的LLMs主要集中在文本输入上,对于需要特定领域知识和专业知识的应用,尤其是在海洋领域,这些模型的能力有限。多模态大型语言模型(MLLMs)虽然能够处理多种模态的输入,但在特定领域的应用中,尤其是在海洋领域,仍存在理解特定意图和生成信息丰富、令人满意的响应方面的能力不足。

➡️ 研究动机:为了克服现有MLLMs在特定领域应用中的局限性,特别是海洋领域,研究团队提出了MarineGPT,这是第一个专门为海洋领域设计的视觉-语言模型。MarineGPT旨在通过注入特定领域的海洋知识,提高模型在海洋视觉和语言对齐方面的能力,从而为公众揭开海洋的秘密。

➡️ 方法简介:研究团队构建了一个包含超过500万海洋图像-文本对的Marine-5M数据集,用于海洋特定的连续预训练。此外,团队还设计了50种不同的海洋特定指令,基于海洋生物学家的专业知识和需求,以帮助MarineGPT理解用户意图。通过这些方法,研究团队能够有效地将海洋知识注入模型,使MarineGPT能够生成信息丰富且特定领域的响应。

➡️ 实验设计:研究团队在两个主要阶段进行了实验:1)基于Marine-5M数据集的海洋特定连续预训练,以获取海洋视觉-语言对齐能力;2)基于自构建的高质量图像-文本对的指令跟随微调,以生成更信息丰富、可靠和科学的答案,增强MarineGPT的专业能力和可用性。实验结果表明,仅优化线性层无法有效对齐视觉信号和文本描述,还需要优化Q-Former以实现更有效和细粒度的海洋视觉-语言对齐。

On Bilingual Lexicon Induction with Large Language Models

➡️ 论文标题:On Bilingual Lexicon Induction with Large Language Models

➡️ 论文作者:Yaoyiran Li, Anna Korhonen, Ivan Vulić

➡️ 研究机构: University of Cambridge

➡️ 问题背景:双语词典构建(Bilingual Lexicon Induction, BLI)是多语言自然语言处理(NLP)中的一个核心任务,主要依赖于计算跨语言词表示。随着大型语言模型(LLMs)在NLP领域的广泛应用,研究团队探讨了利用多语言LLMs(mLLMs)进行BLI的潜力。

➡️ 研究动机:现有的BLI方法主要依赖于跨语言词嵌入(CLWEs)。研究团队旨在探索mLLMs在BLI任务中的表现,以及这种新方法与现有方法的比较和互补性。具体来说,研究团队通过零样本和少样本提示,以及对较小规模mLLMs的微调,系统地评估了mLLMs在BLI任务中的性能。

➡️ 方法简介:研究团队采用了18个开源的多语言文本到文本mLLMs(从0.3B到13B参数),在两个标准的BLI基准数据集上进行了实验。实验设计包括零样本提示、少样本上下文提示(使用最近邻的翻译对作为示例),以及标准的BLI导向微调。研究团队还设计了多种提示模板,以适应不同类型的mLLMs。

➡️ 实验设计:实验在两个标准的BLI基准数据集XLING和PanLex-BLI上进行。XLING数据集涵盖了8种语言和56个BLI方向,而PanLex-BLI数据集则涵盖了15种低资源语言和210个BLI方向。实验设计了5K、1K和无监督三种设置,分别对应监督、半监督和无监督BLI任务。研究团队还进行了多种消融研究,以评估不同因素(如上下文示例数量、最近邻示例的有效性)对BLI性能的影响。

Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs

➡️ 论文标题:Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs

➡️ 论文作者:Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski

➡️ 研究机构: University of Southern California, Vrije Universiteit Amsterdam

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在零样本视觉问答(Zero-shot Visual Question Answering, VQA)任务中取得了显著的准确性。然而,这些模型在处理图像和问题的不同属性时存在局限性,特别是在识别图像中的小细节方面。研究发现,MLLMs在回答涉及小视觉对象的问题时,其零样本准确率显著下降,最高可达46%。

➡️ 研究动机:尽管MLLMs具有强大的表示能力和广泛的图像预训练,但它们在识别小视觉细节方面存在显著困难。为了进一步理解这一局限性,并探索潜在的解决方案,研究团队通过实验和方法开发,系统地分析了MLLMs在不同大小视觉对象上的表现,并提出了视觉裁剪(Visual Cropping)方法来改善模型的零样本性能。

➡️ 方法简介:研究团队首先通过实验验证了MLLMs在处理小视觉对象时的局限性,然后提出了五种自动视觉裁剪方法,这些方法利用外部定位模型或MLLM自身的决策过程来确定图像中的兴趣区域,并通过裁剪这些区域来提高模型的识别能力。这些方法包括基于外部知识的视觉裁剪(如clip-CROP、yolo-CROP、sam-CROP)和基于模型内部机制的视觉裁剪(如grad-CROP、att-CROP)。

➡️ 实验设计:研究团队在四个流行的VQA数据集上进行了实验,包括一个专门针对细粒度视觉细节的VQAv2子集。实验设计了不同的裁剪方法和裁剪比例,以评估这些方法在不同条件下的有效性和对模型性能的提升。实验结果表明,视觉裁剪方法可以显著提高MLLMs在识别小视觉细节方面的零样本准确率。

Woodpecker: Hallucination Correction for Multimodal Large Language Models

➡️ 论文标题:Woodpecker: Hallucination Correction for Multimodal Large Language Models

➡️ 论文作者:Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, Enhong Chen

➡️ 研究机构: 中国科学技术大学数据科学学院 & 认知智能国家重点实验室、腾讯优图实验室

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在生成文本时,经常出现与图像内容不一致的现象,称为"幻觉"(hallucination)。这种现象严重影响了MLLMs的实际应用,尤其是在视觉-语言任务中。

➡️ 研究动机:现有的研究主要通过指令调优(instruction-tuning)来减少幻觉,这需要重新训练模型并使用特定的数据。然而,这种方法不仅数据密集,而且计算成本高。为了克服这些限制,研究团队提出了一种无需训练的框架------Woodpecker,用于直接纠正MLLMs生成文本中的幻觉。

➡️ 方法简介:Woodpecker框架包含五个阶段:关键概念提取、问题形成、视觉知识验证、视觉声明生成和幻觉纠正。通过这些阶段,Woodpecker能够识别并纠正生成文本中的幻觉,并提供相应的证据(如边界框),从而提高模型的可解释性和可靠性。

➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括POPE、MME和LLaVA-QA90。实验设计了不同的任务,如对象存在性判断、对象计数、位置和颜色属性判断等,以全面评估Woodpecker在减少幻觉方面的效果。实验结果表明,Woodpecker在多个指标上显著提升了基线模型的性能,特别是在POPE基准上,MiniGPT-4和mPLUG-Owl的准确率分别提高了30.66%和24.33%。

Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model

➡️ 论文标题:Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model

➡️ 论文作者:Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao, Chengfeng Dou, Zhengwei Tao, Xinhai Xu, Donghong Liu

➡️ 研究机构: 北京大学计算机学院、军事科学院

➡️ 问题背景:多模态大语言模型(MLLM)在处理多模态任务中展现出强大的能力,尤其是在自动驾驶、智能医疗、机器人、虚拟和增强现实等领域。然而,当前MLLM在空间感知能力方面仍存在显著不足,无法满足人类需求的精确度。例如,在自动驾驶中,精确的物体定位对于确保安全驾驶至关重要;在智能医疗中,精确的结构定位对于准确诊断和治疗计划同样重要。

➡️ 研究动机:为了提升MLLM的空间感知能力,研究团队提出了一种新方法,通过使用预训练的小模型提供几何空间信息和高层次的语义细节,从而指导MLLM生成更准确的结果。具体来说,研究团队利用预训练的对象检测算法和场景图生成算法,获取与查询相关的几何空间信息和场景细节,然后基于这些信息指导MLLM回答用户的空间感知相关问题。

➡️ 方法简介:研究团队提出了一种系统的方法,首先从用户的查询中提取目标实体,然后利用对象检测和场景图生成算法获取这些实体的几何空间位置信息和场景图数据。最后,通过设计的提示(prompt),引导MLLM基于这些信息回答空间感知相关的问题。

➡️ 实验设计:研究团队在MME、MM-Vet等基准数据集上进行了广泛的实验,评估了所提出方法在空间感知任务及相关任务中的性能。实验结果表明,该方法不仅显著提升了MLLM在空间感知任务中的表现,还在其他相关任务中取得了显著的改进,如物体识别、场景理解和混合任务。

相关推荐
飞火流星0202739 分钟前
BERT、T5、ViT 和 GPT-3 架构概述及代表性应用
人工智能·gpt-3·bert·t5·vit·人工智能模型架构
程序小K41 分钟前
自然语言处理Hugging Face Transformers
人工智能·自然语言处理
恒拓高科WorkPlus44 分钟前
BeeWorks:打造安全可控的企业内网即时通讯平台
大数据·人工智能·安全
newxtc2 小时前
【指纹浏览器系列-chromium编译】
人工智能·安全
轻闲一号机2 小时前
【机器学习】机器学习笔记
人工智能·笔记·机器学习
光锥智能2 小时前
傅利叶发布首款开源人形机器人N1:开发者可实现完整复刻
人工智能
恒拓高科WorkPlus2 小时前
一款安全好用的企业即时通讯平台,支持统一门户
大数据·人工智能·安全
天下琴川2 小时前
Dify智能体平台源码二次开发笔记(5) - 多租户的SAAS版实现(2)
人工智能·笔记
qq_365911603 小时前
中英文提示词对AI IDE编程能力影响有多大?
人工智能
jndingxin3 小时前
OpenCV 图形API(31)图像滤波-----3x3 腐蚀操作函数erode3x3()
人工智能·opencv·计算机视觉