Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

大开眼界?探索多模态模型种视觉编码器的缺陷。

论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?

作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)

  • 通过实验发现,增加模型规模/训练数据的数量,多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
  • 通过实验发现,两张很相似的图片(如下图的两只蝴蝶),视觉编码器(CLIP)给出两张图片的相似度很高,但是自编码器(DINO)给出的相似度不是很高,作者定义这两幅图片为CLIP-blind pairs

    clip和多模态模型在这9项任务上的表现

通过增加自监督特征,多模态模型的能力有了提升

上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。

为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。

MMVP-VLM的建立过程

相关推荐
Yeliang Wu1 天前
基于ms-swift框架微调多模态模型(Ubuntu22.04)
微调·多模态·训练·ms-swift
七夜zippoe2 天前
多模态模型实践 - 使用GPT-4V构建多模态应用
ocr·多模态·gpt-4v·核心算法·甲骨
腾飞开源3 天前
27_Spring AI 干货笔记之 OpenAI SDK 聊天功能(官方支持)
人工智能·多模态·工具调用·spring ai·openai sdk·github models·示例控制器
程序员miki3 天前
多模态模型演变
人工智能·python·llm·多模态·vlm
腾飞开源4 天前
21_Spring AI 干货笔记之 Mistral AI 聊天
人工智能·ocr·多模态·springai·聊天模型·mistral ai·openai兼容
余俊晖5 天前
多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1
人工智能·ocr·多模态
余俊晖5 天前
多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方
人工智能·ocr·多模态
Keep_Trying_Go5 天前
基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)
人工智能·pytorch·python·深度学习·transformer·多模态·目标统计
陪我一起学编程6 天前
Swarm框架智能体应用开发与部署
大模型·openai·多模态·swarm·智能体·智能体应用开发·智能体应用部署
小龙6 天前
多模态融合实战步骤
多模态·模态融合·理论知识