Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

大开眼界?探索多模态模型种视觉编码器的缺陷。

论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?

作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)

  • 通过实验发现,增加模型规模/训练数据的数量,多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
  • 通过实验发现,两张很相似的图片(如下图的两只蝴蝶),视觉编码器(CLIP)给出两张图片的相似度很高,但是自编码器(DINO)给出的相似度不是很高,作者定义这两幅图片为CLIP-blind pairs

    clip和多模态模型在这9项任务上的表现

通过增加自监督特征,多模态模型的能力有了提升

上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。

为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。

MMVP-VLM的建立过程

相关推荐
余俊晖9 天前
使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster
agent·多模态·文档智能
扫地僧98510 天前
基于多模态脑电、音频与视觉信号的情感识别算法【Nature核心期刊,EAV:EEG-音频-视频数据集】
音视频·多模态·eav:eeg数据集
寻丶幽风10 天前
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing
论文阅读·人工智能·笔记·多模态·理解生成模型
寻丶幽风13 天前
论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining
论文阅读·笔记·大模型·多模态
寻丶幽风14 天前
论文阅读笔记——Janus,Janus Pro
论文阅读·人工智能·笔记·多模态·理解生成模型
扫地僧98514 天前
基于音频Transformer与动作单元的多模态情绪识别算法设计与实现(在RAVDESS数据集上的应用)
人工智能·深度学习·transformer·多模态·情绪识别
CV-deeplearning15 天前
StepX-Edit:一个通用图像编辑框架——论文阅读笔记
论文阅读·多模态·图像编辑
逐云者12316 天前
零售智能执行大模型架构设计:从空间建模到上下文推理,再到智能Agent
agent·零售·多模态·智能系统架构
老唐77718 天前
前沿技术:如何从多模态文件中自动提取有效信息?
人工智能·深度学习·机器学习·ai·自然语言处理·大模型·多模态
Panesle19 天前
开源的跨语言GUI元素理解8B大模型:AgentCPM-GUI
人工智能·开源·大模型·多模态·生成模型