Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

大开眼界?探索多模态模型种视觉编码器的缺陷。

论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?

作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)

  • 通过实验发现,增加模型规模/训练数据的数量,多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
  • 通过实验发现,两张很相似的图片(如下图的两只蝴蝶),视觉编码器(CLIP)给出两张图片的相似度很高,但是自编码器(DINO)给出的相似度不是很高,作者定义这两幅图片为CLIP-blind pairs

    clip和多模态模型在这9项任务上的表现

通过增加自监督特征,多模态模型的能力有了提升

上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。

为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。

MMVP-VLM的建立过程

相关推荐
xx_xxxxx_19 小时前
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析3-部分数学理论基础
论文阅读·机器学习·transformer·多模态
最初的↘那颗心20 小时前
Spring AI Alibaba 多模态全家桶:图片理解、图片生成与语音合成实战
spring boot·大模型·多模态·通义千问·spring ai
rgb2gray3 天前
论文详解 | HDAM:破解 MAUP 的城市出行需求分析新方法,实现关键驱动精准识别
人工智能·python·llm·大语言模型·需求分析·多模态·maup
大傻^4 天前
从感知机到DeepSeek:AI大模型基础认知全栈解析(演进史·架构对比·参数详解)
transformer·生成式ai·多模态·qwen模型·大模型基础·deepseek架构·参数规模
山顶夕景1 个月前
【VLM】Qwen3-VL模型架构和训练流程
大模型·llm·多模态·vlm
雪碧聊技术1 个月前
AIGC简介
aigc·多模态·2b·2c
山顶夕景1 个月前
【MLLM】Qwen3.5模型
大模型·llm·多模态·infra
Together_CZ1 个月前
Index-ASR Technical Report——Index-ASR 技术报告
llm·语音识别·多模态·自然语言·asr·技术报告·index-asr
小宋加油啊1 个月前
多模态方法学习
学习·多模态
乌萨奇5371 个月前
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)
人工智能·深度学习·考研·计算机视觉·nlp·多模态