多模态大模型的视觉基础研究——从CLIP到SEAL

随着各种大模型技术的井喷,多模态、计算机视觉领域的相关研究迈入了一个新的时代。GPT-4V等强力的多模态模型的出现,使得一些传统计算机视觉难以解决的问题得以解决。6月15日,在智源大会的"多模态大模型"论坛上,纽约大学助理教授谢赛宁从哲学的角度分享了针对大语言时代的视觉表征研究。他和团队的两篇最新研究论文,分别探讨了多模态大型语言模型的视觉缺陷以及基于视觉搜索引导的多模态大模型。本文将详细介绍这些研究成果,并探讨它们的实际应用。

探索多模态大语言模型的视觉缺陷

CLIP的现状和挑战

谢赛宁的第一篇论文《大开眼界?探索多模态大语言模型的视觉缺陷》(Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs)专注于探索多模态大语言模型中存在的缺陷。CLIP是OpenAI在2021年发布的一种多模态视觉和语言模型,可以实现图像文本相似性和零样本图像分类。然而,在多模态技术井喷的当下,三年前的CLIP现在还够用吗?对于语言理解来说,现有的视觉表征学习系统足够好吗?

为了搞清楚这一点,谢赛宁和他的团队系统性地收集了GPT-4V的失败案例,并通过"CLIP-blind Pairs"方法构建了一个新的名为"MMVP"的对比基准。他们首先从现有的数据集(如ImageNet、LAION)中找出一些成对的图像,并在CLIP和通过自监督方式训练的纯视觉模型的特征空间中度量图像对的嵌入距离。通过这样的方式,团队构建了一个针对视觉表征学习系统的"考卷",可以利用它来评价各种多模态大语言模型。

结果与发现

研究结果显示,人类在视觉差异识别上的得分遥遥领先于任何大模型,证明现有的多模态大模型在视觉理解上还有很大的提升空间。为了进一步理解这些差异,研究团队总结了多模态系统在视觉方面的九类典型错误,并尝试通过向CLIP编码器加入自监督视觉编码器的特征来提升模型性能。结果显示,这种方法在一些任务上取得了显著的性能提升。

谢赛宁指出,研究社区急需比CLIP更强的继任者,在保持CLIP优点的情况下弥补它的不足。视觉自监督学习仍然具有很高的研究价值,视觉基础对于语言理解和语义表示也十分重要。

基于视觉搜索引导的多模态大模型

视觉与语言模型的融合

谢赛宁团队的另一篇论文《V*: 引导式视觉搜索作为多模态大语言模型的核心机制》(V*:Guided Visual Search as a Core Mechanism in Multimodal LLMs)从另一个角度研究了视觉与语言模型的融合。现有的多模态语言模型在处理视觉信息时,仍然依赖于在小规模图像数据上预训练的编码器,导致AI不能像人类一样将注意力集中在关键视觉信息上。

为了设计更好的视觉搜索模型,谢赛宁指出可以借鉴人类视觉和认知的引导信息,包括自底向上的显著性引导、自顶向下的特征引导、场景引导等。在大语言模型提供的丰富世界知识编码基础上,谢赛宁的团队提出了SEAL框架(Show、sERach和telL),将视觉搜索能力融入到多模态大模型中。

SEAL框架的设计

SEAL是一个元架构,包含VQA大语言模型、视觉工作记忆(VWM)和视觉搜索模块。VQA是人与系统交互的接口,当没有看到需要的视觉信息时,会激活视觉搜索模型获取信息并填充到视觉工作记忆中。然后,VQA的大语言模型从视觉工作记忆中获取相关信息,回答用户的问题。视觉工作记忆可以包含原始问题、全局上下文、视觉搜索结果等。

通过这种递归的视觉搜索方式,SEAL框架能够在复杂的视觉任务中表现出色。例如,如果问模型橙色的行李最有可能在哪里,模型会回答在人旁边,然后一步步找到目标物体。这种方法展示了视觉搜索在多模态大模型中的重要性和潜力。

总结与展望

谢赛宁的两篇论文展示了多模态大语言模型在视觉理解上的挑战和提升路径。研究结果表明,现有的多模态大模型在视觉差异识别上还有很大的提升空间。通过引入自监督视觉编码器的特征和设计更好的视觉搜索模型,可以显著提升多模态大模型的性能。

未来,随着更多研究者的参与和技术的进步,我们有理由相信,多模态大语言模型将能够更好地理解和处理视觉信息,为各类应用场景提供更加智能和高效的解决方案。

进一步学习资源

希望本文能为大家提供有价值的信息和思考。如果您对多模态大模型和视觉理解有更多的看法,欢迎在评论区留言与我们分享。

相关推荐
码上好玩10 分钟前
vscode写python,遇到问题:ModuleNotFoundError: No module named ‘pillow‘(已解决 避坑)
vscode·python·pillow
Dcy_ASK12 分钟前
认识Python语言
开发语言·python
静静AI学堂16 分钟前
Yolo11改策略:卷积改进|SAC,提升模型对小目标和遮挡目标的检测性能|即插即用
人工智能·深度学习·目标跟踪
工业互联网专业37 分钟前
Python毕业设计选题:基于python的酒店推荐系统_django+hadoop
hadoop·python·django·vue·毕业设计·源码·课程设计
martian66539 分钟前
【人工智能离散数学基础】——深入详解数理逻辑:理解基础逻辑概念,支持推理和决策系统
人工智能·数理逻辑·推理·决策系统
Schwertlilien40 分钟前
图像处理-Ch7-图像金字塔和其他变换
图像处理·人工智能
Hello_WOAIAI43 分钟前
大模型时代的NL2SQL初探
自然语言处理·text2sql·nl2sql
任小永的博客44 分钟前
VUE3+django接口自动化部署平台部署说明文档(使用说明,需要私信)
后端·python·django
凡人的AI工具箱1 小时前
每天40分玩转Django:Django类视图
数据库·人工智能·后端·python·django·sqlite
余生H1 小时前
前端Python应用指南(三)Django vs Flask:哪种框架适合构建你的下一个Web应用?
前端·python·django