多模态大模型的视觉基础研究——从CLIP到SEAL

随着各种大模型技术的井喷，多模态、计算机视觉领域的相关研究迈入了一个新的时代。GPT-4V等强力的多模态模型的出现，使得一些传统计算机视觉难以解决的问题得以解决。6月15日，在智源大会的"多模态大模型"论坛上，纽约大学助理教授谢赛宁从哲学的角度分享了针对大语言时代的视觉表征研究。他和团队的两篇最新研究论文，分别探讨了多模态大型语言模型的视觉缺陷以及基于视觉搜索引导的多模态大模型。本文将详细介绍这些研究成果，并探讨它们的实际应用。

探索多模态大语言模型的视觉缺陷

CLIP的现状和挑战

谢赛宁的第一篇论文《大开眼界？探索多模态大语言模型的视觉缺陷》（Eyes Wide Shut？ Exploring the Visual Shortcomings of Multimodal LLMs）专注于探索多模态大语言模型中存在的缺陷。CLIP是OpenAI在2021年发布的一种多模态视觉和语言模型，可以实现图像文本相似性和零样本图像分类。然而，在多模态技术井喷的当下，三年前的CLIP现在还够用吗？对于语言理解来说，现有的视觉表征学习系统足够好吗？

为了搞清楚这一点，谢赛宁和他的团队系统性地收集了GPT-4V的失败案例，并通过"CLIP-blind Pairs"方法构建了一个新的名为"MMVP"的对比基准。他们首先从现有的数据集（如ImageNet、LAION）中找出一些成对的图像，并在CLIP和通过自监督方式训练的纯视觉模型的特征空间中度量图像对的嵌入距离。通过这样的方式，团队构建了一个针对视觉表征学习系统的"考卷"，可以利用它来评价各种多模态大语言模型。

结果与发现

研究结果显示，人类在视觉差异识别上的得分遥遥领先于任何大模型，证明现有的多模态大模型在视觉理解上还有很大的提升空间。为了进一步理解这些差异，研究团队总结了多模态系统在视觉方面的九类典型错误，并尝试通过向CLIP编码器加入自监督视觉编码器的特征来提升模型性能。结果显示，这种方法在一些任务上取得了显著的性能提升。

谢赛宁指出，研究社区急需比CLIP更强的继任者，在保持CLIP优点的情况下弥补它的不足。视觉自监督学习仍然具有很高的研究价值，视觉基础对于语言理解和语义表示也十分重要。

基于视觉搜索引导的多模态大模型

视觉与语言模型的融合

谢赛宁团队的另一篇论文《V*: 引导式视觉搜索作为多模态大语言模型的核心机制》（V*：Guided Visual Search as a Core Mechanism in Multimodal LLMs）从另一个角度研究了视觉与语言模型的融合。现有的多模态语言模型在处理视觉信息时，仍然依赖于在小规模图像数据上预训练的编码器，导致AI不能像人类一样将注意力集中在关键视觉信息上。

为了设计更好的视觉搜索模型，谢赛宁指出可以借鉴人类视觉和认知的引导信息，包括自底向上的显著性引导、自顶向下的特征引导、场景引导等。在大语言模型提供的丰富世界知识编码基础上，谢赛宁的团队提出了SEAL框架（Show、sERach和telL），将视觉搜索能力融入到多模态大模型中。

SEAL框架的设计

SEAL是一个元架构，包含VQA大语言模型、视觉工作记忆（VWM）和视觉搜索模块。VQA是人与系统交互的接口，当没有看到需要的视觉信息时，会激活视觉搜索模型获取信息并填充到视觉工作记忆中。然后，VQA的大语言模型从视觉工作记忆中获取相关信息，回答用户的问题。视觉工作记忆可以包含原始问题、全局上下文、视觉搜索结果等。

通过这种递归的视觉搜索方式，SEAL框架能够在复杂的视觉任务中表现出色。例如，如果问模型橙色的行李最有可能在哪里，模型会回答在人旁边，然后一步步找到目标物体。这种方法展示了视觉搜索在多模态大模型中的重要性和潜力。

总结与展望

谢赛宁的两篇论文展示了多模态大语言模型在视觉理解上的挑战和提升路径。研究结果表明，现有的多模态大模型在视觉差异识别上还有很大的提升空间。通过引入自监督视觉编码器的特征和设计更好的视觉搜索模型，可以显著提升多模态大模型的性能。

未来，随着更多研究者的参与和技术的进步，我们有理由相信，多模态大语言模型将能够更好地理解和处理视觉信息，为各类应用场景提供更加智能和高效的解决方案。

进一步学习资源

希望本文能为大家提供有价值的信息和思考。如果您对多模态大模型和视觉理解有更多的看法，欢迎在评论区留言与我们分享。