多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?

本文介绍了**多模态大型语言模型(MLLM)**的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。

目录

  1. 什么是多模态大型语言模型(MLLM)?

  2. MLLM 在计算机视觉中的应用与案例

  3. 领先的多模态大型语言模型

  4. 未来展望


1. 什么是多模态大型语言模型(MLLM)?

简单来说,多模态大型语言模型(MLLM) 是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。

示例:

图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:

  1. 一张医学影像

  2. 一个文本查询,如:"这张影像中是否存在胸腔积液?"

    该系统输出一个关于该查询的预测答案。

在本文中,可能会简化"多模态大型语言模型"这一术语,直接称其为"多模态模型"。

1.1 人工智能中的多模态崛起

近年来,人工智能经历了重大变革,其中Transformer [5] 体系架构的兴起极大推动了语言模型的发展 [6]。这一架构由 Google 于 2017 年提出,并对计算机视觉领域产生了深远影响。

早期的示例包括视觉 Transformer(ViT) [7],它将图像分割为多个补丁,并将其作为独立的视觉 token 进行输入处理。

随着大型语言模型(LLM) 的崛起,一种新的生成式模型,即多模态大型语言模型(MLLM),自然地诞生了。

如前面时间线图所示,2023 年,大多数科技巨头都推出了至少一种 MLLM。到了 2024 年,OpenAI 的 GPT-4o 在 5 月发布时成为行业热点。

1.2 MLLMs vs VLMs vs 基础模型

一些人认为 MLLMs 其实就是基础模型(Foundation Models) 。例如,Google 的 Vertex AI 将 Claude 3、PaliGemma 和 Gemini 1.5 等多模态大型语言模型归类为基础模型。🤔

👉 了解更多计算机视觉中的基础模型,请查看此文章。

另一方面,视觉语言模型(VLMs) [8] 是多模态模型的一个子类别,它们集成了文本和图像输入,并生成文本输出。

MLLMs 和 VLMs 的主要区别在于:

  1. MLLMs 能处理更多模态,而不仅仅是文本和图像(如 VLMs)。

  2. VLMs 的推理能力较弱,而 MLLMs 具有更强的逻辑推理能力。

1.3 体系架构

如图 3 所示,MLLM 的架构主要分为三个部分:

  1. 模态编码器(Modality Encoder):

    该组件将视觉、音频等原始数据转换为紧凑的表示形式。通常使用预训练编码器(如 CLIP)进行迁移学习,以适配不同的模态输入。

  2. LLM 主干(LLM Backbone):

    语言模型负责生成文本输出,作为 MLLM 的"核心大脑"。编码器接收图像、音频或视频输入并生成特征,由连接器(模态接口)处理后输入 LLM。

  3. 模态接口(Modality Interface):

    连接编码器和 LLM,确保 LLM 能够理解不同模态的信息,并进行合理的推理和输出。


2. 多模态模型在计算机视觉中的应用

为了验证这些模型的能力,使用了 GPU 对三个顶级 MLLMs 进行测试,并使用了具有挑战性的查询(不再是猫🐱和狗🐶的简单示例)。

测试的 MLLMs:

  • GPT-4o (OpenAI)

  • LLaVA 7b (开源,基于 LLaMA)

  • Apple Ferret 7b (Apple 开源)

2.1 目标遮挡情况下的物体计数

任务: 计算图像中出现的安全帽数量,并提供其位置(见图 4)。

  • GPT-4o 提供了详尽的场景描述,但给出的坐标有误。

  • LLaVA 仅检测到 3 个安全帽,并且没有正确识别遮挡部分的安全帽。

  • Apple Ferret 成功检测到 4 个安全帽,包括左侧被遮挡的那个!⭐️

2.2 自动驾驶:风险评估与规划

任务: 从自动驾驶汽车的角度评估风险,并检测车辆和行人(见图 5)。

  • LLaVA 未能识别前方的大卡车。

  • GPT-4o 在文本分析方面表现优异,但检测出的目标框位置错误。

  • Apple Ferret 是唯一一个准确检测出大部分物体并给出正确坐标的模型 ✅。

2.3 体育分析:目标检测与场景理解

任务: 分析足球比赛场景,包括球员计数、球和守门员位置估计,并预测进球可能性(见图 7)。

结果:

  • 所有模型均未能正确检测所有球员,并区分不同球队。

  • 相比之下,YOLOv8 这样的单模态检测模型表现更优

这表明,MLLMs 在一些复杂任务上仍然存在局限性,它们尚未完全取代专门优化的计算机视觉模型。

下一步是否应该对 MLLMs 进行微调?🤔


3. 领先的多模态大型语言模型

模型 输入 输出 描述 链接
GPT-4o(2024, OpenAI) 文本、图像、音频(测试)、视频(测试) 文本、图像 具备跨模态推理能力,采用"多模态思维链"技术。 https://chatgpt.com/
Claude 3.5 Sonnet(2024, Anthropic) 文本、图像 文本、图像 支持 200K token 上下文窗口,擅长复杂分析与自动化任务。 https://claude.ai/
LLaVA(2023, University of Wisconsin-Madison) 文本、图像 文本 开源模型,采用"指令微调"技术,部分任务性能可与 GPT-4 相当。 https://llava-vl.github.io/
Gemini 1.5(2024, Google) 文本、图像、音频(测试)、视频(测试) 文本、图像 三个变体(Ultra、Pro、Nano),适用于不同应用场景。 https://gemini.google.com/
Qwen-VL(2024, Alibaba Cloud) 文本、图像 文本、图像 具有改进的图像推理能力,支持高分辨率图像分析。 https://qwenlm.github.io/blog/qwen-vl/

4. 未来展望

MLLMs 正在重塑计算机视觉,但仍有许多挑战需要解决。例如,它们如何影响传统计算机视觉流水线?🤔

CVPR 2024 系列中,我们探讨了最新的多模态 AI 发展:

  • CVPR 2024:图像与视频搜索 & 理解

  • CVPR 2024 亮点:具身 AI、生成式 AI、基础模型、视频理解

参考资料

[1] A Survey on Multimodal Large Language Models

[2] Language Models are Few-Shot Learners

[3] Introducing Meta Llama-3: The most capable openly available LLM to date

[4] Multimodal medical AI

[5] Attention is all you need

[6] Language Models are Unsupervised Multitask Learners

[7] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

[8] An Introduction to Vision-Language Modeling

[9] GPT-4o

[10] LLaVA: Large Language and Vision Assistant

[11] FERRET: Refer and Ground Anything Anywhere at Any Granularity

相关推荐
紫雾凌寒2 小时前
计算机视觉基础|从 OpenCV 到频域分析
深度学习·opencv·计算机视觉·傅里叶变换·频域分析
小屁孩大帅-杨一凡2 小时前
如何实现使用DeepSeek的CV模型对管道内模糊、低光照或水渍干扰的图像进行去噪、超分辨率重建。...
图像处理·人工智能·opencv·计算机视觉·超分辨率重建
AI趋势预见4 小时前
FinRL-DeepSeek: 大语言模型赋能的风险敏感型强化学习交易代理
数据库·人工智能·语言模型·自然语言处理·金融
高力士等十万人4 小时前
OpenCV形态学操作
人工智能·python·opencv·计算机视觉
埃菲尔铁塔_CV算法4 小时前
基于 C++ OpenCV 图像灰度化 DLL 在 C# WPF 中的拓展应用
c++·图像处理·人工智能·opencv·机器学习·计算机视觉·c#
游王子4 小时前
OpenCV(5):图像形态学操作
人工智能·opencv·计算机视觉
Elastic 中国社区官方博客10 小时前
Elasticsearch 混合搜索 - Hybrid Search
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·全文检索
kcarly12 小时前
KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度?
人工智能·语言模型·自然语言处理
AI技术控15 小时前
计算机视觉算法实战——表面缺陷检测(主页有源码)
计算机视觉
Erekys15 小时前
视觉分析之边缘检测算法
人工智能·计算机视觉·音视频