【微软：多模态基础模型】（1）从专家到通用助手

欢迎关注【youcans的AGI学习笔记】原创作品
【微软：多模态基础模型】（1）从专家到通用助手
 【微软：多模态基础模型】（2）视觉理解
 【微软：多模态基础模型】（3）视觉生成
 【微软：多模态基础模型】（4）统一视觉模型

【微软：多模态基础模型】（1）从专家到通用助手

- [Multimodal Foundation Models: From Specialists to General-Purpose Assistants](#Multimodal Foundation Models: From Specialists to General-Purpose Assistants)
- [0. 摘要](#0. 摘要)
- [1. 总体介绍](#1. 总体介绍)
- - [1.1 什么是多模态基础模型](#1.1 什么是多模态基础模型)
  - [1.2 从专家到通用助理的定义与转变](#1.2 从专家到通用助理的定义与转变)
  - [1.3 谁应该阅读这篇论文？](#1.3 谁应该阅读这篇论文？)
  - [1.4 相关材料：幻灯片和预先录制的演讲](#1.4 相关材料：幻灯片和预先录制的演讲)

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

2023 年 6 月，微软在 CVPR2023 发表论文「多模态基础模型：从专家到通用助手」（Multimodal Foundation Models: From Specialists to General-Purpose Assistants）。本文全面综述了多模态基础模型的分类和演化，这些模型展示了视觉和视觉语言能力，并重点关注了从专家向通用助手的过渡。

arXiv 下载地址：
https://arxiv.org/abs/2309.10020
https://ar5iv.labs.arxiv.org/html/2309.10020

本系列介绍该文的主要内容。

0. 摘要

Abstract

本论文全面综述了多模态基础模型的分类和演化，这些模型展示了视觉和视觉语言能力，并重点关注了从专家模型向通用助手的过渡。论文包括五个核心主题。

首先对成熟的研究领域进行了调查：为特定目的预先训练的多模态基础模型。包括两个主题：
- （1）学习视觉理解的视觉骨干方法，
- （2）文本到图像的生成。
然后介绍了探索性开放研究领域的最新进展：旨在发挥通用助手作用的多模态基础模型。包括三个主题：
- （1）受大型语言模型（LLM）启发的统一视觉模型；
- （2）多模态LLM的端到端训练；
- （3）将多模态工具与LLM链接起来。

本文的目标受众是计算机视觉和视觉语言多模态领域，对学习多模态基础模型的基础知识和最新进展感兴趣的研究人员、研究生和专业人员。

1. 总体介绍

Chapter 1 Introduction

视觉是人类和许多生物感知世界和与世界互动的一个主要渠道。人工智能（AI）的一个核心愿望是开发 AI 代理，来模仿这种有效感知和生成视觉信号的能力，从而在视觉世界中进行推理和互动。例如，识别场景中的对象和动作，创建用于交流的草图和图片。构建具有视觉能力的基础模型是一个旨在实现这一目标的热门研究领域。

在过去的十年里，人工智能领域在模型开发方面经历了富有成效的发展轨迹。我们将它们分为四类，如图1.1所示。这种分类可以在人工智能的不同领域之间共享，包括语言、视觉和多模态。我们首先使用NLP中的语言模型来说明进化过程。

（1）在早期，针对单个数据集和任务开发了特定任务的模型，通常是从头开始训练的。
（2）通过大规模的预训练，语言模型在许多既定的语言理解和生成任务上实现了最先进的性能，如BERT（Devlin等，2019）、RoBERTa（Liu等，2019），T5（Raffel等，2020）、DeBERTa（He等，2021）和GPT-2（Radford等，2019）。这些预训练模型为下游任务适应提供了基础。
（3）以GPT-3（Brown等，2020）为例，大型语言模型（LLM）将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一，一些新兴的能力出现了，比如上下文学习和思维链。
（4）随着人工智能与人类对齐的最新进展，LLM 开始扮演通用助手的角色，以遵循人类意图完成各种各样的语言任务，如ChatGPT（OpenAI，2022）和GPT-4（OpenAI，2023）。这些助手展现出有趣的能力，如交互和使用工具，并为开发通用AI代理奠定了基础。值得注意的是，基础模型的最新版本在保留早期版本的显著特性的基础上，也提供了额外的功能。

图1.1：语言和视觉/多模态的基础模型发展路线图。在这四个类别中，第一类是任务特定模型，后三类属于基础模型，这些语言和视觉的基础模型分别分为绿色和蓝色块。突出显示了每个类别中模型的一些突出特性。通过比较语言和视觉之间的模型，我们预测多模态基础模型的转变遵循类似的趋势：从用于特定目的的预训练模型到统一模型和通用助手。然而，由于多模态GPT-4和Gemini并未公开，需要进行研究探索以找出最佳方案，图中以问号表示。

受到自然语言处理（NLP）中LLM的巨大成功的启发，计算机视觉和视觉语言领域的研究人员自然会提出这样一个问题：在视觉、视觉语言和多模态模型领域，与 ChatGPT/GPT-4 相对应的模型是什么？

毫无疑问，自BERT诞生以来，视觉预训练和视觉语言预训练（VLP）引起了越来越多的关注，并已成为视觉的主流学习范式，有望学习通用的可转移视觉和视觉语言表示，或生成高度可信的图像。可以说，它们可以被视为多模态基础模型的早期一代，就像BERT/GPT-2在语言领域一样。虽然为ChatGPT 等语言构建通用助手的路线图很明确，但对于计算机视觉领域，探索构建计算机视觉领域的对应技术------通用视觉助手的可行解决方案越来越重要。

总体而言，构建通用代理一直是人工智能的长期目标。具有新兴特性的LLM大大降低了为语言任务构建此类代理的成本。同样，我们预见到视觉模型的新兴能力，例如遵循由各种视觉提示组成的指令，如用户上传的图像、人类绘制的点击、草图和掩码，以及文本提示。如此强大的零样本视觉任务合成能力，可以显著降低人工智能代理的构建成本。

本文将多模态基础模型的范围限定在视觉和视觉语言领域。最近关于相关主题的综述包括：

图像理解模型
如自监督学习（Jaiswal等，2020；Jing，2020；Ozbulak等，2023）、分割一切（SAM）（Zhang等，2023）；
图像生成模型
（Zhang等，2023b；Zhou和Shimada，2023）；
视觉语言预训练（VLP）
现有的VLP 综述涵盖了预训练、图像文本任务、核心视觉任务和/或视频文本任务时代之前针对特定任务VL问题的VLP方法（Zhang等，2020；Du等，2022；Li等，2022c；Ruan，2022；Chen等，2022a；Gan等，2022b；Zhang等，2023g）。最近两篇综述涵盖了视觉模型与LLM的集成（Awais人，2023；Yin人，2022）。其中，Gan等（2022）是一项关于VLP的综述，涵盖了2022年及之前CVPR 关于视觉和语言研究最新进展。

本文总结了2023年 CVPR 视觉基础模型的最新进展。与上述专注于特定研究主题的文献综述不同，本文提出了我们对大型语言模型时代多模态基础模型从专家模型到通用视觉助手（AGI）的角色转变的看法。

本调查论文的贡献总结如下。

我们提供了一份全面而及时的多模态基础模型的综述，不仅涵盖了视觉表示学习和图像生成的成熟模型，还总结了过去6个月受LLM启发的新兴主题，包括：统一视觉模型、与 LLM 的训练和链接。
本文旨在为受众提供一个视角，倡导在开发多模态基础模型方面进行转型。除了在特定视觉问题上取得巨大的建模成功之外，我们还在朝着构建通用助手的方向发展。这些助手可以遵循人类的意图，在野外完成各种计算机视觉任务。我们对这些高级主题进行了深入讨论，展示了开发通用视觉助手的潜力。

1.1 什么是多模态基础模型

1.1 What are Multimodal Foundation Models?

正如斯坦福基础模型论文（Bommasani等，2021）所阐述，随着在广泛数据上训练的模型（例如，BERT、GPT家族、CLIP（Radford等，2021）和DALL-E（Ramesh等，2021a）的崛起，人工智能正在经历一场范式转变------这些模型可以适应广泛的下游任务 。他们将这些模型称为基础模型，以强调它们的关键中心但不完整的特性：研究社区方法的同质化和新能力的出现。从技术角度来看，是迁移学习使基础模型成为可能，而规模使它们变得强大。

基础模型的出现主要在NLP领域观察到，从BERT到ChatGPT都有例子。这一趋势近年来获得了推广，扩展到计算机视觉和其他领域。在NLP领域，BERT于2018年的引入被视为基础模型时代的开始。BERT的显著成功迅速激发了计算机视觉社区对自监督学习的兴趣，产生了诸如SimCLR（Chen等，2020a）、MoCo（He等，2020）、BEiT（Bao等，2022）和MAE（He等，2022a）等模型。与此同时，预训练的成功也显著促进了视觉与语言多模态领域的关注，达到了前所未有的水平。

在本文中，我们关注多模态基础模型，它们继承了斯坦福论文（Bommasani等，2021）中讨论的所有基础模型的特性，但强调具有处理视觉和视觉语言模态的能力的模型。在不断增长的文献中，我们根据它们的功能和普适性将多模态基础模型分类如图1.2所示。对于每个类别，我们呈现了示例模型，展示了这些多模态基础模型固有的主要能力。

图1.2：本文中多模态基础模型旨在解决的三个代表性问题的说明：视觉理解任务、视觉生成任务和具有语言理解和生成功能的通用界面

视觉理解模型。 （在图1.2中用橙色标出）

学习通用的视觉表示对于构建视觉基础模型至关重要，因为预训练强大的视觉主干对所有类型的计算机视觉下游任务都是基本的，从图像级别（例如，图像分类、检索和字幕生成），到区域级别（例如，检测和定位），再到像素级别任务（例如，分割）。

我们根据用于训练模型的监督信号的类型，将这些方法分为三类。
- 标签监督
  
  如 ImageNet（Krizhevsky等，2012）和 ImageNet21K（Ridnik等，2021）这样的数据集一直以来都在监督学习中很受欢迎，而在工业实验室中也使用了更大规模的专有数据集（Sun等，2017；Singh等，2022b；Zhai等，2022a）。
- 语言监督
  
  语言是一种更丰富的监督形式。如 CLIP（Radford等，2021）和ALIGN（Jia等，2021）这样的模型是使用对数百万甚至数十亿来自网络的嘈杂图像文本对的对比损失进行预训练的。这些模型可以实现 zero-shot 图像分类，并使传统的计算机视觉（CV）模型执行开放词汇的CV任务。我们提倡"野外计算机视觉"的概念，并鼓励未来基础模型的发展和评估。
- 图像自监督
  
  这一领域的研究旨在从图像本身挖掘的监督信号中学习图像表示，包括对比学习（Chen等，2020a；He等，2020）、非对比学习（Grill等，2020；Chen，2021；Caron等，2021）以及遮挡图像建模（Bao等，2022；He等，2022a）等方法。
- 多模态融合、区域级和像素级预训练
  
  除了预训练图像主干的方法外，我们还将讨论允许多模态融合（例如CoCa（Yu等，2022a）、Flamingo（Alayrac等，2022））以及区域级和像素级图像理解（例如开放集物体检测（例如GLIP（Li等，2022e））和可提示分割（例如SAM（Kirillov等，2023））的预训练方法。这些方法通常依赖于预训练的图像编码器或预训练的图像文本编码器对。
视觉生成模型。 （在图1.2中用绿色标出）

最近，由于大规模图像文本数据的出现，基础图像生成模型已经被构建出来。使这成为可能的技术包括矢量量化的VAE方法（Razavi等，2019）、基于扩散的模型（Dhariwal和Nichol，2021）和自回归模型。
- 文本条件的视觉生成
  
  这一研究领域侧重于生成忠实的视觉内容，包括图像、视频等，条件是开放式文本描述/提示。文本到图像生成开发了能够根据文本提示合成高保真图像的生成模型。杰出的示例包括DALL-E（Ramesh等，2021a）、DALL-E 2（Ramesh等，2022）、Stable Diffusion（Rombach等，2021；sta，2022）、Imagen（Saharia等，2022）和Parti（Yu等，2022b）。在文本到图像生成模型取得成功的基础上，文本到视频生成模型根据文本提示生成视频，例如Imagen Video（Ho等，2022）和Make-A-Video（Singer等，2022）。
- 与人类对齐的视觉生成器
  
  这一研究领域侧重于改进预训练的视觉生成器，以更好地遵循人类意图。已经在解决基础视觉生成器固有挑战的各个方面付出了努力。这些挑战包括提高空间可控性（Zhang和Agrawala，2023；Yang等，2023b）、确保更好地遵循文本提示（Black等，2023）、支持灵活的基于文本的编辑（Brooks等，2023）以及促进视觉概念的定制（Ruiz等，2023）。
通用视觉模型。 （图1.2中以蓝色突出显示）

上述多模态基础模型是为特定目的而设计的，即解决一组特定的CV问题/任务。最近，我们看到了为人工智能代理奠定基础的通用模型的出现。现有的工作集中在三个主题：第一个主题旨在统一视觉理解和生成的模型。这些模型受到NLP中LLM统一精神的启发，但在建模中没有明确利用预训练的LLM。另外两个主题分别包含并涉及LLM建模，包括LLM的训练和链接。
- 用于理解和生成的统一视觉模型
  
  在计算机视觉领域，已经尝试了多种方法，通过结合特定用途的多模态模型的功能来构建通用基础模型。为此，采用了各种下游计算机视觉和视觉语言（VL）任务的统一模型架构。
  
  统一有不同的层次。首先，一种普遍的努力是通过将所有封闭集视觉任务转化为开放集任务来构建视觉和语言之间的桥梁，例如CLIP（Radford等，2021），GLIP（Li等，2022f），OpenSeg（Ghiasi等，2022a）等。其次，还积极探索了不同粒度级别上不同VL理解任务的统一，例如I/O统一方法，如UniTAB（Yang等，2021），Unified-IO（Lu等，2022a），Pix2Seq-v2（Chen等，2022d），以及功能统一方法，如GPV（Gupta等，2022a），GLIP-v2（Zhang等，2022b）和X-Decoder（Zou等，2023a）。最后，还需要使模型更具交互性和可提示性，就像ChatGPT一样，这最近在SAM（Kirillov等，2023）和SEEM（Zou等，2023）中进行了研究。
- 与LLM一起训练
  
  类似于LLM的行为，LLM可以通过遵循指令并处理任务的文本提示中的示例来解决语言任务。因此，我们希望开发一个视觉和文本界面来引导模型解决多模态任务。通过将LLM的能力扩展到多模态设置并进行端到端的训练，开发了多模态LLM或大型多模态模型，包括Flamingo（Alayrac等，2022）和Multimodal GPT-4（OpenAI，2023a）。
- 利用 LLM 链接工具
  
  利用LLM的工具使用能力，越来越多的研究将LLM（如ChatGPT）与各种多模态基础模型集成在一起，通过对话界面促进图像理解和生成。这种跨学科方法结合了NLP和计算机视觉的优势，使研究人员能够开发更强大、更多功能的AI系统，能够通过人机对话处理视觉信息并生成类似人类的响应。代表作品包括 Visual ChatGPT（Wu等，2023a）和MM-REACT（Yang等，2023）。

1.2 从专家到通用助理的定义与转变

1.2 Definition and Transition from Specialists to General-Purpose Assistants

根据自然语言处理（NLP）中的模型发展历史和分类，我们将图 1.2 中的多模式基础模型分为两类：

特定目的预训练视觉模型

涵盖了大多数现有的多模式基础模型，包括视觉理解模型（例如CLIP [Radford等人，2021]、SimCLR [Chen等人，2020a]、BEiT [Bao等人，2022]、SAM [Kirillov等人，2023]）和视觉生成模型（例如稳定扩散[Rombach等人，2021；sta，2022]）。它们具有针对特定视觉问题（任务）的强大的迁移能力。
通用助手

能够理解人类意图并完成各种计算机视觉任务的AI助手。通用助手的含义有两个方面：（1）具有统一架构，能够完成不同类型的任务；（2）易于遵循人类指令，而不是取代人类。

为了实现这一目标，已经积极探索了几个研究主题，包括统一的视觉建模（Lu等，2022a；Zhang等，2022b；Zou等，2023a）、基于LLM的训练和链接（Liu等，2023c；Zhu等，2023b；Wu等，2033a；Yang等，2023）。

1.3 谁应该阅读这篇论文？

1.3 Who Should Read this Paper?

本文文基于 CVPR 2023（https://vlp-tutorial.github.io/2023/index.html）的教程，面向计算机视觉和视觉语言多模态社区的研究人员作为我们的主要目标受众。它回顾了文献并向那些希望了解多模态基础模型的基础知识和最新进展的人解释相关主题。目标受众包括研究生、研究人员和不是多模态基础模型专家但渴望发展视角并了解该领域趋势的专业人员。

本文的结构如图1.3所示，包括7个章节。

第1章：介绍了多模态基础模型研究的领域，并呈现了研究从专家向通用助手的转变的历史视角。
第2章：介绍了不同使用视觉数据的方式，重点关注如何学习强大的图像骨干。
第3章：描述了如何生成与人类意图相符的视觉数据。
第4章：描述了如何设计统一的视觉模型，具有交互式和可提示的界面，尤其是在没有使用LLM时。
第5章：描述了如何以端到端的方式训练LLM以处理视觉输入进行理解和推理。
第6章：描述了如何将多模态工具与LLM链接在一起以实现新的功能。
第7章：总结了本文并讨论了研究趋势。

第2章至第6章是本综述论文的核心章节。在图1.3中提供了这些章节结构的概述。我们从讨论特定任务的两种典型多模式基础模型开始，包括第2章中的视觉理解和第3章中的视觉生成。

由于多模态基础模型的概念最初是基于用于理解任务的视觉主干/表示学习，因此我们首先全面回顾了图像主干学习方法的演变，从早期的监督方法到最近的语言-图像对比方法，并将图像表示的讨论从图像级别扩展到区域级别和像素级别（第2章）。

最近，生成型AI越来越受欢迎，因此开发了视觉生成基础模型。在第3章中，我们讨论了大型预训练的文本到图像模型以及社区如何利用生成基础模型开发新技术，使它们更好地与人的意图保持一致。

受到自然语言处理领域最新进展的启发，其中LLMs在日常生活中为各种语言任务提供通用助手的思想，计算机视觉社区一直在期望并尝试构建通用的视觉助手。我们讨论了构建通用助手的三种不同方法。受LLMs精神启发，第4章侧重于统一不同的视觉理解和生成模型，而无需在建模中明确引入LLMs。

第5章和第6章侧重于在建模中明确增强LLMs的方式，以构建通用的视觉助手。具体而言，第5章描述了端到端训练方法，而第6章则侧重于无需训练即可将各种视觉模型与LLMs连接起来的方法。

如何阅读本文？不同的读者具有不同的背景和阅读目的。以下是一些建议：

每一章基本上都是独立的。如果您有明确的目标和特定的研究方向，可以直接跳到相应的章节。例如，如果您有兴趣使用OpenAI的多模态GPT-4构建一个迷你原型，可以直接跳到第5章。
如果您是多模态基础模型的新手，并且有兴趣了解尖端研究，强烈建议您按顺序逐章阅读整篇论文，因为早期的章节为后续章节奠定了基础，每一章介绍了关键概念，帮助您理解基本思想，并提供了全面的文献综述，帮助您把握当前的研究现状和发展趋势。
如果您已经在多模态基础模型方面有丰富的经验，并且熟悉相关文献，可以直接跳到您想阅读的特定章节。大多数章节包括关于高级主题的部分，并且有时会根据最新的文献提供我们自己的观点。例如，在第6章中，我们讨论了多模态代理在工具使用方面的若干重要方面，包括工具的创建以及与检索增强方法的联系。

1.4 相关材料：幻灯片和预先录制的演讲

1.4 Related Materials: Slide Decks and Pre-recorded Talks

这篇综述论文扩展了我们在CVPR 2023教程中所呈现的内容，涵盖了该领域最新的进展。下面，我们提供了与每一章的主题相关的幻灯片和预录演讲的列表，供参考。

第2章：视觉和视觉/语言预训练 Slide, Bilibili
第3章：文本到图像生成中的对齐 Slide, Bilibili
第4章：从表示到接口：视觉理解基础的演变 Slide, Bilibili
第5章：多模态大模型 Slide, Bilibili
第6章：多模态代理：多模态专家与大语言模型的链接 Slide, Bilibili

下载地址：https://vlp-tutorial.github.io/2023/

Large Multimodal Models: Notes on CVPR 2023 Tutorial

【本节完，待续】

参考资料：

Chuanyuan Li, Zhe Gan, Zhengyuan Yang, et al., Multimodal Foundation Models: From Specialists to General-Purpose Assistants, Microsoft Corporation, arxiv.org/html/2309.10020 v1

youcans@xidian 作品，转载必须标注原文链接：
【微软报告：多模态基础模型】（1）从专家模型到通用助手 https://blog.csdn.net/youcans/category_12244543.html

Copyright 2024 youcans, XIDIAN

Crated：2024-11