MiniGPT-5: 通过生成性视觉标记实现交错式视觉与语言生成

MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens

摘要

近年来，大型语言模型(LLM)在自然语言处理(NLP)领域的突破性进展引起了全球AI开发者的关注。这些模型在文本生成和理解方面设定了新的基准。然而，尽管在文本生成方面取得了进步，但生成与文本叙述连贯匹配的图像仍然具有挑战性。为了解决这一问题，开发者引入了一种基于"生成性vokens"的创新视觉和语言生成方法，弥合了文本-图像输出的鸿沟。

MiniGPT-5的基础是一种两阶段训练策略，重点在于无需描述的多模态数据生成，其中训练数据不需要任何全面的图像描述。此外，为了提高模型的完整性，模型还采用了无分类器指导系统，以提高voken对图像生成的有效性。在初始阶段，MiniGPT-5框架在MMDialog数据集上训练的基线Divter模型上表现出强大的性能和实质性的改进，并在VIST数据集上的人为评估中不断展示出其能够提供可比较甚至更优的多模态输出的能力，进一步突显了其在各种基准测试中的性能和效率。

MiniGPT5简介

随着LLM框架的最新发展，以及基于这些LLM框架的应用，多媒体特征集成领域已经见证了其受欢迎程度的提升，它也被证明是推动从最先进的内容创作工具到最先进的多模态对话代理的广泛应用的关键进步。随着持续的研究和开发，语言和视觉模型已经发展到可以无缝生成文本和视觉数据的阶段。LLM生成多模态数据的能力将有助于增强电子商务、媒体和虚拟现实等不同领域的交互。最终目标是使模型能够使用文本和视觉模态以一致和逻辑的方式合成、识别和响应，从而在信息流和创建逻辑一致的故事中发挥关键作用。实现文本和视觉模态的融合主要是由LLM中更流畅、集成和交互式多模态交互的需求驱动的，最终实现交替的语言和视觉生成。然而，在LLM中实现集成和交互式多模态交互是一项复杂的任务，充满了许多挑战，包括：

尽管当前的LLM在文本生成和处理文本-图像对方面非常高效和有能力，但它们在生成图像方面的表现并不令人满意。

这些视觉和语言模型的发展严重依赖于以主题为中心的数据，这使得模型难以将生成的文本与其对应的图像对齐。

最后，需要提出更有效的策略，因为随着其能力的提高，LLM在执行下游任务时的内存需求也在增加。

MiniGPT-5框架是一种交错语言和视觉生成算法技术，引入了"生成性vokens"的概念，试图解决上述挑战。MiniGPT-5框架提出了一种新的多模态数据生成方法，通过将大型语言模型与稳定扩散技术相结合，并使用特殊的视觉标记。MiniGPT-5框架所采用的两阶段训练方法强调了基础阶段无需描述的重要性，并准备使模型即使在数据有限的情况下也能提供高效的性能。

方法、架构和框架

为了使大型语言模型具有多模态数据生成能力，MiniGPT-5模型引入了一个框架，旨在整合文本到图像生成模型和预训练的多模态大型语言模型。MiniGPT-5框架进一步引入了"生成性vokens"，这是一种特殊的视觉标记，允许开发人员直接在原始图像上进行训练，以解决不同领域出现的差异。为了进一步提高LLM生成的多模态数据的质量，MiniGPT-5框架引入了无分类器策略，并结合了先进的两阶段训练方法。

多模态输入阶段

LLM的最新发展已经使LLM具有了多模态理解能力，能够将图像作为顺序输入进行处理。MiniGPT-5框架使用专门设计的生成性vokens来输出视觉特征，试图扩展LLM的多模态理解能力到多模态数据生成。此外，MiniGPT-5框架使用参数高效和前沿的微调技术，在LLM框架中进行多模态输出学习。

多模态编码

MiniGPT-5框架中的预训练视觉编码器将每个输入图像转换为一个特征，每个文本标记都被嵌入为一个向量，当这些嵌入被连接在一起时，输入提示特征就会被生成。

在大型语言模型中添加Vokens

传统上，大型语言模型的词汇表只包含文本标记，这就是为什么MiniGPT-5框架的开发人员必须弥合生成性和传统LLM之间的差距。MiniGPT-5框架向LLM的词汇表中引入了一组特殊的标记作为生成性标记。然后，该框架利用LLM的这些特殊vokens的隐藏输出状态进行后续的图像生成，插入交错图像由vokens的位置表示。

参数高效微调(PEFT)

参数高效微调(PEFT)是训练LLM的一个关键概念，然而，PEFT在多模态设置中的应用在很大程度上仍未被探索。MiniGPT-5框架使用参数高效微调对MiniGPT-4框架的编码器进行训练，以便使模型更好地理解提示或指令，甚至提高模型在零样本或新环境中的整体性能。

多模态输出生成

为了准确地将生成模型与生成性标记对齐，MiniGPT-5框架制定了一个紧凑的映射模块来匹配维度，并纳入了监督损失，包括潜在扩散模型损失和文本空间损失。潜在扩散监督损失直接将适当的视觉特征与标记对齐，而文本空间损失帮助模型学习标记的正确位置。由于MiniGPT-5框架中的生成性vokens直接由图像引导，因此MiniGPT-5框架不需要图像具有全面的描述，从而实现了无需描述的学习。

文本空间生成

MiniGPT-5框架遵循随意语言建模方法，在文本空间中联合生成vokens和文本，在训练阶段，开发人员将vokens附加到地面真实图像的位置，并训练模型在文本生成中预测vokens。

映射Voken特征进行图像生成

在生成文本空间后，框架将隐藏输出状态与文本到图像生成模型的文本条件特征空间对齐。该框架还支持一个特征映射器模块，包括一个双层的MLP模型，一个可学习的解码器特征序列，以及一个四层的编码器-解码器转换器模型。

使用LDM或潜在扩散模型进行图像生成

为了在去噪过程中生成所需的图像，该框架使用映射特征作为条件输入。该框架还使用LDM或潜在扩散模型进行指导，在训练阶段，首先使用预训练的VAE将地面真实图像转换为潜在特征，然后开发人员通过添加一些噪声来获得潜在噪声特征。

MiniGPT-5框架的全面方法使开发人员能够对视觉和文本元素进行连贯的理解和生成，使用专门的标记，利用预训练模型的能力，并使用创新的训练技术。

训练和结果

在开发MiniGPT-5框架时，开发人员观察到，直接在有限的交错文本-图像数据集上进行训练可能会导致图像质量降低，并且由于图像和文本域之间的显著域偏移，导致图像与文本不对齐。为了缓解这一问题，开发人员采用了两种不同的训练策略，

采用无分类器指导技术，在扩散过程中提高生成性标记的有效性。
第二种策略进一步分为两个阶段
- 初始预训练阶段，主要关注对齐粗略特征。
- 微调阶段，促进特征学习。

无分类器指导(CFG)

首先利用CFG进行多模态生成的想法是为了增强生成图像和文本之间的一致性和逻辑性，CFG是在文本到图像扩散过程中引入的。这种方法观察到，通过在无条件生成和条件生成下进行训练，并使用条件丢弃，生成模型可以实现增强的条件结果。

两阶段训练策略

鉴于文本-图像生成与纯文本生成之间存在显著的域偏移，MiniGPT-5框架使用了两阶段策略进行训练

单模态对齐阶段(UAS)
多模态学习阶段(MLS)
在初始阶段，该框架将图像生成特征与voken特征在单文本-图像对数据集中对齐，其中每个数据样本只包含一个文本和一个图像，文本通常是图像的标题。在这个阶段，该框架允许LLM通过使用标题作为LLM输入来生成vokens。

一旦UAS成功执行，该模型可以为单个文本描述生成图像，但在交错语言和视觉生成方面存在困难，包括文本-图像对和复杂的推理，需要生成图像和文本。为了克服这个障碍，开发人员进一步使用PEFT参数对MiniGPT-5框架进行了微调，使用像VIST这样的交错视觉-语言数据集。在这个阶段，该框架从数据集中构建了三个不同的任务

仅文本生成：根据下一个图像生成相关文本。
仅图像生成：根据下一个文本生成相关图像。
多模态生成：使用给定上下文生成文本图像对。

基准测试和结果

为了全面评估其在多模态生成方面的性能，MiniGPT-5开发团队将其性能与其他几个突出的基准模型进行了比较，包括Divter、GILL和微调的单模态生成模型，比较结果如下表所示。

MiniGPT-5框架理解到，多模态输出可能根据上下文有意义，但它可能与现实世界不同，这是MiniGPT-5框架还纳入人类输入来评估和评估模型性能的主要原因。总的来说，MiniGPT-5框架在多模态任务中的有效性是从三个角度衡量的。

语言连续性：评估生成的内