摘要

最近的多模态模型，如DALL-E和CM3，在文本到图像和图像到文本生成方面取得了显著进展。然而，这些模型将其所有知识（例如，埃菲尔铁塔的外观）存储在模型参数中，需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识，我们提出了一种检索增强的多模态模型，该模型使基础多模态模型（生成器）能够引用检索器从外部存储器（例如，网络上的文档）中提取的相关文本和图像。具体来说，对于检索器，我们使用预训练的CLIP，对于生成器，我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3（RA-CM3），是第一个可以检索和生成文本和图像的多模态模型。我们发现，RA-CM3在图像和字幕生成任务上显著优于基线多模态模型，如DALL-E和CM3（MS-COCO的12个FID和17个CIDEr改进），同时训练所需的计算量要少得多（<DALLE的30%）。此外，我们发现RA-CM3表现出了新的能力，如忠实的图像生成和多模态上下文学习（例如，从演示中生成图像）

1 引言

2 相关工作

3 方法

4 实验

5 定性结果

6 结论

我们提出了一种检索增强的多模态模型，该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说，我们使用预训练的CLIP实现了一个多模态检索器，并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3，在图像和字幕生成任务上都优于现有的多模态模型，同时需要更少的训练计算。此外，RA-CM3表现出新的能力，如知识密集型图像生成和多模态上下文学习。

这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径，例如改进多模态检索器和生成器，将模态扩展到图像和文本之外，以及进一步研究多模态提示和上下文学习。