Retrieval-Augmented Multimodal Language Modeling

本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。

检索增强的多模态语言建模

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 方法](#3 方法)
  • [4 实验](#4 实验)
  • [5 定性结果](#5 定性结果)
  • [6 结论](#6 结论)

摘要

最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识,我们提出了一种检索增强的多模态模型,该模型使基础多模态模型(生成器)能够引用检索器从外部存储器(例如,网络上的文档)中提取的相关文本和图像。具体来说,对于检索器,我们使用预训练的CLIP,对于生成器,我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3(RA-CM3),是第一个可以检索和生成文本和图像的多模态模型。我们发现,RA-CM3在图像和字幕生成任务上显著优于基线多模态模型,如DALL-E和CM3(MS-COCO的12个FID和17个CIDEr改进),同时训练所需的计算量要少得多(<DALLE的30%)。此外,我们发现RA-CM3表现出了新的能力,如忠实的图像生成和多模态上下文学习(例如,从演示中生成图像)

1 引言

2 相关工作

3 方法

4 实验

5 定性结果

6 结论

我们提出了一种检索增强的多模态模型,该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说,我们使用预训练的CLIP实现了一个多模态检索器,并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3,在图像和字幕生成任务上都优于现有的多模态模型,同时需要更少的训练计算。此外,RA-CM3表现出新的能力,如知识密集型图像生成和多模态上下文学习。

这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径,例如改进多模态检索器和生成器,将模态扩展到图像和文本之外,以及进一步研究多模态提示和上下文学习。

相关推荐
大唐荣华5 分钟前
视觉语言模型(VLA)分类方法体系
人工智能·分类·机器人·具身智能
即兴小索奇6 分钟前
AI应用商业化加速落地 2025智能体爆发与端侧创新成增长引擎
人工智能·搜索引擎·ai·商业·ai商业洞察·即兴小索奇
NeilNiu19 分钟前
开源AI工具Midscene.js
javascript·人工智能·开源
nju_spy37 分钟前
机器学习 - Kaggle项目实践(4)Toxic Comment Classification Challenge 垃圾评论分类问题
人工智能·深度学习·自然语言处理·tf-idf·南京大学·glove词嵌入·双头gru
计算机sci论文精选41 分钟前
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
ezl1fe1 小时前
RAG 每日一技(十八):手写SQL-RAG太累?LangChain的SQL智能体(Agent)前来救驾!
数据库·人工智能·后端
我星期八休息1 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python
飞哥数智坊1 小时前
等了这么久,企业微信的AI终于来了!
人工智能
Christo31 小时前
SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》
人工智能·深度学习·机器学习
AIGC安琪1 小时前
Transformer中的编码器和解码器是什么?
人工智能·深度学习·ai·语言模型·大模型·transformer·ai大模型