论文阅读 BLIP-2

Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

使用冻结的图像编码器和大型语言模型进行语言-图像预训练的引导

BLIP-2 通过一个轻量级的查询变换器弥合了模态之间的差距。

Querying Transformer

第一阶段通过冻结的图像编码器引导 视觉-语言表示学习。

第二阶段通过一个冻结的语言模型启动从视觉到语言的生成学习。

3.1 模型结构

Q-Former:从图像编码器中提取固定数量的输出特征,与输入图像的分辨率无关。

两个共享相同自注意力层的Transformer子模块。

一个与冻结的图像编码器交互的图像transformer、用于图像特征抽取;

一个文本transformer、可以兼作文本编码器和文本解码器。

我们在图像变换器中创建一组固定数量的可学习查询嵌入作为输入。

查询通过自注意力层相互作用,并通过交叉注意力层(每隔一个变换器块插入)与冻结的图像特征交互。

查询还可以通过相同的自注意力层与文本交互。

根据预训练任务的不同 ,我们应用不同的自注意力掩码来控制查询文本的交互。

我们将QFormer初始化为预训练的BERTbase(Devlin等,2019)权重,而交叉注意力层则随机初始化 。Q-Former总共有1.88亿个参数(188M)。请注意,查询被视为模型参数。【对比qwenvl中的 VL adaptor 参数量是 0.08B = 80M

在我们的实验中,我们使用了32个查询,每个查询的维度为768(与Q-Former的隐藏维度相同)。

我们用Z表示输出的查询表示。Z的大小(32×768)远小于冻结的图像特征的大小(例如,ViT-L/14的大小为257×1024)。这种瓶颈架构与我们的预训练目标相结合,迫使查询提取与文本最相关的视觉信息。

3.2 第一阶段通过 冻结的图像编码器 引导 视觉-语言表示学习

在表征学习阶段,我们把Q-Former连接到一个冻结的图像编码器,并使用 图像-文本对 进行预训练。

我们的目标是训练Q-Former,使查询能够学会提取对文本最具信息性的视觉表示。灵感来自BLIP。

我们联合优化了三个预训练目标,它们共享相同的输入格式和模型参数。

每个目标使用不同的注意力掩蔽策略来控制查询与文本之间的交互。

image text contrastive learning (ITC)

该方法学习使图像表示和文本表示对齐,以最大程度地提高它们之间的互信息。

它通过 对比 正向对的图像-文本相似度 和 负向对的相似度来实现这一点。

由于Z包含多个输出嵌入(每个查询一个) ,我们首先计算每个查询输出与t之间的pairwise相似性 ,然后选择最高的一作为图像-文本相似度

为了避免信息泄露,我们使用了单模态自注意力掩码,其中查询和文本不允许相互可见

由于使用了冻结的图像编码器,与端到端方法相比,我们可以在每个GPU上适应更多的样本。 因此,我们使用批次内负样本,而不是BLIP中的动量队列。(增加比较次数)

Image-grounded text generation (ITG)

这个损失函数训练Q-Former生成文本,给定输入图像作为条件。

由于Q-Former的架构不允许冻结的图像编码器和文本令牌之间有直接的交互,因此必须先由查询提取生成文本所需的信息,然后通过自注意力层将这些信息传递给文本令牌。因此,查询必须提取能够捕获文本所有信息的视觉特征。

我们使用多模态因果自注意力掩码来控制查询文本交互 ,类似于UniLM 中使用的那种。查询可以互相关注,但不能关注文本标记。每个文本令牌可以关注所有查询及其之前的文本令牌。我们还将[CLS]标记替换为新的[DEC]标记,作为第一个文本标记,以指示解码任务。

Image-Text Matching(ITM)

目标是学习图像和文本表示之间的细粒度对齐。这是一个二分类任务,模型需要预测一个图像-文本对是否为正(匹配)或负(不匹配)。

我们使用双向自注意力掩码,其中所有查询和文本可以相互关注。

输出查询嵌入Z因此捕获了多模态信息。

我们将每个输出查询嵌入输入到一个二元线性分类器中,以获取logit,并将所有查询的logit平均作为输出匹配分数。

我们采用了 前者的研究方法 的困难负样本挖掘策略来生成有意义的负对。

3.3 第二阶段通过一个冻结的语言模型启动从视觉到语言的生成学习

在生成预训练阶段,我们将QFormer(附带冻结的图像编码器)连接到一个冻结的LLM,以获取LLM的生成语言能力。

我们使用全连接(FC)层将输出查询嵌入Z线性投影到与LLM文本嵌入相同的维度。

将预测的查询嵌入添加到输入文本嵌入的前面。它们作为软视觉提示,条件化LLM(大语言模型)依赖于Q-Former提取的视觉表示。

由于Q-Former已经预训练为提取富含语言信息的视觉表示,它有效地充当了一个信息瓶颈,向LLM提供最有用的信息,同时去除不相关的视觉信息。

这减轻了LLM学习视觉-语言对齐的负担,从而缓解了灾难性遗忘问题。

我们使用两种类型的LLMs进行实验:基于解码器的LLMs和基于编码器-解码器的LLMs。

对于基于解码器的LLMs,我们使用语言建模损失进行预训练,其中冷冻的LLM的任务是根据Q-Former的视觉表示生成文本。

对于基于编码器-解码器的LLMs,我们使用前缀语言建模损失进行预训练,将文本拆分为两部分。

前缀文本与视觉表示连接作为LLM编码器的输入。后缀文本用作LLM解码器的生成目标。

3.4 模型与训练

4. 实验

相关推荐
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(上)
论文阅读·信号处理
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(下)
论文阅读·汽车·信息与通信·信号处理
张较瘦_3 天前
[论文阅读] AI + 软件工程 | LLM救场Serverless开发!SlsReuse框架让函数复用率飙升至91%,还快了44%
论文阅读·人工智能·软件工程
m0_650108243 天前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
做cv的小昊4 天前
VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling
论文阅读·人工智能·计算机视觉·语言模型·自然语言处理·bert·transformer
m0_650108244 天前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
m0_650108245 天前
PaLM:Pathways 驱动的大规模语言模型 scaling 实践
论文阅读·人工智能·palm·谷歌大模型·大规模语言模型·全面评估与行为分析·scaling效应
小殊小殊5 天前
【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架
论文阅读·人工智能·深度学习
有点不太正常5 天前
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
论文阅读·大模型·agent安全
小殊小殊5 天前
【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏
论文阅读·人工智能·深度学习