Vilt论文相关工作部分

文章汉化系列目录

文章目录

文章汉化系列目录
[**2. 背景**](#2. 背景)
- [**2.1 视觉与语言模型的分类法**](#2.1 视觉与语言模型的分类法)
- [**2.2 模态交互架构**](#2.2 模态交互架构)
- [**2.3 视觉嵌入架构**](#2.3 视觉嵌入架构)
- - - **区域特征**
    - [**网格特征（Grid Feature）**](#网格特征（Grid Feature）)
    - [**图像块投影（Patch Projection）**](#图像块投影（Patch Projection）)

2. 背景

图2. 视觉与语言模型的四个类别。每个矩形的高度表示其相对计算规模。VE、TE和MI分别代表视觉嵌入器、文本嵌入器和模态交互。

2.1 视觉与语言模型的分类法

我们基于以下两点提出了一个视觉与语言模型的分类法：

两种模态在专用参数和/或计算上是否具有相同的表达能力；
两种模态是否在深度网络中进行交互。

这两点的结合导致了图2中的四种原型。

视觉语义嵌入（VSE）模型，如VSE++ （Faghri et al., 2017）和SCAN（Lee et al., 2018），属于图2a。它们为图像和文本使用独立的嵌入器，其中图像嵌入器的计算量要远大于文本嵌入器。然后，它们通过简单的点积或浅层注意力层表示来自两种模态的嵌入特征的相似性。

CLIP（Radford et al., 2021）属于图2b，因为它为每种模态使用了分别但计算量相等的Transformer嵌入器。尽管图像向量和文本向量之间的交互依然是浅层的（通过点积），CLIP在图像到文本检索上的零样本表现非常出色。然而，我们并未观察到它在其他视觉与语言下游任务中的相同水平的表现。例如，在NLVR2（Suhr et al., 2018）上微调MLP头，使用CLIP中从池化的视觉和文本向量的点积作为多模态表示时，得到的开发集准确率为50.99 ± 0.38（使用三个不同种子进行运行）；由于随机准确率为0.5，我们得出结论认为这些表示无法学习该任务。这也与Suhr等人（2018）的研究结果一致，后者指出所有仅仅融合的多模态表示模型都无法学习NLVR2任务。

这是对原文的翻译，涵盖了视觉与语言模型的分类方法，具体描述了VSE++ 、SCAN 和CLIP等模型的架构及其优缺点。

这个结果支持了我们的猜测，即仅仅将高性能的单模态嵌入器的输出进行简单融合，可能不足以学习复杂的视觉与语言任务，这进一步强调了需要更为严谨的模态间交互机制。与浅层交互的模型不同，图2c下的视觉语言预训练（VLP）模型通过深度Transformer来建模图像和文本特征的交互。除了交互模块外，卷积网络仍然参与图像特征的提取和嵌入，这也占据了大部分计算量，如图1所示。基于调制的视觉与语言模型（如Perez et al., 2018 ；Nguyen et al., 2020 ）也属于图2c类型，它们的视觉CNN部分对应视觉嵌入器，RNN产生调制参数传递给文本嵌入器，调制后的CNN用于模态交互。我们提出的ViLT是第一个属于图2d类型的模型，其中原始像素的嵌入层与文本Token的嵌入层一样，计算量小且较浅。该架构将大部分计算集中在建模模态间的交互上。

2.2 模态交互架构

当代视觉语言预训练（VLP）模型的核心是Transformer 。它们将视觉和文本的嵌入序列作为输入，模型在各层之间进行模态间（以及可选的模态内）交互，然后输出上下文化的特征序列。Bugliarello et al. (2020) 将交互架构分为两类：

单流方法（Single-stream approaches） （如VisualBERT （Li et al., 2019）、UNITER（Chen et al., 2019）），在这种方法中，模型层共同作用于图像和文本输入的拼接。
双流方法（Dual-stream approaches） （如ViLBERT （Lu et al., 2019）、LXMERT（Tan & Bansal, 2019）），在这种方法中，两种模态在输入层并不拼接。

我们在交互Transformer模块中采用单流方法，因为双流方法会引入额外的参数。

2.3 视觉嵌入架构

尽管所有高性能的视觉语言预训练（VLP）模型共享相同的文本嵌入器------基于预训练BERT的分词器 ，以及类似BERT的词嵌入和位置嵌入，但它们在视觉嵌入器上有所不同。尽管如此，在大多数（如果不是所有）情况下，视觉嵌入仍然是现有VLP模型的瓶颈。我们通过引入图像块投影（patch projection）来简化这一过程，而不是使用区域或网格特征，后者通常需要重型提取模块。

区域特征

VLP模型主要使用区域特征，也称为自下而上的特征（Anderson et al., 2018）。这些特征通常通过现成的物体检测器（如Faster R-CNN）获得（Ren et al., 2016）。生成区域特征的一般流程如下：

首先，一个区域提议网络（RPN）根据从CNN骨干网络中池化的网格特征提议感兴趣区域（RoI）。
接着，非最大抑制（NMS） 减少RoI的数量至几千个。
在通过如RoI Align（He et al., 2017）等操作池化后，RoI通过RoI头部处理，最终形成区域特征。
对每个类别再次应用NMS，最终将特征数目减少到不到一百个。

这个过程涉及多个影响性能和运行时的因素：骨干网络、NMS的样式、RoI头部。以往的研究在控制这些因素时较为宽松，各研究之间做出了不同的选择，如表7.2所列。

骨干网络 ：常用的骨干网络包括ResNet-101 （Lu et al., 2019; Tan & Bansal, 2019; Su et al., 2019）和ResNext-152（Li et al., 2019; 2020a; Zhang et al., 2021）。
NMS ：NMS通常是按类别进行的。对每个类别应用NMS在类别数量较多时会成为主要的运行时瓶颈，例如VG数据集中有1.6K类别（Jiang et al., 2020）。为解决这个问题，最近提出了无类别NMS（Classagnostic NMS）（Zhang et al., 2021）。
RoI头部 ：最初使用的是C4头（Anderson et al., 2018），后来引入了FPN-MLP头部（Jiang et al., 2018）。由于每个RoI都需要进行处理，因此RoI头部会带来显著的运行时负担。然而，轻量化的物体检测器在速度上仍然不太可能比骨干网络或单层卷积更快。冻结视觉骨干网络并提前缓存区域特征只对训练时有帮助，而在推理时并不起作用，此外这可能还会影响模型的性能。

这段翻译详细解释了视觉嵌入架构中的技术实现，描述了区域特征的生成过程以及如何通过不同的组件（如骨干网络、NMS和RoI头部）影响模型的计算和性能。

网格特征（Grid Feature）

除了检测头部，卷积神经网络（如ResNet）输出的特征网格也可以作为视觉特征用于视觉与语言预训练。直接使用网格特征最早是由专门针对VQA（视觉问答）任务的模型提出的（Jiang et al., 2020；Nguyen et al., 2020），主要目的是避免使用极其缓慢的区域选择操作。X-LXMERT （Cho et al., 2020）通过将区域提议固定为网格，而不是使用来自区域提议网络（RPN）的提议，重新审视了网格特征。然而，它们的特征缓存方法排除了对骨干网络的进一步微调。Pixel-BERT 是唯一一个将VG预训练物体检测器替换为预训练的ResNet变体骨干网络的VLP模型，后者是通过ImageNet分类进行预训练的。与基于区域特征的VLP模型中冻结的检测器不同，Pixel-BERT的骨干网络在视觉与语言预训练过程中进行了微调。尽管使用ResNet-50时，Pixel-BERT的下游表现低于基于区域特征的VLP模型，但使用更强大的ResNeXt-152时，它的表现与其他竞争者相当。

我们认为，网格特征并不是首选，因为深度CNN仍然非常昂贵，它们在计算中占据了很大一部分，如图1所示。

图像块投影（Patch Projection）

为了减少开销，我们采用了最简单的视觉嵌入方案：对图像块进行线性投影。图像块投影由ViT （Dosovitskiy et al., 2020）在图像分类任务中首次引入。图像块投影极大简化了视觉嵌入步骤，使其与文本嵌入相当，后者也仅包括简单的投影（查找）操作。我们使用32 × 32的图像块投影，只需2.4M个参数。这与复杂的ResNe(X)t骨干网络 和检测组件形成鲜明对比。其运行时间也如图1所示，几乎可以忽略不计。我们将在第4.6节中对运行时间进行详细分析。

这段翻译详细描述了网格特征 和图像块投影在视觉与语言预训练中的应用。网格特征涉及通过卷积网络（如ResNet）获得的特征网格，而图像块投影则通过简化的线性投影进行图像嵌入，从而减少了计算开销。