AAAI2023《Controllable Image Captioning via Prompting》

摘要

文章提出了一种通过提示学习（prompt learning）嵌入到图像描述生成框架中的方法，以实现对图像描述的可控生成。具体来说，设计了一组提示来微调预训练的图像描述生成器，这些提示使模型能够吸收来自不同领域的风格化数据进行联合训练，且不会降低每个领域的性能。此外，文章还通过在连续词嵌入空间中优化可学习的向量来改进提示，避免了启发式提示工程的复杂性，并展现出优越的性能。在推理阶段，模型能够通过选择相应的提示来生成期望的风格化描述。广泛的实验验证了所提方法的可控性，并在COCO Karpathy分割和TextCaps两个不同的图像描述基准测试中取得了出色的成绩。

Introduction

拟解决的问题：现有的图像描述生成算法通常缺乏生成期望描述的可控能力，一旦模型训练完成，描述生成过程很难被影响。文章主要关注两个方面的问题：

长度可控性：在某些情况下需要简短的描述来快速了解图像内容，而在其他情况下则需要详细的描述来获取更多信息。
风格可控性：同一图像可以从不同的角度进行描述，例如关注图像中的物体或文本内容，或者生成包含积极或消极情感的非事实性描述。

如图所示：

COCO风格的描述：这是指类似于COCO数据集中常见的描述风格，通常比较简洁、客观，侧重于描述图像中的主要物体和场景。
TextCap风格的描述：TextCap数据集中的描述通常包含图像中的文本信息，因此这种风格的描述会更注重图像中的文字内容。
积极情感的描述：这种描述会包含积极的情感词汇，如"漂亮"、"可爱"等，用来表达对图像内容的积极评价。
消极情感的描述：与积极情感相反，这种描述会使用消极的情感词汇，如"孤独"、"难看"等，来传达对图像内容的消极感受。
不同长度的描述：包括短描述（Short-length Caption）、中等长度描述（Medium-length Caption）和长描述（High-length Caption）。短描述提供图像的基本信息，而长描述则包含更多的细节。

创新点：

提出了首个基于提示的图像描述生成框架，以简单有效的方式控制描述风格。
验证了手动设计的提示，并进一步引入了自动提示学习，避免了启发式提示设计，并取得了优越的结果。
通过定性和定量结果验证了所提框架的可控性，并在一个统一的模型上实现了在多个基准测试中的出色表现。

Method

该方法的核心在于将提示学习（prompt learning）技术应用于图像描述生成任务。具体来说，通过设计一组提示（prompts），微调预训练的图像描述生成器，使其能够吸收来自不同领域的风格化数据进行联合训练，从而在推理阶段生成多样化的描述。

3.1 自回归图像描述生成

作为baseline，本文采用基于单向语言模型（LM）的图像描述生成框架。该框架利用Transformer块融合图像特征 v 和文本序列 x。每个词是基于前一个词自回归生成的。训练目标是交叉模态语言模型损失，定义如下：

其中，g(⋅)表示视觉编码器，f(⋅)表示词嵌入层，P(⋅∣⋅)是交叉模态融合模型（例如Transformer解码器），接收视觉特征g(v)和前一个词的嵌入 f()来预测下一个词。

3.2 模型预训练

预训练阶段，模型在大规模的噪声图像-文本数据集上进行训练，以提升下游任务的性能。除了语言模型损失外，还采用了图像-文本对比损失和图像-文本匹配损来联合优化视觉编码器和交叉模态融合模型：

对比损失通过点积等轻量级融合方式测量图像-文本对的相似性，而匹配损失通过交叉注意力等重量级融合方式测量图像-文本的相似性。

3.3 提示工程

预训练完成后，模型已经具备了零样本（zero-shot）描述生成的能力。为了生成多样化的描述，设计了多个提示作为不同领域数据的锚点。具体提示如下表所示：
表1

3.4 模型微调

在微调阶段，将多个训练集混合在一起训练一个统一的模型。与基线模型不同，本文预测词时，不仅考虑视觉特征 g(v) 和前一个词的嵌入 f()，还考虑提示词嵌入 f(p)。不同风格的数据被分配特定的提示，如表1所示。训练时，将这些手工设计的提示添加到描述词前，作为图像的文本描述。使用基于提示的语言模型损失进行联合训练：

为了避免手工提示工程的繁琐，进一步鼓励网络自动学习提示。给定一个手动提示词序列，模型首先使用WordPiece技术将每个词映射到唯一的数字ID，然后通过词嵌入层 f(⋅) 将这些ID投影到768维的词嵌入空间。本文提出学习描述提示嵌入 P：

在训练阶段，提示嵌入 P 与描述生成网络联合优化：

3.5 推理阶段

经过提示学习后，模型能够使用不同的提示生成多样化的描述。在手工提示框架中，编码特殊词 $BOS$ 后，依次嵌入提示词并通过 f(p)f(p) 输入到语言模型中，以自回归方式生成描述。在自动提示框架中，直接将 $BOS$ 的词嵌入和学习到的提示嵌入 PP 拼接作为语言模型的输入。通过切换不同的提示，所提出的描述生成器能够生成特定风格的描述。

实验结果

通过不同的提示，可以生成不同风格的描述：

结论

文章提出的基于提示的图像描述生成框架在概念上简单而有效，能够生成具有多样化风格的描述。通过提示工程，该方法能够在一个统一的模型中同时处理不同领域，并为每张图像生成不同长度和风格的描述，这是大多数现有最先进的描述生成器所无法实现的。广泛的定性和定量实验验证了所提框架的有效性。