摘要
文章提出了一种通过提示学习(prompt learning)嵌入到图像描述生成框架中的方法,以实现对图像描述的可控生成。具体来说,设计了一组提示来微调预训练的图像描述生成器,这些提示使模型能够吸收来自不同领域的风格化数据进行联合训练,且不会降低每个领域的性能。此外,文章还通过在连续词嵌入空间中优化可学习的向量来改进提示,避免了启发式提示工程的复杂性,并展现出优越的性能。在推理阶段,模型能够通过选择相应的提示来生成期望的风格化描述。广泛的实验验证了所提方法的可控性,并在COCO Karpathy分割和TextCaps两个不同的图像描述基准测试中取得了出色的成绩。
Introduction
拟解决的问题:现有的图像描述生成算法通常缺乏生成期望描述的可控能力,一旦模型训练完成,描述生成过程很难被影响。文章主要关注两个方面的问题:
- 长度可控性:在某些情况下需要简短的描述来快速了解图像内容,而在其他情况下则需要详细的描述来获取更多信息。
- 风格可控性:同一图像可以从不同的角度进行描述,例如关注图像中的物体或文本内容,或者生成包含积极或消极情感的非事实性描述。
如图所示:
- COCO风格的描述:这是指类似于COCO数据集中常见的描述风格,通常比较简洁、客观,侧重于描述图像中的主要物体和场景。
- TextCap风格的描述:TextCap数据集中的描述通常包含图像中的文本信息,因此这种风格的描述会更注重图像中的文字内容。
- 积极情感的描述:这种描述会包含积极的情感词汇,如"漂亮"、"可爱"等,用来表达对图像内容的积极评价。
- 消极情感的描述:与积极情感相反,这种描述会使用消极的情感词汇,如"孤独"、"难看"等,来传达对图像内容的消极感受。
- 不同长度的描述:包括短描述(Short-length Caption)、中等长度描述(Medium-length Caption)和长描述(High-length Caption)。短描述提供图像的基本信息,而长描述则包含更多的细节。
创新点:
- 提出了首个基于提示的图像描述生成框架,以简单有效的方式控制描述风格。
- 验证了手动设计的提示,并进一步引入了自动提示学习,避免了启发式提示设计,并取得了优越的结果。
- 通过定性和定量结果验证了所提框架的可控性,并在一个统一的模型上实现了在多个基准测试中的出色表现。
Method
该方法的核心在于将提示学习(prompt learning)技术应用于图像描述生成任务。具体来说,通过设计一组提示(prompts),微调预训练的图像描述生成器,使其能够吸收来自不同领域的风格化数据进行联合训练,从而在推理阶段生成多样化的描述。
3.1 自回归图像描述生成
作为baseline,本文采用基于单向语言模型(LM)的图像描述生成框架。该框架利用Transformer块融合图像特征 v 和文本序列 x。每个词是基于前一个词自回归生成的。训练目标是交叉模态语言模型损失,定义如下:
其中,g(⋅)表示视觉编码器,f(⋅)表示词嵌入层,P(⋅∣⋅)是交叉模态融合模型(例如Transformer解码器),接收视觉特征g(v)和前一个词的嵌入 f()来预测下一个词。
3.2 模型预训练
预训练阶段,模型在大规模的噪声图像-文本数据集上进行训练,以提升下游任务的性能。除了语言模型损失外,还采用了图像-文本对比损失和图像-文本匹配损来联合优化视觉编码器和交叉模态融合模型:
对比损失通过点积等轻量级融合方式测量图像-文本对的相似性,而匹配损失通过交叉注意力等重量级融合方式测量图像-文本的相似性。
3.3 提示工程
预训练完成后,模型已经具备了零样本(zero-shot)描述生成的能力。为了生成多样化的描述,设计了多个提示作为不同领域数据的锚点。具体提示如下表所示:
表1
3.4 模型微调
在微调阶段,将多个训练集混合在一起训练一个统一的模型。与基线模型不同,本文预测词 时,不仅考虑视觉特征 g(v) 和前一个词的嵌入 f(),还考虑提示词嵌入 f(p)。不同风格的数据被分配特定的提示,如表1所示。训练时,将这些手工设计的提示添加到描述词前,作为图像的文本描述。使用基于提示的语言模型损失进行联合训练:
为了避免手工提示工程的繁琐,进一步鼓励网络自动学习提示。给定一个手动提示词序列,模型首先使用WordPiece技术将每个词映射到唯一的数字ID,然后通过词嵌入层 f(⋅) 将这些ID投影到768维的词嵌入空间。本文提出学习描述提示嵌入 P:
在训练阶段,提示嵌入 P 与描述生成网络联合优化:
3.5 推理阶段
经过提示学习后,模型能够使用不同的提示生成多样化的描述。在手工提示框架中,编码特殊词 [BOS] 后,依次嵌入提示词并通过 f(p)f(p) 输入到语言模型中,以自回归方式生成描述。在自动提示框架中,直接将 [BOS] 的词嵌入和学习到的提示嵌入 PP 拼接作为语言模型的输入。通过切换不同的提示,所提出的描述生成器能够生成特定风格的描述。
实验结果
通过不同的提示 ,可以生成不同风格的描述:
结论
文章提出的基于提示的图像描述生成框架在概念上简单而有效,能够生成具有多样化风格的描述。通过提示工程,该方法能够在一个统一的模型中同时处理不同领域,并为每张图像生成不同长度和风格的描述,这是大多数现有最先进的描述生成器所无法实现的。广泛的定性和定量实验验证了所提框架的有效性。