AAAI2023《Controllable Image Captioning via Prompting》

摘要

文章提出了一种通过提示学习(prompt learning)嵌入到图像描述生成框架中的方法,以实现对图像描述的可控生成。具体来说,设计了一组提示来微调预训练的图像描述生成器,这些提示使模型能够吸收来自不同领域的风格化数据进行联合训练,且不会降低每个领域的性能。此外,文章还通过在连续词嵌入空间中优化可学习的向量来改进提示,避免了启发式提示工程的复杂性,并展现出优越的性能。在推理阶段,模型能够通过选择相应的提示来生成期望的风格化描述。广泛的实验验证了所提方法的可控性,并在COCO Karpathy分割和TextCaps两个不同的图像描述基准测试中取得了出色的成绩。

Introduction

拟解决的问题:现有的图像描述生成算法通常缺乏生成期望描述的可控能力,一旦模型训练完成,描述生成过程很难被影响。文章主要关注两个方面的问题:

  1. 长度可控性:在某些情况下需要简短的描述来快速了解图像内容,而在其他情况下则需要详细的描述来获取更多信息。
  2. 风格可控性:同一图像可以从不同的角度进行描述,例如关注图像中的物体或文本内容,或者生成包含积极或消极情感的非事实性描述。

如图所示:

  1. COCO风格的描述:这是指类似于COCO数据集中常见的描述风格,通常比较简洁、客观,侧重于描述图像中的主要物体和场景。
  2. TextCap风格的描述:TextCap数据集中的描述通常包含图像中的文本信息,因此这种风格的描述会更注重图像中的文字内容。
  3. 积极情感的描述:这种描述会包含积极的情感词汇,如"漂亮"、"可爱"等,用来表达对图像内容的积极评价。
  4. 消极情感的描述:与积极情感相反,这种描述会使用消极的情感词汇,如"孤独"、"难看"等,来传达对图像内容的消极感受。
  5. 不同长度的描述:包括短描述(Short-length Caption)、中等长度描述(Medium-length Caption)和长描述(High-length Caption)。短描述提供图像的基本信息,而长描述则包含更多的细节。

创新点:

  • 提出了首个基于提示的图像描述生成框架,以简单有效的方式控制描述风格。
  • 验证了手动设计的提示,并进一步引入了自动提示学习,避免了启发式提示设计,并取得了优越的结果。
  • 通过定性和定量结果验证了所提框架的可控性,并在一个统一的模型上实现了在多个基准测试中的出色表现。

Method

该方法的核心在于将提示学习(prompt learning)技术应用于图像描述生成任务。具体来说,通过设计一组提示(prompts),微调预训练的图像描述生成器,使其能够吸收来自不同领域的风格化数据进行联合训练,从而在推理阶段生成多样化的描述。

3.1 自回归图像描述生成

作为baseline,本文采用基于单向语言模型(LM)的图像描述生成框架。该框架利用Transformer块融合图像特征 v 和文本序列 x。每个词是基于前一个词自回归生成的。训练目标是交叉模态语言模型损失,定义如下:

其中,g(⋅)表示视觉编码器,f(⋅)表示词嵌入层,P(⋅∣⋅)是交叉模态融合模型(例如Transformer解码器),接收视觉特征g(v)和前一个词的嵌入 f()来预测下一个词​。

3.2 模型预训练

预训练阶段,模型在大规模的噪声图像-文本数据集上进行训练,以提升下游任务的性能。除了语言模型损失外,还采用了图像-文本对比损失和图像-文本匹配损来联合优化视觉编码器和交叉模态融合模型:

对比损失通过点积等轻量级融合方式测量图像-文本对的相似性,而匹配损失通过交叉注意力等重量级融合方式测量图像-文本的相似性。

3.3 提示工程

预训练完成后,模型已经具备了零样本(zero-shot)描述生成的能力。为了生成多样化的描述,设计了多个提示作为不同领域数据的锚点。具体提示如下表所示:
表1

3.4 模型微调

在微调阶段,将多个训练集混合在一起训练一个统一的模型。与基线模型不同,本文预测词 时,不仅考虑视觉特征 g(v) 和前一个词的嵌入 f(),还考虑提示词嵌入 f(p)。不同风格的数据被分配特定的提示,如表1所示。训练时,将这些手工设计的提示添加到描述词前,作为图像的文本描述。使用基于提示的语言模型损失进行联合训练:

为了避免手工提示工程的繁琐,进一步鼓励网络自动学习提示。给定一个手动提示词序列,模型首先使用WordPiece技术将每个词映射到唯一的数字ID,然后通过词嵌入层 f(⋅) 将这些ID投影到768维的词嵌入空间。本文提出学习描述提示嵌入 P:

在训练阶段,提示嵌入 P 与描述生成网络联合优化:

3.5 推理阶段

经过提示学习后,模型能够使用不同的提示生成多样化的描述。在手工提示框架中,编码特殊词 BOS 后,依次嵌入提示词并通过 f(p)f(p) 输入到语言模型中,以自回归方式生成描述。在自动提示框架中,直接将 BOS 的词嵌入和学习到的提示嵌入 PP 拼接作为语言模型的输入。通过切换不同的提示,所提出的描述生成器能够生成特定风格的描述。

实验结果

通过不同的提示 ,可以生成不同风格的描述:

结论

文章提出的基于提示的图像描述生成框架在概念上简单而有效,能够生成具有多样化风格的描述。通过提示工程,该方法能够在一个统一的模型中同时处理不同领域,并为每张图像生成不同长度和风格的描述,这是大多数现有最先进的描述生成器所无法实现的。广泛的定性和定量实验验证了所提框架的有效性。

相关推荐
gis分享者39 分钟前
AI数字营销实测体验,GEO效果查询功能体验
人工智能·csdn·geo·数字营销·实测体验·效果查询
莱歌数字39 分钟前
轻出20%性能:三维拓扑优化如何重塑无人机电子设备散热格局
人工智能·科技·制造·cae·散热
猿小猴子2 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶2 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz2 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan7 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan7 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合7 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος19007 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌7 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端