【论文阅读】(DALLE-3)Improving Image Generation with Better Captions

(DALLE-3)Improving Image Generation with Better Captions

文章目录

  • [(DALLE-3)Improving Image Generation with Better Captions](#(DALLE-3)Improving Image Generation with Better Captions)

引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.

论文链接: https://arxiv.org/abs/2212.09748

简介

论文展示了通过在高度描述性的生成图像captions上训练,可以显著提高文本到图像模型的提示跟随能力 。现有的文本到图像模型在遵循详细图像描述方面存在困难,经常忽略提示中的单词或混淆提示的含义。作者假设这个问题源于训练数据集中图像标题的噪声和不准确性。通过训练一个定制的图像captions生成器并用它来重新标注训练数据集来解决这个问题 。然后,训练了几个文本到图像模型,并发现在这些合成captions上训练可靠地提高了提示跟随能力 。最后,使用这些发现构建了DALLE 3:一个新的文本到图像生成系统,并在设计用来衡量提示跟随、连贯性和美学的评估中测试了其性能,发现它与竞争对手相比具有优势。

Method

论文提出的文本到图像模型是在由大量配对(t,i)组成的数据集上训练的,其中i是图像,t是描述该图像的文本。在大规模数据集中,t通常来源于人类作者,他们专注于对图像主题的简单描述,而忽略了图像中描绘的背景细节或常识关系。t中通常省略的重要细节可能包括:

  1. 厨房水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置和这些对象的数量。
  3. 常识性细节,如场景中对象的颜色和大小。
  4. 显示在图像中的文本。

糟糕的是,在互联网上发现的captions往往根本不正确;描述图像的切向相关细节。例如,在通常用于为图像制作captions的文本中,通常会发现广告或表情包。作者假设所有这些缺点都可以通过综合生成的 captions来解决。

图像字幕与预测文本的传统语言模型非常相似。语言模型首先使用标记器将文本字符串分解为离散的标记。一旦以这种方式分解,语料库的文本部分就可以表示为一个序列,t=[t1,t2,...,tn]。然后,可以通过最大化以下可能性函数,在文本上建立一个语言模型:

其中,θ是要优化的captioner的参数。要将此语言模型转换为captioner,只需要对图像进行调整即可。这里的挑战是图像是由成千上万的像素值组成的。对目前的神经网络来说,对所有这些信息进行调节是非常低效的,所以需要一个压缩的表示空间。方便的是,CLIP提供了这一点。因此,给定预先训练的CLIP图像嵌入函数F(i),扩展语言模型的优化目标如下:

为了改进图像生成数据集中的captions,希望使caption生成器产生有利于学习文本到图像模型的图像描述。在第一次尝试中,构建了一个小的caption数据集,只描述图像的主要主题。然后继续在这个数据集上训练captioner。该过程引起的θ更新可以导致模型偏向于描述图像的主要主题。将此微调生成的captions称为"short synthetic captions"。

然后,第二次重复这个过程,创建一个由长的、高度描述性的captions组成的数据集,描述微调数据集中每个图像的内容。这些captions不仅描述了图像的主要主题,还描述了图像周围的环境、背景、图像中的文本、风格、颜色等。再次在此数据集上captioner。将此captioner生成的captions称为"描descriptive synthetic captions"。图3显示了基本事实、简短合成和描述性合成captions的示例。

构建完成后,将图像captioner微调应用于文本到图像数据集中的每个图像,从而生成一组合成字幕,用于后续实验。

实验




相关推荐
程序小旭17 分钟前
机器视觉基础—双目相机
计算机视觉·双目相机
qzhqbb1 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨1 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041081 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌2 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭2 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^2 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246663 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k3 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫3 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法