DALL-E 3：如何通过重构“文本描述“革新图像生成

一、技术解读

对于每一个尝试过AI绘画的人，这样的场景或许都不陌生：你满心期待地输入"一只戴着红色围巾的黑猫，坐在飘雪的窗台上，背景有暖光台灯"，得到的却可能是一只没有围巾的猫，或是一个没有台灯的窗台，甚至是一只飘在空中的猫。这种模型"听不懂人话"或"视而不见"的现象，其专业名称是 "提示跟随能力（Prompt Following）"不足。

长期以来，人们普遍将这一问题的解决之道归于更复杂的模型架构或更大的参数量。然而，OpenAI在其论文 《Improving Image Generation with Better Captions》 中，揭示了一个更根本且优雅的答案：问题的根源在于数据，而非模型本身。

1 追本溯源：噪声数据如何拖累模型表现？

文本到图像生成本质上是一个条件概率建模问题：给定一段文本描述 t t t，模型需要学会生成符合该描述的图像 i i i，即逼近真实的条件分布 P real ( i ∣ t ) P_{\text{real}}(i | t) Preal(i∣t)。

然而，现实中的训练数据集 D = { ( t n , i n ) } n = 1 N D = \{(t_n, i_n)\}_{n=1}^{N} D={(tn,in)}n=1N 是从互联网收集的海量图文对。此处的文本 t t t（通常是图片的替代文本、标题或描述）质量堪忧，可视为对图像内容 i i i 的一种有噪声、不完整、有偏的观测。这导致了几个核心问题：

描述简略 ： t t t 往往只提及主体（"一只猫"），而忽略了背景、细节属性（颜色、材质）、空间关系（"在...左边"）和隐含常识。
- 实例：一张图实际内容是"一只橘猫在阳光下的窗台上蜷缩睡觉，旁边有一个打翻的陶制花盆，泥土散落 "。其网络描述可能仅仅是"窗台上的猫"。
描述错误 ： t t t 可能包含广告、无关信息或与图像不符的表述。
分布偏差 ：网络描述的语言风格、长度、格式高度集中，与用户最终输入的多样化、自然语言提示存在分布偏移。

从数学视角看 ：模型实际上是在一个有噪声的联合分布 P noisy ( i , t ) P_{\text{noisy}}(i, t) Pnoisy(i,t) 上进行最大似然训练。它试图最大化 log ⁡ P θ ( i ∣ t ) \log P_{\theta}(i | t) logPθ(i∣t)，但由于 t t t 本身信息不足或有误，模型学到的条件分布 P θ ( i ∣ t ) P_{\theta}(i | t) Pθ(i∣t) 与理想的 P real ( i ∣ t ) P_{\text{real}}(i | t) Preal(i∣t) 之间存在显著差距。通俗地说，模型从"模糊的指令"中学到的自然是"模糊的映射"。

2 治本之策：DALL-E 3的"数据集重描述"技术

DALL-E 3的解决方案直击要害：既然原始数据 t t t 质量差，那我们就用AI生成一套新的、高质量的文本描述 t ~ \tilde{t} t~ 来替换它 。这个过程称为 "数据集重描述" 。其核心逻辑是：用一个强大的"描述生成器"模型，对原始训练图片进行"二次标注"，创造出信息密度极高的图文配对，再用这个"精炼数据集"训练最终的图像生成模型。

2.1 核心流程：打造"超级描述生成器"

整个过程的核心是构建一个强大的图像描述生成器（Captioner） C Θ C_{\Theta} CΘ，参数为 Θ \Theta Θ。

第一步：构建基础模型------学会"看图说话"

描述生成器 C Θ C_{\Theta} CΘ 本质上是一个以图像为条件的自回归语言模型 。给定一张图像 i i i，其目标是生成一个描述其内容的词元（Token）序列 t = [ t 1 , t 2 , . . . , t L ] \mathbf{t} = [t_1, t_2, ..., t_L] t=[t1,t2,...,tL]。其训练目标是最小化负对数似然：

L LM ( i , t ; Θ ) = − ∑ l = 1 L log ⁡ P Θ ( t l ∣ t 1 : l − 1 ; E CLIP ( i ) ) \mathcal{L}{\text{LM}}(i, \mathbf{t}; \Theta) = - \sum{l=1}^{L} \log P_{\Theta}(t_l | t_{1:l-1}; E_{\text{CLIP}}(i)) LLM(i,t;Θ)=−l=1∑LlogPΘ(tl∣t1:l−1;ECLIP(i))

其中：

E CLIP ( i ) E_{\text{CLIP}}(i) ECLIP(i) 是一个预训练的CLIP模型的图像编码器，它将高维像素图像 i i i 压缩成一个紧凑的语义特征向量。这是实现图像条件化的关键，它为语言模型提供了"看到了什么"的上下文。
P Θ ( t l ∣ t 1 : l − 1 ; E CLIP ( i ) ) P_{\Theta}(t_l | t_{1:l-1}; E_{\text{CLIP}}(i)) PΘ(tl∣t1:l−1;ECLIP(i)) 表示在给定前文词元 t 1 : l − 1 t_{1:l-1} t1:l−1 和图像特征 E CLIP ( i ) E_{\text{CLIP}}(i) ECLIP(i) 的条件下，模型预测下一个词元 t l t_l tl 的概率。
通过在大规模互联网图文对 ( i , t ) (i, t) (i,t) 上优化此目标，模型 C Θ C_{\Theta} CΘ 学会了基础的"看图说话"能力。

第二步：关键性微调------从"简述"到"史诗级详述"

然而，基础模型生成的描述依然有网络数据的"陋习"------过于简略。为此，研究者进行了两次目标明确的微调，创造出两种不同用途的合成描述：

短合成描述（Short Synthetic Caption）微调：
- 目标：让模型学会精准描述图像主体。
- 方法：在一个小型、高质量、描述精确围绕主体的人工标注数据集上，继续训练 C Θ C_{\Theta} CΘ。
- 实例：对于一张展示公园里金毛犬和虎斑猫的图片，短合成描述可能是："一只金毛犬和一只虎斑猫在公园里。"
描述性合成描述（Descriptive Synthetic Caption, DSC）微调：
- 目标：这是技术核心 。让模型学会事无巨细地描绘图像中的一切。
- 方法：在另一个由人工撰写的、极致详细的长描述数据集上微调。这些描述如同影视脚本，涵盖主体、背景、环境、物体属性（颜色、大小、材质）、空间关系、情绪氛围，甚至图像中的文字。
- 实例（对比） ：
  - 原始网络描述 ："猫和狗"
  - 短合成描述 ："一只金毛犬和一只虎斑猫"
  - 描述性合成描述（DSC） ："一张宁静公园环境的照片。左边，一只金毛猎犬专注地坐着，凝视前方，舌头伸出。右边，一只虎斑猫懒洋洋地躺着，伸展着腿，带着好奇的表情看向狗。背景是模糊的绿树和一条蜿蜒的小径，午后阳光透过树叶洒下斑驳的光影。"

经过DSC微调， C Θ C_{\Theta} CΘ 进化为了一个"超级助教"，能够将任何图像转化为一份富含视觉细节的"需求文档"。

第三步：数据重构------用"超级助教"重铸数据集

利用精调后的描述生成器 C Θ DSC C_{\Theta}^{\text{DSC}} CΘDSC，对原始训练集中数以亿计的每一张图像 i i i 进行重新标注，生成对应的描述性合成描述 t ~ = C Θ DSC ( i ) \tilde{t} = C_{\Theta}^{\text{DSC}}(i) t~=CΘDSC(i)。从而，我们得到了一个全新的、高质量的图文配对数据集 D ~ = { ( t ~ n , i n ) } n = 1 N \tilde{D} = \{(\tilde{t}n, i_n)\}{n=1}^{N} D~={(t~n,in)}n=1N。

2.2 精妙的平衡：混合训练策略的数学智慧

如果直接用 D ~ \tilde{D} D~ 训练图像生成模型 G ϕ G_{\phi} Gϕ，可能会引发一个新问题：过拟合到合成描述的"AI文风" ，导致模型无法理解用户自然、简短的输入。这本质上是训练分布（冗长、规范的 t ~ \tilde{t} t~）与推理分布（多样、简洁的用户提示 u u u）不匹配的问题。

DALL-E 3的解决方案是一个简单而有效的混合采样策略 。在训练 G ϕ G_{\phi} Gϕ 的每一个批次（Batch）中，对于每张图像 i i i：

以 95 % 95\% 95% 的概率，使用其描述性合成描述 t ~ \tilde{t} t~。
以 5 % 5\% 5% 的概率，使用其原始简短描述 t t t。

这一策略的数学直觉与效果 ：它相当于在优化目标中引入了一项数据分布上的正则化 。模型 G ϕ G_{\phi} Gϕ 主要从 t ~ \tilde{t} t~ 学习如何将复杂、精确的文本映射到图像（极大提升性能上限 ），同时又通过少量的原始 t t t 保持对人类自然语言短分布的理解（确保泛化性和实用性 ）。最终，模型学到的条件分布 P ϕ ( i ∣ input ) P_{\phi}(i | \text{input}) Pϕ(i∣input) 能够同时很好地响应详细指令和简短提示。

3 性能飞轮：从数据革命到交互革命

DALL-E 3的创新闭环不仅限于训练阶段。它构建了一个提升终端用户体验的正向增强循环。

核心洞察 ：模型 G ϕ G_{\phi} Gϕ 在详细描述 t ~ \tilde{t} t~ 下表现最佳，但用户 u u u 习惯输入简短提示。
系统级解决方案 ：集成一个大型语言模型（如GPT-4）作为提示词自动编译器。

用户输入简短提示 u u u："一只戴着礼帽的向日葵刺猬，蒸汽朋克风格。"
LLM进行提示扩展 ：GPT-4 将 u u u 编译为符合DSC风格的详细描述 t ~ u \tilde{t}_u t~u："一张蒸汽朋克风格的精致插画。画面中心是一只由向日葵构成身体的可爱刺猬，它戴着一顶镶有齿轮和精密仪器的青铜色高顶礼帽，表情机灵。它站在一个充满铜管、阀门和缓慢运转的巨大齿轮的维多利亚风格机械花园露台上，远处是冒着蒸汽的钟楼剪影，整体色调为铜绿与暖黄。"
DALL-E 3生成图像 ： G ϕ G_{\phi} Gϕ 接收这份"高质量、无歧义的工单" t ~ u \tilde{t}_u t~u，精准地生成符合用户原始想象 u u u 的图像 i i i。

这个循环的意义在于：它将技术复杂性完全隐藏在系统后台。用户无需学习晦涩的"提示词工程"，只需用自然语言对话，即可获得高质量的生成结果，极大地降低了使用门槛。

4 效果验证：数据质量决定性能上限

研究通过系统的实验，量化了"重描述"技术的巨大价值：

CLIP分数评估公式 ：用于量化生成图像 i gen i_{\text{gen}} igen 与输入文本的语义相似度。

CLIP-Score = 100 ⋅ E CLIP I ( i gen ) ⋅ E CLIP T ( t ) ∥ E CLIP I ( i gen ) ∥ ∥ E CLIP T ( t ) ∥ \text{CLIP-Score} = 100 \cdot \frac{ E_{\text{CLIP}}^I(i_{\text{gen}}) \cdot E_{\text{CLIP}}^T(t) }{ \|E_{\text{CLIP}}^I(i_{\text{gen}})\| \|E_{\text{CLIP}}^T(t)\| } CLIP-Score=100⋅∥ECLIPI(igen)∥∥ECLIPT(t)∥ECLIPI(igen)⋅ECLIPT(t)

其中 E CLIP I E_{\text{CLIP}}^I ECLIPI 和 E CLIP T E_{\text{CLIP}}^T ECLIPT 分别是CLIP的图像和文本编码器。分数越高，提示跟随越好。

关键实验结论：

描述类型对比 ：在95%合成+5%原始的混合训练下，使用DSC描述训练的模型，其CLIP分数显著优于使用短合成描述或纯原始描述的模型。
混合比例探索 ：实验测试了从65%到95%的合成数据混合比例。结果显示：合成数据比例越高，模型性能越好（95%最佳）。这说明DSC描述提供的信息增益，其价值远大于其可能引入的微小分布偏差。

作为该技术的集大成者，DALL-E 3在标准评估中展现了压倒性优势：

自动评估：在MSCOCO（CLIP分数）、DrawBench（复杂提示跟随）、T2I-CompBench（颜色/形状/纹理组合绑定）上，全面超越DALL-E 2和Stable Diffusion XL。
人类盲测：在提示跟随、图像美学和物体连贯性三个维度上，人类评估者显著更青睐DALL-E 3的输出。

5 启示、局限与未来

DALL-E 3的"数据重描述"范式，为AI研究提供了深刻的启示：在竞相追逐模型规模（Scale） 的同时，对数据质量（Quality）的精雕细琢，是另一条效能极高、往往被低估的突破路径 。

当前局限指明未来方向：

空间关系仍是挑战 ：对于"A在B的左边"这类指令，生成依然不可靠。根源在于描述生成器 C Θ C_{\Theta} CΘ 本身对空间关系的描述能力不足。未来需要专门针对空间关系的描述数据进行强化训练。
文本渲染有待改进 ：虽然能生成图像内文字，但易出现拼写错误（如"Cafe"写成"Café"或"Caffee"）。论文推测这与基于子词（Subword）的文本编码器有关，未来引入字符级（Character-level） 或更细粒度的语言模型作为条件，可能是解决方案。
细节"幻觉"问题 ： C Θ C_{\Theta} CΘ 有时会"脑补"图像中不存在的具体细节（如为未知花朵指定一个拉丁学名）。这要求未来的描述生成器具备更强的"忠实描述"与"不确定表达"能力。

二、论文翻译：Improving Image Generation with Better Captions（通过更好的描述文本来改进图像生成）

摘要

我们证明，通过在高度描述性的生成图像描述文本上进行训练，可以显著提高文本到图像模型的提示跟随能力 。现有的文本到图像模型难以遵循详细的图像描述，经常忽略词语或混淆提示的含义。我们假设这个问题源于训练数据集中嘈杂和不准确的图像描述文本。我们通过训练一个定制的图像描述生成器并利用它重新标注训练数据集来解决这个问题。随后我们训练了几个文本到图像模型，发现基于这些合成描述文本进行训练能够可靠地提高提示跟随能力。最后，我们利用这些研究成果构建了DALL-E 3：一个新的文本到图像生成系统，并在一个旨在衡量提示跟随、连贯性和美学的评估中对其性能进行基准测试，发现其表现优于竞争对手。我们发布这些评估的样本和代码，以便未来的研究能够继续优化文本到图像系统的这一重要方面。

1 引言

生成建模的最新进展使得文本到图像生成模型实现了显著的性能提升。特别是，通过基于采样的方法（如自回归生成建模或使用扩散过程）来解决这个问题，使我们能够将图像生成的问题分解为小的、离散的步骤，这些步骤更容易被神经网络学习。

与此同时，研究人员发现了如何用堆叠的自注意力层构建图像生成器。将图像生成与卷积的隐式空间偏置解耦，使得文本到图像模型能够通过充分研究的Transformer缩放特性可靠地改进。

结合足够大的数据集，这些方法使得训练大型文本到图像模型成为可能，这些模型能够生成迅速接近人类能够产生的照片和艺术品质量的图像。

该领域一个突出的挑战是图像生成系统的可控性，这些系统经常忽略给定描述文本中的词语、词语顺序或含义。我们用术语"提示跟随"来指代这些挑战。

这个问题在几项工作中被指出：Rassin等人(2022)指出DALL-E 2不强制执行每个单词具有单一含义的约束。Saharia等人(2022)提出通过以预训练语言模型为条件来改进它，并引入了一个名为Drawbench的评估，该评估揭示了常见的提示跟随问题。Yu等人(2022b)同时引入了他们自己的基准测试Parti Prompts，并表明缩放自回归图像生成器是改进提示跟随的另一种方法。

在这项工作中，我们提出了一种解决提示跟随的新方法：描述文本改进。我们假设现有文本到图像模型的一个根本问题是它们训练所用的数据集中文本和图像配对的质量较差，这个问题在其他工作中也被指出，如Jia等人(2021)。我们提出通过为数据集中的图像生成改进的描述文本来解决这个问题。我们首先学习一个强大的图像描述生成器，该生成器能够生成图像的详细、准确描述。然后我们将这个描述生成器应用于我们的数据集以产生更详细的描述文本。最后，我们在改进的数据集上训练文本到图像模型。

在合成数据上训练并不是一个新概念。例如，Yu等人(2022b)提到他们在训练其缩放自回归图像生成器时应用了这种技术。我们的贡献在于构建了一个新颖的、描述性的图像描述系统，并测量了在训练生成模型时使用合成描述文本的影响。我们还为一系列衡量提示跟随的评估建立了可复现的基线性能概况。

本文重点评估DALL-E 3由于训练描述文本改进而带来的改进提示跟随能力。我们还在第3节评估了在原始描述文本与生成描述文本上训练的文本到图像模型，在第4节评估了DALL-E 3，并在第5节讨论了局限性和风险。

2 数据集重新标注

我们的文本到图像模型在一个由大量配对 ( t , i ) (t, i) (t,i)组成的数据集上进行训练，其中 i i i是图像， t t t是描述该图像的文本 4 ^{4} 4。在大规模数据集中， t t t通常源自人类作者，他们专注于图像的简单描述主题，并省略了图像中描绘的背景细节或常识关系。 t t t中通常被省略的重要细节可能包括：

物体的存在，如厨房中的水槽或人行道旁的停车标志，以及对这些物体的描述。
场景中物体的位置和这些物体的数量。
常识性细节，如场景中物体的颜色和大小。
图像中显示的文本。

更糟糕的是，互联网上找到的描述文本通常根本不正确；描述图像的略微相关细节。例如，在通常用于生成图像描述文本的替代文本中经常发现广告或模因。

我们理论认为，所有这些缺点都可以使用合成生成的描述文本来解决。在后续章节中，我们将讨论我们开发用于测试这一理论的过程。

2.1 构建图像描述生成器

图像描述生成器与传统预测文本的语言模型非常相似。因此，我们首先提供语言模型的简要描述。首先，使用分词器将文本字符串分解为离散的标记。以这种方式分解后，我们语料库的文本部分可以表示为序列 t = [ t 1 , t 2 , ... , t n ] t=\left[t_{1}, t_{2},\ldots, t_{n}\right] t=[t1,t2,...,tn]。然后，我们可以通过最大化以下似然函数在文本上构建语言模型：

L ( t ) = ∑ j log ⁡ P ( t j ∣ t j − k , ... , t j − 1 ; Θ ) ( 1 ) L(t)=\sum_{j}\log P\left(t_{j}\mid t_{j-k},\ldots, t_{j-1};\Theta\right)\qquad(1) L(t)=j∑logP(tj∣tj−k,...,tj−1;Θ)(1)

其中 Θ \Theta Θ是要优化的描述生成器参数。要将此语言模型转变为描述生成器，只需要以图像为条件。这里的挑战在于图像由数千个像素值组成。用我们当前的神经网络对所有信息进行条件化是异常低效的，因此我们需要一个压缩的表示空间。方便的是，CLIP[17]正好提供了这个。

因此，给定预训练的CLIP图像嵌入函数 F ( i ) F(i) F(i)，我们按如下方式增强我们的语言模型目标：

L ( t , i ) = ∑ j log ⁡ P ( t j ∣ t j − k , ... , t j − 1 ; z j ; F ( i ) ; Θ ) ( 2 ) L(t, i)=\sum_{j}\log P\left(t_{j}\mid t_{j-k},\ldots, t_{j-1}; z_{j}; F(i);\Theta\right)\qquad(2) L(t,i)=j∑logP(tj∣tj−k,...,tj−1;zj;F(i);Θ)(2)

我们遵循Yu等人(2022a)的方法，使用上述公式在我们的 ( t , i ) (t, i) (t,i)文本和图像对数据集上，使用CLIP和语言建模目标联合预训练我们的描述生成器。得到的模型确实是一个好的描述生成器，但表现出我们在第2节描述的相同问题，例如不愿描述细节。

4 ^{4} 4 配对的文本在本文中通常被称为"描述文本"

2.1.1 微调描述生成器

为了改进我们图像生成数据集中的描述文本，我们希望使我们的描述生成器偏向于生成对学习文本到图像模型有用的图像描述。在我们的第一次尝试中，我们构建了一个小型描述文本数据集，这些描述文本仅描述图像的主要主题。然后我们继续在这个数据集上训练我们的描述生成器。这个过程引起的对 θ \theta θ的更新导致了一个偏向于描述图像主要主题的模型。我们将通过此微调生成的描述文本称为"短合成描述文本"。

我们重复这个过程第二次，创建了一个长的、高度描述性的描述文本数据集，描述我们微调数据集中每个图像的内容。这些描述文本不仅描述图像的主要主题，还描述其周围环境、背景、图像中找到的文本、风格、颜色等。我们再次在这个数据集上微调我们的基础描述生成器。我们将通过此描述生成器生成的描述文本称为"描述性合成描述文本"。

图3显示了真实描述文本、短合成描述文本和描述性合成描述文本的示例。

构建完成后，我们将我们的图像描述生成器微调应用于文本到图像数据集中的每个图像，产生一组合成描述文本，用于后续实验。

3 评估重新标注的数据集

有了重新标注的数据集，我们开始评估在合成文本上训练模型的影响。我们特别寻求回答两个问题：

使用每种类型合成描述文本的性能影响。
合成描述文本与真实描述文本的最佳混合比例。

3.1 混合合成和真实描述文本

像我们的文本到图像扩散模型这样的似然模型有一个众所周知的倾向，即过拟合数据集中的分布规律。例如，一个在总是以空格字符开头的文本上训练的文本到图像模型，如果你尝试使用不以该空格开头的提示进行推理，将无法正常工作。

当涉及到在合成描述文本上训练时，我们需要考虑这个问题。我们的描述生成器模型可能有许多难以检测的模态行为，但如果我们的文本到图像模型在这些描述文本上训练，这些行为将成为我们模型的偏置。可能发生这种情况的例子包括字母大小写、描述文本中出现的标点符号（例如，是否总是以句点结尾？）、描述文本的长度，或风格倾向，例如所有描述文本都以单词"a"或"an"开头。

克服这个问题的最佳方法是将我们的输入正则化到更接近人类可能使用的风格和格式的文本分布。当使用真实描述文本时，你可以"免费"获得这一点，因为这些描述文本实际上是从人类编写的文本分布中提取的。为了在使用合成描述文本时将这种正则化引入我们的模型训练，我们选择将合成描述文本与真实描述文本混合。

混合发生在数据采样时，我们以固定的百分比机会随机选择真实描述文本或合成描述文本。我们在下一节分析不同混合比例的性能影响。

3.2 评估方法

为了评估，我们在相同的图像数据集上训练了相同的T5条件图像扩散模型。训练模型的细节在附录A中描述。所有模型都训练到500,000个训练步骤，批大小为2048，对应于总共10亿训练图像。

训练完成后，我们使用评估数据集中的描述文本从每个模型生成50,000张图像。然后我们使用Hessel等人(2022)中概述的CLIP-S评估指标评估这些生成的图像。我们选择CLIP分数作为指标，因为它与文本-图像相似性有很强的相关性，而这正是我们追求的。作为快速回顾，该指标计算如下：

首先，我们使用公共CLIP ViT-B/32[17]图像编码器生成图像嵌入 z i z_{i} zi，然后使用文本编码器为图像描述文本创建文本嵌入 z t z_{t} zt。我们最后计算CLIP分数作为余弦相似性C：

C ( z i , z t ) = z i ⋅ z t ∥ z i ∥ ∥ z t ∥ ( 3 ) C\left(z_{i}, z_{t}\right)=\frac{z_{i}\cdot z_{t}}{\left\|z_{i}\right\|\left\|z_{t}\right\|}\qquad(3) C(zi,zt)=∥zi∥∥zt∥zi⋅zt(3)

然后对所有50,000个文本/图像对计算的距离进行平均，并乘以因子100重新缩放。我们在训练期间跨多个模型检查点执行此评估，始终使用模型学习权重的指数加权平均值进行评估。

在计算CLIP分数时，执行上述计算时选择哪个描述文本很重要。对于我们的测试，我们要么使用真实描述文本，要么使用描述性合成描述文本。每次评估中都会注明使用了哪一个。

3.3 描述文本类型结果

我们首先分析在不同类型描述文本上训练的模型之间的性能差异。对于此评估，我们训练了三个模型：

一个仅在真实描述文本上训练的文本到图像模型。
一个在95%短合成描述文本上训练的文本到图像模型。
一个在95%描述性合成描述文本上训练的文本到图像模型。

我们执行此评估两次：一次使用从真实描述文本计算的 z t z_{t} zt，一次使用从描述性合成描述文本计算的 z t z_{t} zt。我们没有对短合成描述文本进行此操作，因为它们在此评估中与真实描述文本非常相似。

图4中显示的结果表明，当在真实描述文本上评估时，在合成描述文本上训练的两个模型都比基线模型实现了略好的CLIP分数性能，而在描述性合成描述文本上评估时，性能显著更好。这表明在训练文本到图像模型时使用合成描述文本没有缺点。

有趣的是，合成描述文本上的评估曲线方差要小得多。这支持了我们的理论，即重新标注可以被视为一种平均操作。在合成描述文本上评估的图像生成模型在所有训练的模型中也实现了更高的净CLIP分数，这支持了合成描述文本与其相应图像具有更好绑定的概念。

3.4 描述文本混合比例

为了评估描述文本混合比例，我们使用我们的描述性合成描述文本以不同的混合比例训练了四个图像生成模型。我们选择了65%、80%、90%和95%的合成描述文本混合比例。实验中途，评估显示65%的混合比例在所有评估中远远落后于其他混合比例，我们放弃了它。

图5中的结果显示，较高的合成描述文本混合比例总是提高模型的CLIP分数。

3.5 高度描述性描述文本的实际使用

上述实验表明，通过在非常高比例的合成描述文本上训练，我们可以最大化模型的性能。然而，这样做会导致模型自然地适应我们的描述生成器发出的长的、高度描述性的描述文本的分布。

已知生成模型在从其训练分布之外采样时会产生差的结果。因此，为了提取我们模型的最大潜力，我们将需要专门使用高度描述性的描述文本来采样。幸运的是，随着大型语言模型的最新突破，这是一个可以解决的问题。像GPT-4[14]这样的模型在需要想象力的任务上变得异常出色，例如讲故事和写诗。有理由认为它们也可能擅长在图像描述中想出合理的细节。

实际上，给定一个提示，例如附录C中找到的提示，我们发现GPT-4将 readily"上采样"任何描述文本为高度描述性的描述文本。为了演示这种方法可能如何有用，我们在来自drawbench数据集[24]的描述文本上执行此过程，并在表7中可视化结果。

如图7所示，利用LLM"上采样"描述文本不仅可以用于添加缺失的细节，还可以用于消除复杂关系的歧义，这些关系对于（相对）小的图像生成模型来说很难学习。最终结果是，模型通常会正确渲染它原本会出错的图像。

4 DALL-E 3

为了大规模测试我们的合成描述文本，我们训练了DALL-E 3，一个新的最先进的文本到图像生成器。DALL-E 3是我们在上述消融研究中使用的模型的放大版本，并具有其他几项改进。

5 ^{5} 5 DALL-E 3相比DALL-E 2有许多改进，其中许多在本文中未涵盖，由于时间和计算原因无法进行消融研究。本文讨论的评估指标不应被解释为仅仅通过在合成描述文本上训练所产生的性能比较。

4.1 自动化评估

我们将DALL-E 3与DALL-E 2和带有精炼器模块的Stable Diffusion XL 1.0[16]进行比较。我们希望评估DALL-E 3在与提示跟随相关的任务上的性能。我们在下面描述各个任务。

4.1.1 CLIP分数

我们首先使用第3.2节中描述的公共ViT-B/32模型计算CLIP分数。对于此比较，我们使用从MSCOCO 2014评估数据集[10]中提取的一组4,096个描述文本生成我们的图像 6 ^{6} 6。在此评估中，我们使用短的、真实的描述文本对模型进行推理。我们的模型在此评估中优于DALL-E 2和Stable Diffusion XL。

4.1.2 Drawbench

我们接下来评估来自drawbench[24]的描述文本。对于此测试，我们使用一个基于GPT-4的经过指令调优的、具有视觉感知能力的LLM，称为GPT-V，来评估我们的模型与其他模型的性能。对于drawbench中的每个提示，我们使用每个模型生成四张图像。然后我们使用附录D中找到的提示，将图像和文本提供给我们的视觉感知LLM。这产生一个结论（"正确"/"不正确"）和该结论的解释。

由于我们之前观察到我们的模型在给定来自语言模型的外推描述文本时表现更好，我们使用GPT-4通过第3.5节中描述的过程"上采样"drawbench描述文本。当我们从所有模型采样图像时，我们使用这些"上采样"描述文本第二次执行上述自动化评估。当要求视觉感知LLM判断输出时，我们使用原始的、真实的drawbench提示。

在所有drawbench评估中，我们的模型击败了DALL-E 2和Stable Diffusion XL。当我们使用"上采样"描述文本时，差距显著扩大。

6 ^{6} 6与过去版本的DALL-E一样，DALL-E 3没有专门在MSCOCO数据集上训练，我们也没有对我们的模型执行任何优化来提高此评估的性能。我们也没有在我们的训练数据集中对MSCOCO进行去重，可能存在数据泄漏。

4.1.3 T2I-CompBench

我们最后评估由Huang等人(2023)开发的T2I-CompBench评估套件的一个子集。此基准测试测量模型在组合提示上的性能。我们报告颜色绑定、形状绑定和纹理绑定的分数。我们使用Disentangled BLIP-VQA模型评估这些结果。

DALL-E 3在所有评估的基准测试中都是最先进的。

4.2 人类评估

我们提交来自DALL-E 3和可比模型的样本进行人类评估。对于此评估，我们向人类评分者呈现两张并排的图像，这些图像是从相同的描述文本生成的。然后我们问评分者三个问题之一：

提示跟随：向评分者呈现给文本到图像模型的完整上采样描述文本，并要求"选择哪个图像更好地对应于描述文本"。
风格："想象你正在使用一个计算机工具，该工具根据一些文本生成图像。如果你在使用此工具，选择你更愿意看到的图像。"
连贯性："选择哪个图像包含更连贯的对象。一个'连贯'的对象是可能合理存在的对象。仔细观察身体部位、人脸和人的姿势、物体的放置以及场景中的文本来做出判断。提示：计算每个图像的不连贯实例，并选择问题较少的图像。"

对于提示跟随和风格，我们为此评估组装了一个包含170个描述文本的小型数据集，该数据集专门针对生产文本到图像系统的典型使用。这些描述文本涵盖了广泛的实际用例，如生成人类、产品和地方、概念混合、文本渲染和艺术品。我们称此评估集为"DALL-E 3评估"。这些描述文本将与我们的评估样本一起发布（见第4.3节）。对于连贯性，我们观察到评分者会惩罚描绘虚构场景的图像。因此，我们从MSCOCO随机采样250个描述文本，以确保评估提示描述的场景可以合理存在。请注意，对于风格和连贯性评估，我们不向评分者显示用于生成图像的描述文本，以确保他们专注于风格或连贯性，而不是提示跟随。对于每个图像对和问题，我们从评分者收集3个响应，每个模型和问题总共有2040个评分。人类评估界面显示在附录E中。

我们将DALL-E 3与带有精炼器模块的Stable Diffusion XL和Midjourney v5.2进行比较。在表2中，我们使用Nichol等人(2022)中概述的相同计算报告ELO分数。

结果显示，DALL-E 3生成的图像在大多数情况下在所有三个方面都比所有竞争对手更受人类评分者青睐，尤其是在提示跟随方面。

4.2.1 Drawbench人类评估

在上一节中，我们使用GPT-V评估了drawbench。我们注意到，对于某些类型的测试，GPT-V在判断提示跟随方面没有表现出优于随机性能。特别是，这发生在涉及计算图像中对象数量的任务上。为了更好地覆盖drawbench性能，我们使用上一节描述的过程提交了图像和描述文本进行人类评估。与我们的GPT-V drawbench评估一样，我们只比较DALL-E 3、带有精炼器模块的Stable Diffusion XL和DALL-E 2。

4.3 可复现性

我们已经将所有上述比较中所有模型生成的所有样本和提示上传到GitHub。

5 局限性与风险

5.1 空间意识

虽然DALL-E 3在提示跟随方面是重要的一步，但它仍然在物体放置和空间意识方面挣扎。例如，使用词语"在左边"、"在下面"、"在后面"等非常不可靠。这是因为我们的合成描述生成器也有这个弱点：它在陈述物体放置方面不可靠，这反映在我们的下游模型中。

5.2 文本渲染

在构建我们的描述生成器时，我们特别注意确保它能够在其生成的描述文本中包含图像中找到的突出单词。因此，DALL-E 3在提示时可以生成文本。在测试期间，我们注意到这种能力是不可靠的，因为单词有缺失或额外的字符。我们怀疑这可能与我们使用的T5文本编码器有关：当模型遇到提示中的文本时，它实际上看到代表整个单词的标记，并且必须将这些映射到图像中的字母。在未来的工作中，我们希望探索以字符级语言模型为条件，以帮助改进此行为。

一张宁静公园环境的照片。左边，一只金毛猎犬专注地坐着，凝视前方，舌头伸出。右边，一只虎斑猫懒洋洋地躺着，伸展着腿，带着好奇的表情看向狗。

一张外太空场景的卡通画。在漂浮的行星和闪烁的星星中，一匹具有夸张特征的异想天开的马骑着一个宇航员，宇航员通过喷气背包在太空中游泳，看起来有点不知所措。

图7 - DALL-E 3常见故障模式的示例

5.3 特异性

我们观察到我们的合成描述文本容易幻觉图像的重要细节。例如，给定一朵花的植物学绘图，描述生成器通常会幻觉一个植物属和种，并将其放入描述文本中，即使这些细节在图像中以文本形式可用。我们在描述鸟类图片时观察到类似的行为：物种被幻觉或根本没有被提及。

这对我们的文本到图像模型有下游影响：DALL-E 3在生成上述特定术语的图像方面不可靠。我们相信，对描述生成器的进一步改进应该能够使我们的文本到图像模型进一步改进。

5.4 安全性和偏置缓解

我们对DALL-E 3的部署所引发的安全问题进行了深入分析，包括模型偏见带来的风险。这些评估的结果可以在DALL-E 3系统卡片[13]中找到。