为什么GPT-4o可以生成吉卜力风格照片，原理是什么？

引言：GPT-4o与吉卜力风格生成

最近，OpenAI 发布了升级版的 ChatGPT-GPT-4o，其令人瞩目的功能之一是能够将普通照片转换为宫崎骏吉卜力风格的动画图像。

这种将真实照片"动画化"的效果在社区引发轰动：大量用户争相用 GPT-4o 把自己和家人的照片生成吉卜力动画风格的画面。

下图展示了一位开发者将其与妻子及爱犬在海滩的合照转换成吉卜力动画场景的对比案例，左侧是 GPT-4o 生成的吉卜力风格插画，右侧是原始照片。

可以看到，生成的图像完美复刻了吉卜力工作室动画的绘画风格和色彩氛围。

那么，GPT-4o 是如何实现这种风格迁移的？

本文将从技术角度深入剖析多模态生成模型的架构和训练机制，解释 GPT-4o 模型生成吉卜力风格图像背后的原理。

Transformer 在多模态生成模型中的基础作用

要理解 GPT-4o 的图像生成能力，首先必须了解其核心架构 ------ Transformer。

Transformer 是由 Vaswani 等人在 2017 年提出的一种深度神经网络架构，以自注意力机制(Self-Attention)为核心。

与以往卷积网络或循环网络不同，Transformer 对输入序列中的所有元素进行全局关联，自注意力可以让每个位置的表示"注意"到序列中其它位置的相关信息。

由于这种全局建模能力，Transformer 在自然语言处理(NLP)任务中取得巨大成功，同时被引入计算机视觉领域，如 Vision Transformer (ViT) 将图像分割为补丁序列后用 Transformer 处理。

Transformer 尤其适用于多模态任务 ，原因在于其架构对输入模态并不做特别假设，可以视不同模态的数据为统一的token序列进行处理。

例如，我们可以用词嵌入序列表示文本，用图像块嵌入序列表示图像，然后将两种序列拼接输入一个多模态 Transformer 中，通过自注意力让图像和文本信息相互交融。这种跨模态注意力机制，使得 Transformer 能够自然地对图文等多模态进行联合建模，而无需针对每种模态定制网络结构。

Transformer 编码器提取每种模态的高层特征表示，解码器则可以将融合后的表征用于生成目标模态数据。总结来说，Transformer 提供了统一的建模框架，让多模态对齐和生成成为可能。

在图像生成中，模型通过交叉注意力用**文本特征（Query）去匹配图像特征（Key/Value），从而让生成过程受到文本的引导。

正是凭借 Transformer 的这些机制，GPT-4o 才能将文本描述（如提示词中包含"宫崎骏吉卜力风格"）与图像特征融合，进而生成具有该风格的图像。

跨模态对齐：从 CLIP 到 DALL·E 的文本-图像联合表示

在多模态生成模型中，实现文本与图像的特征对齐是至关重要的一步。

如果模型无法让文本和图像信息对齐，那么根据文本生成相关图像就无从谈起。

OpenAI 在 2021 年提出的 CLIP (Contrastive Language-Image Pretraining) 模型为图文对齐奠定了基础。

CLIP 使用了4亿对图像-文本作为训练数据，通过双编码器+对比学习的方式，将图像和文本投射到统一的语义嵌入空间。

具体来说，CLIP 有一个文本编码器（如基于 Transformer 的 BERT）和一个图像编码器（如基于 ViT 的视觉Transformer）。训练时将对应的图文对分别送入编码器，得到文本向量和图像向量，并采用对比损失使匹配的图文对在共同嵌入空间的距离更近，不匹配的则距离更远。

经过大规模预训练后，CLIP 学会了将文本和图像映射到共同的多模态语义空间，从而在一定程度上"理解"文本描述的图像含义。这为文本控制图像生成提供了一个良好的起点：模型可以使用 CLIP 提供的对齐特征来关联文本和图像内容。

基于 CLIP 对齐特征的图像生成模型代表是 DALL·E 2。

DALL·E 2 通过利用预训练好的 CLIP，将文本转化为图像的生成特征，实现了高质量的"文生图"。其过程被称为 unCLIP，因为它可以理解为把 CLIP 的图像编码器反过来用。DALL·E 2 的架构包含三个模块：

CLIP 模型 ：冻结的文本-图像双编码器，用于将输入文本编码为多模态统一语义空间中的文本特征向量；
先验模型 (Prior) ：一个 Transformer 模型，将 CLIP 得到的文本特征转换成对应的图像特征。这一步生成的图像特征仍在 CLIP 的语义空间中；
解码器模型 (Decoder) ：一个图像生成模型（扩散模型），根据先验生成的图像特征，生成具体的图像像素。它的作用相当于 "反向" CLIP 的图像编码器。

利用 CLIP 的文本编码器将提示词编码为文本特征向量，然后通过先验模型 将该文本特征变换为对应的"图像语义"特征，最后由解码器根据这个图像特征合成最终的图像。DALL·E 2 能够理解复杂的文本描述并据此生成符合语义的图像。

例如，给定提示词"身穿奇装异服的小女孩，吉卜力动画风格"，CLIP 会将其编码到语义空间，先验模型生成对应的图像特征，解码器再绘制出宫崎骏画风的小女孩图像。这种将文本条件注入图像生成过程的思路也被后来多数文生图模型沿用。

值得注意的是，GPT-4o 很可能内部也使用了类似 CLIP 对齐或其改进机制，将输入的文本（对话上下文、提示词）与图像生成模块相连接。正如文献中总结的，现代多模态大模型（Multimodal LLM）在需要生成视觉输出时，通常是将预训练的语言模型和图像生成模型相结合，通过交叉注意力层将文本嵌入作为条件注入图像生成过程。

因此，我们可以推测 GPT-4o 在架构上可能是一个语言模型（GPT-4）的文本生成能力与类似 DALL·E 或 Stable Diffusion 的图像生成能力的结合体：当它检测到用户请求图像输出时，会触发图像生成模块，以对齐的文本特征为条件生成图像。这种模块化设计使得 GPT-4o 既具备强大的自然语言理解/生成能力，又能产出高质量的图像。

文生图模型演进：扩散模型与图像生成流程

扩散模型 (Diffusion Model) 之前也常提到，是近年来崛起的高性能生成模型架构，已成为当前文生图领域的主流方案。包括著名的 Stable Diffusion 在内的模型都属于此类。

扩散模型的核心思想是：在训练过程中，对图像不断添加随机噪声直至其成为纯噪声，然后训练一个模型去学会逆向还原 这个噪声过程；在生成时，模型从纯噪声开始，迭代地去噪，最终得到逼真的图像。

Stable Diffusion 进一步提出了潜空间扩散 (Latent Diffusion) ，将扩散过程在图像的潜变量空间中进行而非像素空间 ([How Stable Diffusion works? Latent Diffusion Models Explained]。

具体来说，Stable Diffusion 先训练一个自编码器（Autoencoder），将高维的图像映射到低维的潜伏向量表示，再在这个潜伏空间中训练扩散模型进行生成。整个流程包括三个部分：

图像编码器 (Encoder) ：将原始图像 <math xmlns="http://www.w3.org/1998/Math/MathML"> x x </math>x压缩成潜变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> z z </math>z表示（比如 512×512 图像编码成 64×64×4 的潜伏特征张量）。这一步相当于提取图像的紧凑表示，同时去除人眼不敏感的细节。
扩散 U-Net 模型 ：在潜伏空间对 <math xmlns="http://www.w3.org/1998/Math/MathML"> z z </math>z反复添加噪声并训练U-Net网络 <math xmlns="http://www.w3.org/1998/Math/MathML"> ϵ θ ϵ_\theta </math>ϵθ去预测噪声。训练目标是使U-Net 能逐步去除噪声，还原出原始潜伏 <math xmlns="http://www.w3.org/1998/Math/MathML"> z z </math>z。在训练和生成中，文本提示会通过交叉注意力注入U-Net，使其在去噪过程中"参考"提示内容来决定图像的细节。这正如上文提到的，将文本特征作为条件引导生成。
图像解码器 (Decoder) ：当扩散过程在潜伏空间完成后，得到的潜伏变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> z ~ \tilde{z} </math>z~被送入解码器 <math xmlns="http://www.w3.org/1998/Math/MathML"> D D </math>D，将其还原回像素空间 <math xmlns="http://www.w3.org/1998/Math/MathML"> x ~ \tilde{x} </math>x~，得到最终生成的图像。因为潜伏空间低维而含义丰富，解码出的图像质量也非常高。

通过上述流程，Stable Diffusion 等扩散模型能够高效地生成清晰且高分辨率的图像。

这里关键的一点是文本条件的引入：在U-Net中，有专门的交叉注意力层用来融合文本嵌入（例如CLIP的文本编码输出），这样模型在每一步去噪时都"知晓"当前像素该遵循怎样的文本描述。

例如，如果提示词包含"吉卜力风格的森林场景"，那么在去噪过程中，模型会倾向于产生柔和的配色、大面积的自然环境、二维动画质感等与吉卜力美学一致的细节。训练时通过对大量图文对进行这样的去噪重建学习，模型就掌握了根据不同文本生成对应图像的能力。

正如 Stable Diffusion 的模型卡所述：训练期间每个步骤都将文本提示编码注入 U-Net 主干，通过对比添加的噪声和U-Net预测噪声之间的差异来形成训练损失。

这种设计使得模型学会了文本和图像之间的关联：在训练集分布上的新图像往往与已有数据相似。

因此，给定一个文本提示，扩散模型倾向于产生成熟数据分布中相似的图像，这也解释了为何它能复制出诸如"吉卜力风格"这类训练集中学到的画风。

模型如何学习和迁移图像风格

理解了图文生成模型的原理后，我们来深入探讨模型是如何学习特定图像风格并在生成时表现出来的。

例如，GPT-4o 如何学会"吉卜力风格"这种美学特征？

首先需要明确的是，大型生成模型在训练时往往使用了海量的图文数据，这些数据涵盖各种各样的风格类型。以 Stable Diffusion 的训练集 LAION-5B 为例，它包含了互联网抓取的 50 亿对图像和文本，其中不乏动漫画风、美术作品和电影截图等。

Stable Diffusion 进一步在 LAION-Aesthetics 等子集上训练，这些子集筛选出美感评分较高的图片（例如插画、艺术照等。

模型在训练时已经"见识"过许多吉卜力工作室动画场景的图像（可能来自电影截图、同人绘画或描述"吉卜力风格"的作品）。每当训练样本中出现描述类似"宫崎骏风格"或"吉卜力动画背景"的文字与对应图像时，模型就会调整内部参数来加强这种文本与视觉模式的关联。通过数百万样本的累积学习，模型在参数中隐式存储了对吉卜力风格的特征提取和合成能力。

从技术上看，这种风格学习与经典的神经风格迁移 (Neural Style Transfer) 有相似之处，但更加隐式和泛化 。回顾传统风格迁移算法（例如 Gatys 等人在 2015 年提出的方法），它需要输入一张内容图和一张风格图，通过迭代优化使输出图同时匹配内容特征和风格特征。风格特征通常用卷积网络的Gram矩阵表示，以衡量图像的纹理和色彩分布。

这种方法每次只能迁移一种特定风格，需要单独的风格图参考。而在 GPT-4o 这类多模态模型中，并没有显式地分离内容图和风格图 ------ 模型直接从训练数据中学习了风格的表示。当提示词中要求某种风格时，比如"以吉卜力动画风格绘制"，模型会在内部激活与该风格相关的特征模式，仿佛在脑海中调用出"吉卜力画风"的画面感，然后将用户提供的内容（或生成时随机抽象的内容）用这种画风绘制出来。这实际达到了与风格迁移相同的效果：输出图像保留了提示中暗示的场景/角色内容，但呈现出目标风格的视觉特征。

🌰🌰🌰 举个例子，如果提示词是"龙猫在森林里散步，吉卜力动漫风格"，模型首先根据语义生成了一个龙猫角色在森林场景中的基本布局（内容骨架），然后因为提示中特别强调了"吉卜力动漫风格"，模型便会调整色彩和线条，使画面具有《龙猫》《千与千寻》等作品中的典型质感：饱和柔和的色调、手绘感的轮廓、温馨的光影效果等等。

这些风格要素之所以能够被模型再现，是因为训练集里有大量吉卜力相关的图文对，模型从中归纳出了吉卜力风格的视觉模式。当看到提示中出现类似关键词，它就会在图像生成过程中倾向于输出这些模式。

此外，扩散模型的逐步生成特性 也有利于风格的表达。在扩散去噪的各层中，高层主要决定图像的大致构图和内容，而底层逐渐增加细节和纹理。风格往往体现在这些细节层次，例如笔触质感、颜色搭配等。因此，通过在去噪过程的不同阶段引入文本条件，模型可以在高层保证内容符合描述，在低层调整图像细节以匹配所需风格。这类似于风格迁移中先保留内容再渲染风格的思路，只不过扩散模型将二者融为一体完成了。

所以，大模型对风格的学习不是简单记忆几张范例图 ，而是通过统计学习形成对该风格的抽象表征，包括典型的色彩分布、形状语言以及笔触纹理等。一旦这种表征存储在模型参数中，遇到相关提示词就会被激活，使模型合成的图像自然而然地呈现出相应风格。

GPT-4o 生成吉卜力风格图像的潜在原因

结合以上原理，我们可以总结 GPT-4o 之所以能够生成宫崎骏吉卜力风格图像，主要有以下原因：

1、大规模多模态训练数据涵盖吉卜力风格：GPT-4o 背后的图像生成模型（可能是类Stable Diffusion模型）在海量图文对数据上训练，其中包含了丰富的动画风格图像和描述。吉卜力作为世界知名的动画流派，其作品画风在互联网上有大量相关数据（剧照、原画、粉丝艺术等）。模型从这些数据中学到了吉卜力风格的特征。正如生成模型的目标是产生与训练数据分布相似的新数据------若训练集中有吉卜力风格的样本，模型就能够生成相似风格的新图像。

2、Transformer 与跨模态对齐提供了风格迁移机制 ：GPT-4o 通过跨模态 Transformer 将文本提示与图像特征对齐，使诸如"吉卜力风格"这样的文字标签对应到具体的视觉模式。模型内部可能存在一个"风格嵌入"空间，当检测到提示包含某种风格关键词时，就会在生成过程中往该风格的方向引导图像特征。这个机制类似于在扩散模型的每一步去噪时都参考风格提示，从而逐层逼近目标风格。相比直接应用神经风格迁移，GPT-4o 的端到端生成在一致性和细节上往往更出色，因为风格和内容是在同一生成网络中协同产生的。

3、模型容量大、泛化能力强 ：GPT-4o 作为新一代多模态大模型，参数规模巨大，具备极强的模式记忆和组合泛化能力。这意味着它不仅记住了吉卜力风格的静态特征，还能将这种风格泛化到任意输入内容上。例如，无论用户让它画"一张本人照片的吉卜力动画版"还是"用吉卜力风格创作一幅城市风光"，模型都能灵活地将吉卜力的色彩和笔触应用在对应场景中，而不是拘泥于某部特定动画的画面。大模型容量 保证了风格特征的充分表达，多样化训练保证了风格迁移到新内容的稳定性。

4、实例验证 ：前文提到的开发者将真人照片转换为吉卜力动漫形象的例子很好地说明了上述原因。GPT-4o 基于输入照片生成吉卜力风插画，实际上是将照片内容提取后用学到的风格重绘了一遍。在 CLIP 的多模态空间中，照片中的人物和狗的语义特征被对齐到相应动画形象，随后扩散解码器按照吉卜力的画面质感进行渲染，最终产出令人大为惊叹的结果。OpenAI 团队之所以敢于在 GPT-4o 上开放吉卜力风格生成的能力，也是因为模型经过训练确实掌握了这种风格。从用户大量的正面反馈和分享来看，GPT-4o 对吉卜力风格的还原度相当高，证明了大规模多模态模型在风格学习上的成功。

综上，GPT-4o 能生成吉卜力风格图像绝非巧合或外挂 ，而是其模型架构和训练数据使然。

结语

对于开发者和研究者而言，GPT-4o 的成功展示了跨模态大模型的巨大潜力：它证明了只要有足够的训练数据和合适的架构，模型就能掌握人类艺术创作中的"风格元素"，并加以灵活运用。

我们将看到越来越多类似 GPT-4o 的模型，能够以逼真的方式再现各种艺术风格，为创意工作提供强大的辅助工具。AI 的画笔，正在绘制我们想象中的世界。