交错多模态内容生成：从“单张图“到“图文混排长文“的创作范式变革

摘要：随着大语言模型和视觉生成技术的飞速发展，人工智能内容生成正经历从单一模态向多模态融合的根本性转变。交错多模态内容生成技术使模型能够像人类创作图文并茂的文章那样，自由地交替生成文本和图像，形成连贯的叙事流。本文系统性地介绍了这一前沿领域的理论基础、核心技术和最新进展，深入分析了扩散模型、自回归模型和融合AR+扩散三大技术路线，详细解读了SEED-Story、Chameleon、Janus、Show-o和Emu3等代表性模型，并展望了未来的发展方向。

关键词：多模态内容生成；交错图文生成；视觉Token化；统一多模态模型；世界模型

1 引言------多模态内容生成的演进历程

1.1 从单一模态到多模态的发展历程

人工智能内容生成的历史，本质上是一部人类不断拓展机器表达能力的探索史。回溯这一发展历程，我们可以清晰地观察到一条从单一模态向多模态融合的演进轨迹。

在深度学习兴起之前，内容生成主要局限于规则驱动的文本模板系统，其能力边界被严格限定在预定义的语法结构之内。2014年，生成对抗网络（Generative Adversarial Networks, GAN）的提出标志着神经网络生成能力的质变突破[6]。GAN通过生成器与判别器的对抗训练机制，首次实现了高质量图像的自动生成。紧随其后，变分自编码器（VAE）和自回归模型（如PixelCNN、PixelRNN）等架构相继涌现，为图像生成提供了多样化的技术路径。

然而，这些早期方法存在一个根本性的局限：它们仅能处理单一模态的数据。文本生成模型无法"看见"图像，图像生成模型也无法"理解"文本。这种模态间的割裂状态，与人类自然的信息处理方式形成了鲜明对比------人类认知本质上是多模态的，我们同时通过视觉、语言和听觉等多种渠道感知并理解世界。

2017年Transformer架构的问世[7]，为多模态融合奠定了关键的技术基础。Transformer的自注意力机制能够高效地建模长距离依赖关系，这一特性使其天然适合处理序列化的多模态数据。2020年，OpenAI发布的GPT-3展示了大规模语言模型在文本理解与生成方面的惊人能力，同时也引发了学术界对多模态扩展的深入思考：如果语言模型能够如此出色地处理文本，是否也能以类似的方式处理图像、音频等其他模态？

这一思考催生了视觉-语言预训练（Vision-Language Pre-training, VLP）领域的蓬勃发展。CLIP[8]、ALIGN[9]等模型通过对比学习将图像和文本映射到共享的语义空间，实现了跨模态的语义对齐。然而，这些模型主要聚焦于理解任务，生成能力相对有限。真正的突破来自于2021年DALL-E的发布，它首次展示了基于文本描述生成高质量图像的能力，开创了文本到图像生成的新纪元。

DALL-E的成功揭示了一个核心洞见：通过将图像离散化为视觉Token序列，可以将图像生成问题转化为类似于文本生成的"下一个Token预测"问题。这一思想深刻影响了后续多模态生成模型的发展轨迹。随后，Stable Diffusion、Midjourney等扩散模型在图像质量上取得了显著进展，但它们仍然采用独立的架构处理不同模态，未能实现真正的统一建模。

1.2 交错多模态内容生成的定义与意义

在上述技术演进脉络中，一个更具挑战性的问题逐渐浮现：能否让AI模型像人类创作图文并茂的文章那样，自由地交替生成文本和图像，形成连贯的叙事流？这正是交错多模态内容生成（Interleaved Multimodal Content Generation）所致力于解决的核心问题。

交错多模态内容生成，指的是模型能够根据给定的初始条件（如一张图片或一段文字），自主地生成包含文本和图像交替排列的长序列内容。与传统的内容生成范式不同，这种生成模式要求模型具备以下关键能力：

首先，模型必须能够维护跨模态的语义一致性。当生成一段描述"夕阳下的海滩"的文字后，紧接着生成的图像必须准确地呈现这一场景，而非偏离主题的任意画面。这种一致性要求模型在不同模态之间建立深层次的语义关联。

其次，模型需要具备长程依赖建模能力。在长篇故事生成场景中，第20页的内容需要与第1页的人物设定、场景描述保持连贯。SEED-Story的研究表明，现有模型在处理超过10个多模态序列后往往会出现内容漂移或质量下降的问题[1]。Yang等人提出的多模态注意力汇聚机制（Multimodal Attention Sinking Mechanism）有效解决了这一难题，使模型能够生成包含25个多模态序列的长篇故事[1]。

第三，模型应当支持灵活的内容控制。用户可能希望在特定位置插入图像，或者要求模型根据已生成的图像续写文字。这种灵活性要求模型架构具备高度的适应性。

从应用价值来看，交错多模态内容生成具有广阔的前景。在数字出版领域，它可以自动化生成图文并茂的儿童读物、产品说明书、旅游攻略等内容；在教育领域，它能够根据教学大纲自动生成配有插图的课件材料；在娱乐产业，它为互动式叙事游戏、个性化漫画创作等应用提供了技术基础。

1.3 当前技术的突破点与应用前景

2024年以来，交错多模态内容生成领域迎来了密集的技术突破，多个研究团队从不同角度推进了这一前沿方向。

Meta FAIR团队发布的Chameleon模型代表了早期融合架构的重要尝试[2]。Chameleon将所有模态的数据------包括文本、图像和代码------统一表示为离散的Token序列，并在一个单一的Transformer架构上进行端到端训练。这种"早期融合"（Early Fusion）策略的核心优势在于，模型从底层就学习到了跨模态的联合表征，避免了后期融合可能引入的信息损失。实验结果表明，Chameleon在多模态理解任务上取得了与GPT-4V和Gemini Pro相当甚至更优的性能[2]。

DeepSeek-AI提出的Janus系列模型则从视觉编码的角度进行了创新探索[3]。Janus的核心洞见在于：视觉理解和视觉生成对编码器的要求存在本质差异------理解任务需要捕获高层语义信息，而生成任务则需要保留低层细节。为此，Janus采用了"解耦"（Decoupling）策略，为理解和生成分别配备独立的视觉编码器，但共享同一个Transformer主干网络进行处理。这种设计既保证了各任务的最优性能，又维持了架构的统一性[3]。

新加坡国立大学Show Lab团队提出的Show-o模型代表了另一条重要的技术路线[4]。与完全自回归的生成方式不同，Show-o创新性地将自回归建模与离散扩散建模相结合：文本Token采用自回归方式生成，而图像Token则通过离散扩散过程逐步去噪生成。这种混合策略充分发挥了两种范式的各自优势------自回归适合处理离散的语言符号，扩散模型则在连续视觉数据的生成上表现优异。Show-o已被ICLR 2025接收，彰显了学术界对其创新性的高度认可[4]。

北京智源人工智能研究院（BAAI）发布的Emu3模型则将"下一个Token预测"范式推向了极致[5]。Emu3的核心主张是：通过将图像、文本、视频统一离散化为Token序列，单一的自回归解码器架构就足以完成所有多模态任务，无需依赖扩散模型或组合式架构。Emu3团队在2024年2月组建了一支约50人的研究团队，专注于验证这一技术路线的可行性。最终发布的Emu3模型在多项基准测试上取得了与专用模型相当甚至更优的性能，为多模态统一建模提供了有力的实证支持[5]。

这些技术突破共同指向一个令人振奋的前景：我们正在见证内容生成范式从"单张图"向"图文混排长文"的根本性转变。在这一新范式下，AI不再是被动的工具，而是能够主动创作、自主叙事的智能伙伴。

1.4 文章结构概述

本文将系统性地介绍交错多模态内容生成的理论基础、核心技术和前沿进展。全文共分为六章：

第2章将深入探讨多模态统一表征的基本概念，包括单模态生成的局限性、视觉Token化技术（如VQ-VAE、MAGVIT等），以及早期融合与晚期融合架构的对比分析。

第3章将重点介绍交错多模态生成模型的架构设计，涵盖自回归与扩散模型的统一、多模态注意力机制、长序列建模策略等关键技术。

第4章将详细分析SEED-Story、Chameleon、Janus、Show-o和Emu3等代表性模型的工作原理和创新之处。

第5章将讨论训练数据构建、模型训练策略和推理优化等工程实践问题。

第6章将展望交错多模态内容生成的未来发展方向和潜在挑战。

2 基础概念------从单模态到多模态的统一表征

2.1 单模态生成的局限性

在深入探讨多模态统一表征之前，有必要先审视单模态生成范式的固有局限性。这些局限性不仅构成了技术发展的瓶颈，也为我们理解多模态融合的必要性提供了重要视角。

模态孤立导致的语义鸿沟是单模态生成的首要问题。以纯文本生成模型为例，尽管GPT系列在语言理解和生成方面取得了惊人成就，但它们本质上是在"盲"状态下运作的------模型无法真正"看见"它所描述的对象。当模型生成"一只橘色的猫坐在蓝色沙发上"这样的句子时，它对"橘色"、"蓝色"、"猫"、"沙发"的理解完全基于文本语料中的统计共现关系，而非真实的视觉感知。这种基于符号的间接理解方式，在面对需要精确视觉描述的复杂场景时往往力不从心。

同样，纯图像生成模型（如早期的GAN和VAE）虽然能够生成视觉上令人印象深刻的图像，但它们缺乏对生成内容的语义理解。模型知道如何组合像素以形成一张"看起来像猫"的图像，却无法回答"这只猫在做什么"或"这只猫是什么品种"这样的问题。这种"知其然而不知其所以然"的状态，严重限制了生成内容的可控性和可解释性。

跨模态一致性的缺失是另一个关键问题。在真实的内容创作场景中，文本和图像需要紧密配合、相互印证。一篇介绍巴黎旅游攻略的文章，其配图应当真实反映埃菲尔铁塔、卢浮宫等景点的风貌，而非任意生成与文字无关的风景图片。单模态生成范式下，文本和图像由独立的模型分别生成，两者之间缺乏协调机制，难以保证语义一致性。

创作效率的低下也是不容忽视的现实问题。对于需要大量图文配合的内容（如儿童绘本、产品手册、教学课件），传统的工作流程要求创作者先撰写文字，再为每段文字单独寻找或生成配图，最后进行人工校对和调整。这种串行化的工作模式效率低下，且容易产生内容不一致的问题。

长程依赖建模的困难在长篇内容生成中尤为突出。人类创作一部小说或漫画时，需要时刻记住前文的人物设定、情节发展和场景描述，确保后续内容与之保持连贯。单模态模型在处理长序列时面临着注意力稀释和梯度消失等挑战，难以有效维护长距离依赖关系。

正是这些局限性，催生了多模态统一表征的研究需求。通过将不同模态的数据映射到共享的表征空间，我们有望打破模态间的壁垒，实现真正意义上的跨模态理解与生成。

2.2 多模态统一表征的核心思想

多模态统一表征（Unified Multimodal Representation）的核心思想可以概括为：将来自不同模态（文本、图像、音频、视频等）的数据，通过适当的编码方式，映射到一个共享的语义空间中，使得不同模态但语义相近的内容在该空间中具有相近的表征向量。

这一思想并非凭空产生，而是有着深刻的认知科学基础。人类大脑在处理多模态信息时，也会将其整合到统一的认知框架中。神经科学研究表明，当人类看到"苹果"这个词、看到苹果的图片、或者听到别人说出"苹果"时，大脑中激活的神经模式存在显著的重叠区域。这种跨模态的神经表征机制，为多模态统一表征提供了生物学上的合理性依据。

从技术实现的角度来看，多模态统一表征通常包含以下几个关键环节：

模态特定的编码器负责将原始数据转换为初步的向量表示。文本通常通过词嵌入（Word Embedding）或子词嵌入（Subword Embedding）进行编码；图像则通过卷积神经网络（CNN）或视觉Transformer（ViT）提取特征；音频可以通过梅尔频谱图结合CNN，或者直接使用波形端到端编码器进行处理。

跨模态对齐机制是统一表征的核心。其目标是使语义相近的不同模态内容在表征空间中距离相近。CLIP采用的对比学习是一种经典的对齐策略：模型接收成对的图像-文本样本，通过最大化匹配对的相似度、最小化非匹配对的相似度来学习对齐的表征空间[8]。除了对比学习，还有基于重建的方法、基于翻译的方法等多种对齐策略。

共享的表征空间是统一表征的物理载体。这个空间通常是高维的连续向量空间（如512维、768维或1024维），其中的每个点都对应着某种语义内容。理想情况下，这个空间应当具备以下性质：语义相似性可以通过向量距离来度量；向量运算能够对应语义运算（如"国王 - 男人 + 女人 ≈ 女王"）；不同模态的表征可以无缝地进行组合和转换。

模态特定的解码器负责将统一表征还原为目标模态的数据。在生成任务中，解码器需要根据统一表征生成文本Token序列、图像像素矩阵或其他模态的输出。

多模态统一表征的优势是显而易见的。首先，它使得跨模态检索成为可能------用户可以用文本搜索相关的图像，也可以用图像搜索相关的文本。其次，它为跨模态生成奠定了基础------给定文本描述可以生成对应的图像，反之亦然。最重要的是，它为交错多模态生成提供了理论框架------文本和图像可以在统一的表征空间中进行交替生成，确保语义连贯性。

2.3 视觉Token化技术

在多模态统一表征的实现路径中，视觉Token化（Visual Tokenization）技术占据着举足轻重的地位。它的核心任务是将连续的图像像素数据转换为离散的Token序列，从而使图像能够像文本一样被自回归模型处理。

2.3.1 VQ-VAE：向量量化变分自编码器

向量量化变分自编码器（Vector Quantized Variational AutoEncoder, VQ-VAE）是视觉Token化的奠基性工作，由DeepMind团队于2017年提出[10]。VQ-VAE的创新之处在于将离散的向量量化引入自编码器架构，从而学习到有意义的离散表征。

VQ-VAE的架构包含三个核心组件：编码器、码本（Codebook）和解码器。编码器将输入图像映射为连续的潜在向量；码本包含K个可学习的向量（称为码字或Code Vector），每个码字对应一个离散索引；量化操作将编码器输出的连续向量替换为码本中距离最近的码字；解码器则根据量化后的离散表征重建原始图像。

VQ-VAE的训练目标由三部分组成：重建损失（Reconstruction Loss）衡量原始图像与重建图像之间的差异；矢量量化一致性损失（VQ Loss）确保量化后的码字能够跟随编码器输出的变化；承诺损失（Commitment Loss）防止编码器的输出过度偏离码本中的码字。

VQ-VAE的一个重要优势是避免了传统VAE中常见的"后验坍塌"（Posterior Collapse）问题。在标准VAE中，当解码器过于强大时，它可能忽略潜在变量，仅依赖自身生成重建结果，导致潜在空间失去意义。VQ-VAE通过向量量化的硬性约束，强制模型学习有意义的离散表征。

后续研究对VQ-VAE进行了多方面的改进。VQ-VAE-2引入了层次化的量化结构，先生成低分辨率的粗略表征，再逐步添加细节[11]。VQGAN在VQ-VAE的基础上引入了对抗训练，显著提升了重建图像的视觉质量，使其适用于高质量的图像生成任务[12]。

2.3.2 MAGVIT：面向视频的时空Token化

当视觉Token化的对象从静态图像扩展到动态视频时，新的挑战随之而来。视频不仅包含空间信息，还包含时间维度上的动态变化，如何高效地编码这种时空信息成为关键问题。

MAGVIT（MAsked Generative VIdeo Transformer）是由Google Research团队提出的视频Token化方案，它通过3D向量量化（3D-VQ）实现了高质量的时空Token化[13]。与独立处理每帧的2D-VQ不同，MAGVIT的3D-VQ将视频作为一个整体进行编码，同时建模空间和时间维度上的依赖关系。

MAGVIT的3D-VQ架构将2D卷积扩展为3D卷积，在编码器中同时使用3D和2D下采样层，其中3D下采样层出现在较浅的层中以捕获时间动态。解码器则采用对称的结构，先使用2D上采样层，再使用3D上采样层。这种设计使得每个Token不仅与其对应的时空块相关，还通过非局部的感受野与其他块建立联系。

实验结果表明，MAGVIT的3D-VQ在视频重建质量上显著优于2D-VQ方案，即使使用更高的压缩率（4×16×16的空间-时间压缩 vs 8×8的纯空间压缩），也能获得更好的重建效果[13]。这一发现对于长视频生成具有重要意义------更高的压缩率意味着更短的Token序列，从而降低了后续生成模型的计算负担。

2.3.3 视觉Token化的技术演进趋势

视觉Token化技术正在沿着多个方向持续演进。首先是码本规模的扩大------更大的码本能够表示更丰富的视觉细节，但也会增加计算开销和训练难度。其次是多尺度Token化------通过层次化的Token序列同时捕获全局结构和局部细节。第三是连续与离散表征的融合------一些新架构尝试在保持离散Token优势的同时，引入连续表征以保留更多信息。

Emu3采用的VisionTokenizer使用了32768大小的码本和4维嵌入向量，实现了视觉信息的高效压缩[5]。Show-o则探索了连续图像表征与离散Token的混合使用，为不同任务选择最合适的表征形式[4]。这些探索共同推动着视觉Token化技术向更高效、更灵活的方向发展。

2.4 早期融合 vs 晚期融合架构

在多模态模型的架构设计中，一个根本性的问题是如何处理不同模态的融合时机。根据融合发生的阶段，可以将架构分为"早期融合"（Early Fusion）和"晚期融合"（Late Fusion）两大类，每种策略都有其独特的优势和适用场景。

2.4.1 晚期融合架构

晚期融合架构的核心思想是：为每个模态分别设计独立的编码器，在各自模态内完成特征提取后，再在高层进行融合。这种架构的典型代表是CLIP及其众多变体[8]。

在CLIP中，文本编码器（基于Transformer）和图像编码器（基于ViT或ResNet）分别处理各自模态的输入，生成固定长度的向量表征。这两个向量随后被映射到共享的对比学习空间中，通过对比损失进行训练。在推理阶段，可以独立计算文本和图像的向量表征，然后通过向量相似度进行跨模态匹配。

晚期融合架构的优势在于模块化和灵活性。由于各模态的编码器相对独立，可以分别进行优化和扩展。当需要添加新的模态时，只需设计相应的编码器，而无需改动现有模块。此外，晚期融合架构通常具有更好的可解释性------我们可以分别分析文本编码器和图像编码器的输出，理解模型在各模态上的学习情况。

然而，晚期融合架构也存在明显的局限。由于融合发生在高层，低层的跨模态交互信息可能丢失。例如，图像中的局部区域与文本中的特定词汇之间的细粒度对应关系，在晚期融合架构中难以被有效捕获。此外，晚期融合架构通常更适合理解任务，在需要精细控制的生成任务中表现欠佳。

2.4.2 早期融合架构

早期融合架构采取截然不同的策略：在输入层或网络的极早期就将不同模态的数据进行融合，让模型从底层就学习到跨模态的联合表征。Chameleon是早期融合架构的典型代表[2]。

Chameleon将所有模态的数据------文本、图像、代码------统一表示为离散的Token序列。文本通过BPE（Byte Pair Encoding）分词器转换为Token ID；图像通过预训练的VQ-VAE Tokenizer转换为视觉Token序列。这些Token在输入层就被拼接在一起，形成统一的多模态序列，随后输入到单一的Transformer模型中进行处理。

早期融合架构的核心优势在于跨模态交互的深度和广度。由于所有模态共享同一个网络，信息可以在任意层之间自由流动，模型能够学习到细粒度的跨模态对应关系。对于生成任务而言，早期融合架构天然支持交错生成------模型可以在生成若干文本Token后，无缝切换到图像Token的生成，然后再回到文本，整个过程是连续且统一的。

然而，早期融合架构也面临着独特的挑战。首先是训练的不稳定性------不同模态的数据分布差异很大，将它们混合在一起训练容易导致优化困难。Chameleon团队采用了多种技术来缓解这一问题，包括精心设计的初始化策略、学习率调度和梯度裁剪等[2]。其次是计算效率------由于所有模态共享同一个大模型，推理时的计算开销相对较高。

2.4.3 架构选择的权衡与演进

早期融合与晚期融合并非非此即彼的选择，实际上存在介于两者之间的中间形态。Janus采用的解耦编码器设计可以看作是一种"中期融合"策略[3]------视觉理解和视觉生成分别使用独立的编码器（早期分离），但共享同一个Transformer主干进行处理（中期融合）。这种设计在保持架构统一性的同时，为不同任务提供了定制化的编码能力。

Show-o采用的混合范式则代表了另一种融合策略[4]。它在Token层面统一了文本和图像的表示（早期融合），但在生成机制上保留了差异------文本采用自回归生成，图像采用离散扩散生成。这种"统一表征、差异化生成"的思路，充分发挥了不同生成范式的各自优势。

架构类型	代表模型	融合阶段	优势	局限
晚期融合	CLIP[8]	输出层	模块化、灵活、可解释	细粒度交互不足
早期融合	Chameleon[2]	输入层	深度跨模态交互、支持交错生成	训练不稳定、计算开销大
中期融合	Janus[3]	编码器后	任务定制化与统一性的平衡	架构复杂度较高
混合范式	Show-o[4]	表征统一、生成分离	发挥各范式优势	实现复杂度较高

表1：不同融合架构的对比分析

从当前的发展趋势来看，早期融合架构在交错多模态生成任务中展现出更大的潜力。随着训练技术的进步和计算资源的丰富，早期融合架构的训练稳定性和效率问题正在逐步得到解决。可以预见，未来的多模态基础模型将越来越多地采用早期融合或混合融合的策略，以实现更紧密的跨模态协同和更灵活的生成能力。

3 技术范式------统一多模态模型的三大路线

在交错多模态内容生成的技术演进中，统一多模态模型的构建是核心挑战。传统的多模态系统通常采用"理解模型+生成模型"的分立架构，这种设计虽然能够复用各领域的成熟方案，但本质上割裂了理解与生成之间的内在联系。近年来，研究者们开始探索将视觉理解与视觉生成统一在单一框架中的技术路线，形成了三种主要的范式：扩散模型路线、自回归模型路线，以及融合两者的混合路线。

3.1 扩散模型路线（Diffusion-based）

扩散模型（Diffusion Model）作为当前视觉生成领域的主流技术，其核心思想源于非平衡热力学中的扩散过程。模型通过模拟数据分布逐渐退化为噪声的正向过程，学习逆向的去噪过程，从而实现从随机噪声中生成高质量数据的能力。

3.1.1 原理与特点

扩散模型的数学基础建立在马尔可夫链框架之上。给定原始数据分布 x0∼q(x0)x_0 \sim q(x_0)x0∼q(x0)，前向扩散过程通过 TTT 步逐步添加高斯噪声：

q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)q(xt∣xt−1)=N(xt;1−βt xt−1,βtI)

其中 βt∈(0,1)\beta_t \in (0,1)βt∈(0,1) 是预设的方差调度参数。经过 TTT 步后，xTx_TxT 近似服从标准高斯分布。模型的学习目标是通过神经网络 ϵθ\epsilon_\thetaϵθ 预测每一步添加的噪声：

Lsimple=Ex0,t,ϵ∼N(0,I)[∣∣ϵ−ϵθ(xt,t)∣∣2]\mathcal{L}{\text{simple}} = \mathbb{E}{x_0, t, \epsilon \sim \mathcal{N}(0,I)} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||^2 \right]Lsimple=Ex0,t,ϵ∼N(0,I)[∣∣ϵ−ϵθ(xt,t)∣∣2]

隐空间扩散模型（Latent Diffusion Model, LDM）是扩散模型的重要演进[7]。与直接在像素空间操作不同，LDM首先在感知压缩阶段训练一个变分自编码器（VAE），将高维图像 x∈RH×W×3x \in \mathbb{R}^{H \times W \times 3}x∈RH×W×3 压缩到低维隐空间表示 z∈Rh×w×cz \in \mathbb{R}^{h \times w \times c}z∈Rh×w×c，其中 h≪H,w≪Wh \ll H, w \ll Wh≪H,w≪W。扩散过程在隐空间中进行，显著降低了计算复杂度：

LLDM=EE(x),ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t,τθ(y))∣∣2]\mathcal{L}{\text{LDM}} = \mathbb{E}{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ ||\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y))||^2 \right]LLDM=EE(x),ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t,τθ(y))∣∣2]

这里 τθ\tau_\thetaτθ 是文本编码器（如CLIP的文本分支），yyy 是条件文本提示。交叉注意力机制将文本嵌入注入U-Net的多个层级，实现细粒度的语义控制。

扩散模型路线的核心优势在于生成质量的稳定性和多样性。通过迭代去噪过程，模型能够逐步细化图像细节，生成高保真度的视觉内容。然而，这种迭代特性也带来了推理效率的挑战------生成单张图像通常需要数十到上百步的去噪迭代。

3.1.2 代表模型：Stable Diffusion与Imagen

Stable Diffusion 是LDM架构的开源实现，由Stability AI于2022年发布[7]。其核心创新包括：

两阶段训练策略：先独立训练VAE实现感知压缩，再冻结VAE参数训练扩散模型
条件注入机制：通过交叉注意力层将CLIP文本嵌入注入U-Net
灵活的引导控制 ：Classifier-Free Guidance（CFG）技术允许通过调整引导尺度 www 平衡生成多样性与文本对齐度：

ϵ^θ(xt,t,c)=ϵθ(xt,t,∅)+w⋅(ϵθ(xt,t,c)−ϵθ(xt,t,∅))\hat{\epsilon}\theta(x_t, t, c) = \epsilon\theta(x_t, t, \emptyset) + w \cdot (\epsilon_\theta(x_t, t, c) - \epsilon_\theta(x_t, t, \emptyset))ϵ^θ(xt,t,c)=ϵθ(xt,t,∅)+w⋅(ϵθ(xt,t,c)−ϵθ(xt,t,∅))

Imagen 是Google提出的另一种扩散模型架构，其核心差异在于使用大型语言模型（T5-XXL）而非CLIP进行文本编码。研究表明，增强文本编码器的规模和质量比增大图像扩散模型本身更能提升生成效果。

扩散模型路线在交错多模态生成中的主要局限在于其"单次生成"的特性------模型通常接受文本条件生成单张图像，难以自然地扩展到多轮图文交替生成的场景。虽然通过图像条件化（如Img2Img、Inpainting）可以实现一定程度的序列生成，但本质上仍缺乏对长程多模态序列建模的原生支持。

3.2 自回归模型路线（Auto-Regressive）

自回归模型路线的核心思想是将视觉生成任务转化为序列预测问题，利用下一Token预测（Next-Token Prediction）的统一框架处理文本和图像。这一范式的哲学基础是：如果语言模型能够通过预测下一个词来理解和生成文本，那么扩展这一机制到视觉Token，或许可以实现真正的统一多模态智能。

3.2.1 原理与特点

自回归模型的数学形式简洁优雅。给定序列 x1:T=(x1,x2,...,xT)x_{1:T} = (x_1, x_2, ..., x_T)x1:T=(x1,x2,...,xT)，模型通过分解联合概率为条件概率的乘积来学习：

p(x1:T)=∏t=1Tp(xt∣x<t)p(x_{1:T}) = \prod_{t=1}^{T} p(x_t | x_{<t})p(x1:T)=t=1∏Tp(xt∣x<t)

对于离散Token，通常使用交叉熵损失进行训练：

LAR=−Ex1:T[∑t=1Tlog⁡pθ(xt∣x<t)]\mathcal{L}{\text{AR}} = -\mathbb{E}{x_{1:T}} \left[ \sum_{t=1}^{T} \log p_\theta(x_t | x_{<t}) \right]LAR=−Ex1:T[t=1∑Tlogpθ(xt∣x<t)]

将这一框架扩展到视觉生成的关键在于视觉Token化（Visual Tokenization） 。通过向量量化变分自编码器（VQ-VAE）或类似的离散化方法，连续图像被压缩为离散的视觉Token序列。设图像 xxx 经过编码器 E\mathcal{E}E 和量化器 qqq 得到离散表示：

z=q(E(x)),z∈{1,2,...,K}h×wz = q(\mathcal{E}(x)), \quad z \in \{1, 2, ..., K\}^{h \times w}z=q(E(x)),z∈{1,2,...,K}h×w

其中 KKK 是码本大小，h×wh \times wh×w 是空间分辨率。这些离散索引可以被展平为序列，与文本Token统一处理。

自回归路线的核心优势在于架构统一性：理解和生成共享相同的Transformer骨干和训练目标。这种统一性使得模型能够自然处理交错的多模态序列------文本Token和图像Token在序列中交替出现，模型通过自注意力机制捕捉跨模态的依赖关系。

3.2.2 代表模型：Chameleon、Emu3与SEED-Story

Chameleon 是Meta FAIR于2024年提出的混合模态早期融合基础模型[2]。其核心创新在于"早期融合"（Early-Fusion）策略：所有模态（文本、图像）从一开始就投影到统一的表示空间，由端到端的Transformer处理。Chameleon使用类似VQ-VAE的图像Tokenizer将256×256图像编码为512个离散Token，与BPE文本Token共享同一词汇空间。

Chameleon的架构设计针对混合模态推理进行了专门优化。模型采用34B参数规模，训练数据包含约4.4T Token的混合模态语料。在推理阶段，Chameleon面临三个特有的挑战：Token类型识别（区分文本Token和图像Token）、模态掩码处理、以及变长文本与定长图像块的序列整合。

Emu3 由北京智源人工智能研究院（BAAI）于2024年发布，其核心主张是"下一Token预测即所需一切"（Next-Token Prediction is All You Need）[5]。Emu3将图像、文本、视频统一离散化到共享表示空间，在单一Transformer上进行端到端训练。该模型在MSCOCO-30K图像生成基准上超越了SDXL等扩散模型，在VBench视频生成评测中得分81，超过Open-Sora 1.2。

Emu3的技术路线代表了一种"极简主义"的哲学------不依赖复杂的架构技巧，仅通过预测下一个Token来统一多模态学习。这种简洁性被认为具有强大的扩展潜力。

SEED-Story 专注于多模态长故事生成任务[1]。该模型基于SEED视觉Tokenizer构建，能够生成包含交错图文的长篇叙事内容。SEED-Story的核心贡献在于展示了自回归框架在复杂多模态叙事任务中的可行性，为交互式故事创作、教育内容生成等应用场景提供了技术基础。

3.3 融合AR+扩散模型路线

纯自回归路线虽然在架构统一性上具有优势，但在生成质量上往往难以与扩散模型相媲美。扩散模型的迭代细化机制能够产生更高质量的视觉细节，而自回归模型的并行性较差。融合路线试图结合两者的优势，在统一的Transformer框架内同时支持自回归理解和扩散生成。

3.3.1 原理与特点

融合路线的核心思想是：文本理解使用自回归机制，图像生成使用扩散机制，两者共享同一Transformer骨干。这种设计保留了语言模型的推理能力，同时利用扩散模型的生成优势。

离散扩散（Discrete Diffusion） 是实现这一目标的关键技术。与传统扩散在连续空间操作不同，离散扩散定义在有限词汇表上的状态转移。设离散状态空间为 {1,2,...,K}\{1, 2, ..., K\}{1,2,...,K}，前向过程通过转移矩阵 QtQ_tQt 定义：

q(zt∣zt−1)=Categorical(zt;p=Qtzt−1)q(z_t | z_{t-1}) = \text{Categorical}(z_t; p = Q_t z_{t-1})q(zt∣zt−1)=Categorical(zt;p=Qtzt−1)

其中 zzz 是one-hot表示。去噪目标变为预测原始Token或噪声类别。

另一种融合方式是连续-离散混合建模：文本Token作为离散序列自回归处理，图像表示作为连续向量通过扩散建模。这要求Transformer能够灵活处理两种不同类型的数据。

3.3.2 代表模型：Show-o、Transfusion与Janus-Flow

Show-o 是新加坡国立大学Show Lab和字节跳动联合提出的统一Transformer模型[4]。其核心创新在于统一自回归和离散扩散建模：文本Token使用因果注意力（Causal Attention）自回归生成，图像Token使用全注意力（Full Attention）进行离散扩散去噪。

Show-o的训练分为三个阶段：第一阶段使用RefinedWeb文本数据和ImageNet图像数据联合训练语言建模和类别条件图像生成；第二阶段在图文对数据上训练文本到图像生成；第三阶段进行指令微调。这种渐进式训练策略确保了模型在理解和生成任务上的均衡表现。

Transfusion 由Meta、Waymo和南加州大学的研究者共同提出[52]。与Show-o的离散图像Token不同，Transfusion使用连续图像表示。模型将图像编码为连续的Patch嵌入，直接在连续空间进行扩散建模。Transfusion的训练目标同时包含语言建模损失（下一Token预测）和扩散损失（噪声预测）：

LTransfusion=LLM+λLdiffusion\mathcal{L}{\text{Transfusion}} = \mathcal{L}{\text{LM}} + \lambda \mathcal{L}_{\text{diffusion}}LTransfusion=LLM+λLdiffusion

实验表明，Transfusion的扩展性显著优于将图像量化为离散Token的方案。通过引入模态特定的编解码层，Transfusion甚至可以将每张图像压缩到仅16个Patch。

Janus-Flow 是DeepSeek-AI提出的统一多模态模型[3][40]。它创造性地将整流流（Rectified Flow） 与自回归语言模型结合。整流流是一种先进的生成建模技术，通过学习从噪声到数据的直线路径来加速采样。Janus-Flow的关键发现是：整流流可以在大语言模型框架内有效训练，无需复杂的架构修改。

Janus-Flow采用解耦编码策略：理解路径使用SigLIP提取高维语义特征，生成路径使用VQ Tokenizer提取离散视觉Token。两个路径共享同一个Transformer基座，但通过不同的输入投影层进行区分。这种解耦设计允许理解和生成各自选择最适合的编码方式，互不干扰。

3.4 三种技术路线的对比分析

下表从核心原理、优势、局限性和代表模型四个维度对比三种技术路线：

技术路线	核心原理	优势	局限	代表模型
扩散模型路线	隐空间迭代去噪，通过马尔可夫链学习数据分布的逆向过程	生成质量高、细节丰富、训练稳定；Classifier-Free Guidance提供灵活的语义控制	推理效率低（需多步迭代）；原生不支持序列生成；理解与生成架构分离	Stable Diffusion[7]、Imagen、DALL-E 2
自回归模型路线	下一Token预测，将视觉离散化为Token序列统一建模	架构完全统一；天然支持交错序列生成；可复用LLM训练基础设施；扩展性强	视觉离散化存在信息损失；生成质量略逊于扩散模型；推理需逐Token生成	Chameleon[2]、Emu3[5]、SEED-Story[1]、GPT-4o
融合AR+扩散路线	文本自回归+图像扩散的统一框架，共享Transformer骨干	兼顾理解能力与生成质量；灵活处理离散/连续数据；支持多任务统一训练	架构复杂度较高；需要精心设计训练策略；不同模态间的平衡挑战	Show-o[4]、Transfusion[52]、Janus-Flow[3]

从表格可以看出，三种路线各有侧重：扩散模型路线在生成质量上占据优势，但架构分离限制了其在统一多模态任务中的应用；自回归模型路线追求架构的极致统一，但在生成质量上仍有提升空间；融合路线试图取两者之长，但增加了系统复杂性。

当前的技术趋势表明，融合路线可能是实现真正统一多模态智能的最有前景的方向。Show-o、Transfusion和Janus-Flow等模型已经证明，通过巧妙的设计，可以在单一Transformer中同时实现高质量的理解和生成。随着模型规模的扩大和训练数据的增加，这种统一架构的优势将更加明显。

4 核心架构------视觉编码与解码机制

在统一多模态模型的架构设计中，视觉编码与解码机制是连接像素空间与语义空间的关键桥梁。视觉编码器负责将原始图像转换为模型可处理的表示形式，而视觉解码器则执行相反的操作，将内部表示还原为可视化的图像。这一章将深入探讨视觉编码器的类型与选择策略、视觉解码器的设计原理，以及统一Transformer架构的核心设计思想。

4.1 视觉编码器的类型与选择

视觉编码器的选择直接影响模型在理解和生成任务上的表现。不同类型的编码器在信息粒度、语义层次和计算效率之间存在权衡。当前主流的视觉编码器可以分为三大类：语义编码器、像素编码器和解耦编码策略。

4.1.1 语义编码器：CLIP与SigLIP

语义编码器的核心目标是提取图像的高层语义特征，使其与文本描述在嵌入空间中对齐。这类编码器通常基于对比学习框架训练，学习将配对的图文样本拉近、非配对样本推远。

CLIP（Contrastive Language-Image Pre-training） 是语义编码器的开创性工作[50]。CLIP使用双塔架构，分别由图像编码器（ViT或ResNet）和文本编码器（Transformer）组成。训练目标是对比损失：

LCLIP=−1N∑i=1N[log⁡exp⁡(⟨vi,ti⟩/τ)∑j=1Nexp⁡(⟨vi,tj⟩/τ)+log⁡exp⁡(⟨vi,ti⟩/τ)∑j=1Nexp⁡(⟨vj,ti⟩/τ)]\mathcal{L}{\text{CLIP}} = -\frac{1}{N} \sum{i=1}^{N} \left[ \log \frac{\exp(\langle v_i, t_i \rangle / \tau)}{\sum_{j=1}^{N} \exp(\langle v_i, t_j \rangle / \tau)} + \log \frac{\exp(\langle v_i, t_i \rangle / \tau)}{\sum_{j=1}^{N} \exp(\langle v_j, t_i \rangle / \tau)} \right]LCLIP=−N1i=1∑N[log∑j=1Nexp(⟨vi,tj⟩/τ)exp(⟨vi,ti⟩/τ)+log∑j=1Nexp(⟨vj,ti⟩/τ)exp(⟨vi,ti⟩/τ)]

其中 vi,tiv_i, t_ivi,ti 是第 iii 个样本的图像和文本嵌入，τ\tauτ 是可学习的温度参数，NNN 是批次大小。CLIP在大规模图文对数据（4亿对）上训练，展现出强大的零样本分类和图文检索能力。

SigLIP 是Google提出的CLIP改进版本[50][58]。其核心创新是用Sigmoid损失替代CLIP的Softmax对比损失：

LSigLIP=−∑i,jlog⁡σ(zij⋅(⟨vi,tj⟩/τ+b))\mathcal{L}{\text{SigLIP}} = -\sum{i,j} \log \sigma(z_{ij} \cdot (\langle v_i, t_j \rangle / \tau + b))LSigLIP=−i,j∑logσ(zij⋅(⟨vi,tj⟩/τ+b))

其中 zij∈{+1,−1}z_{ij} \in \{+1, -1\}zij∈{+1,−1} 表示样本 i,ji,ji,j 是否配对，bbb 是可学习的偏置项。Sigmoid损失将多分类问题转化为二分类问题，避免了Softmax在大批次训练中的数值稳定性问题。实验表明，SigLIP在零样本分类和图文检索任务上优于同等规模的CLIP模型。

SigLIP 2进一步引入了多项改进[50][60]：

定位感知预训练（LocCa）：添加辅助解码器进行图像描述和指代表达理解，增强编码器的定位能力
自监督损失：包括自蒸馏和掩码预测，学习更丰富的视觉表示
多语言支持：使用Gemma多语言Tokenizer，支持109种语言
可变分辨率（NaFlex）：支持多种输入分辨率和原生宽高比

语义编码器的主要优势在于提取的表示具有丰富的语义信息，与文本高度对齐，非常适合视觉-语言理解任务。然而，语义编码器通常丢失了低级的视觉细节（如纹理、精确的空间布局），因此在图像生成任务中表现不佳。

4.1.2 像素编码器：VQ-VAE与MAGVIT-v2

像素编码器的目标是将图像压缩为紧凑的离散表示，同时保留重建所需的所有视觉信息。这类编码器基于自编码器架构，通过向量量化实现离散化。

VQ-VAE（Vector Quantized Variational AutoEncoder） 是像素编码器的经典架构[57][59]。VQ-VAE由编码器、码本和解码器三部分组成：

编码器 ：将输入图像 xxx 映射到连续潜在表示 ze(x)z_e(x)ze(x)
量化器 ：在码本 {e1,...,eK}\{e_1, ..., e_K\}{e1,...,eK} 中找到最近的嵌入：

zq(x)=ek,k=arg⁡min⁡j∣∣ze(x)−ej∣∣2z_q(x) = e_k, \quad k = \arg\min_j ||z_e(x) - e_j||_2zq(x)=ek,k=argjmin∣∣ze(x)−ej∣∣2

解码器 ：从量化表示重建图像 x^=D(zq(x))\hat{x} = D(z_q(x))x^=D(zq(x))

VQ-VAE的训练目标包含三部分：

LVQ-VAE=∣∣x−x^∣∣2⏟重建损失+∣∣sg[ze(x)]−e∣∣2⏟码本对齐+β∣∣ze(x)−sg[e]∣∣2⏟承诺损失\mathcal{L}{\text{VQ-VAE}} = \underbrace{||x - \hat{x}||^2}{\text{重建损失}} + \underbrace{||\text{sg}[z_e(x)] - e||^2}{\text{码本对齐}} + \underbrace{\beta ||z_e(x) - \text{sg}[e]||^2}{\text{承诺损失}}LVQ-VAE=重建损失 ∣∣x−x^∣∣2+码本对齐 ∣∣sg[ze(x)]−e∣∣2+承诺损失 β∣∣ze(x)−sg[e]∣∣2

其中 sg[⋅]\text{sg}[\cdot]sg[⋅] 表示停止梯度操作，β\betaβ 是承诺损失的权重。由于量化操作的不可微性，VQ-VAE使用直通估计器（Straight-Through Estimator）：将解码器梯度直接复制到编码器。

MAGVIT-v2 是Google和CMU于2023年联合提出的视频Tokenizer[6][47]，其论文标题"Language Model Beats Diffusion --- Tokenizer is Key to Visual Generation"直接点明了其核心主张。MAGVIT-v2的创新包括：

共享词汇表：图像和视频使用同一套Token词汇表
改进的量化策略：使用查找-free量化（Lookup-Free Quantization）减少信息损失
多尺度编码：支持不同空间分辨率的统一表示

MAGVIT-v2的关键发现是：配备高质量Tokenizer后，语言模型在ImageNet图像生成基准上可以击败扩散模型。这一结果强调了视觉Token化在多模态学习中的核心地位。

像素编码器的主要优势在于保留了重建图像所需的全部信息，因此可以直接用于图像生成任务。然而，像素编码器提取的表示语义层次较低，与文本的对齐度不如语义编码器，在视觉-语言理解任务中表现相对较弱。

4.1.3 解耦编码策略：Janus的做法

Janus模型提出了**解耦视觉编码（Decoupling Visual Encoding）**的创新策略[3][31]，核心思想是：理解和生成对视觉表示的需求截然不同，应该使用不同的编码器分别优化。

Janus的架构设计如下：

理解路径：使用SigLIP提取高维语义特征，用于视觉问答、图像描述等理解任务
生成路径：使用VQ Tokenizer提取离散视觉Token，用于图像生成任务
共享Transformer：两个路径共享同一个Transformer基座，但通过不同的输入投影层进行区分

解耦编码的数学形式可以表示为：

理解: hunderstand=Transformer(Wu⋅SigLIP(x)+Wt⋅Embed(t))\text{理解: } h_{\text{understand}} = \text{Transformer}(W_u \cdot \text{SigLIP}(x) + W_t \cdot \text{Embed}(t))理解: hunderstand=Transformer(Wu⋅SigLIP(x)+Wt⋅Embed(t))

生成: hgenerate=Transformer(Wg⋅VQ(x)+Wt⋅Embed(t))\text{生成: } h_{\text{generate}} = \text{Transformer}(W_g \cdot \text{VQ}(x) + W_t \cdot \text{Embed}(t))生成: hgenerate=Transformer(Wg⋅VQ(x)+Wt⋅Embed(t))

其中 Wu,Wg,WtW_u, W_g, W_tWu,Wg,Wt 分别是理解投影、生成投影和文本嵌入矩阵。

解耦策略的优势在于：

专业化优化：理解编码器专注于语义对齐，生成编码器专注于信息保留
避免冲突：理解和生成的不同需求不会相互干扰
灵活性：可以独立升级或替换某一侧的编码器

Janus-Pro作为Janus的进阶版本[40]，通过优化训练策略、扩展训练数据和增大模型规模，在理解和生成能力上都取得了显著提升。

4.2 视觉解码器（De-tokenizer）

视觉解码器的作用是将模型内部生成的表示还原为像素空间的图像。在统一多模态模型中，解码器的设计取决于编码器的选择和生成范式。

4.2.1 扩散模型作为解码器

在使用语义编码器（如CLIP）的架构中，图像生成通常依赖扩散模型作为解码器。这种情况下，语义特征作为条件引导扩散过程：

p(x∣c)=∫p(x∣z,c)p(z)dzp(x | c) = \int p(x | z, c) p(z) dzp(x∣c)=∫p(x∣z,c)p(z)dz

其中 ccc 是语义条件，zzz 是扩散隐变量。DALL-E 2采用的就是这一策略：CLIP图像嵌入通过扩散先验转换为文本嵌入空间，然后通过解码器扩散生成图像。

这种设计的问题在于条件信息瓶颈：语义编码器提取的特征过于紧凑，丢失了大量细节信息，导致生成图像的多样性受限。

4.2.2 特征回归与图像重建

在使用像素编码器（如VQ-VAE）的架构中，解码过程相对直接：模型生成的离散Token通过解码器直接重建为图像：

x^=D(zq),zq∈{1,...,K}h×w\hat{x} = D(z_q), \quad z_q \in \{1, ..., K\}^{h \times w}x^=D(zq),zq∈{1,...,K}h×w

对于连续表示的架构（如Transfusion），解码器需要执行特征回归。设模型输出连续特征 f∈Rh×w×df \in \mathbb{R}^{h \times w \times d}f∈Rh×w×d，解码器将其映射到像素空间：

x^=D(f)\hat{x} = D(f)x^=D(f)

Transfusion使用轻量级的Patch级解码器，将16个Patch的表示还原为完整图像。

在Janus-Flow中，解码过程结合了整流流机制。整流流学习从噪声到数据的直线路径：

dzt=vθ(zt,t)dtdz_t = v_\theta(z_t, t) dtdzt=vθ(zt,t)dt

其中 vθv_\thetavθ 是模型学习的速度场。相比传统扩散的曲线路径，整流流可以用更少的采样步数达到相同的生成质量。

4.3 统一Transformer架构设计

统一Transformer架构的核心挑战在于：如何在一个模型中同时支持离散Token的自回归建模和连续/离散视觉数据的扩散建模。

4.3.1 注意力机制的设计

不同模态和任务需要不同的注意力模式：

因果注意力（Causal Attention） 用于文本的自回归生成：

Attention(Q,K,V)=softmax(QKTdk+M)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)VAttention(Q,K,V)=softmax(dk QKT+M)V

其中 MMM 是因果掩码，Mij=−∞M_{ij} = -\inftyMij=−∞ 当 j>ij > ij>i。这确保模型只能关注当前位置之前的Token。

全注意力（Full Attention） 用于图像的扩散建模：

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk QKT)V

全注意力允许每个位置关注序列中的所有位置，更适合捕捉图像中的全局依赖。

Show-o采用了自适应注意力切换机制：根据当前处理的Token类型自动选择注意力模式。文本Token使用因果注意力，图像Token使用全注意力。

4.3.2 位置编码与模态标识

统一序列中的不同模态需要明确标识。常用策略包括：

模态嵌入（Modality Embedding）：为文本、图像等不同模态学习独立的嵌入向量
特殊Token ：使用 <image_start>, <image_end> 等特殊Token标记图像边界
位置编码扩展：为二维图像设计2D位置编码，与文本的1D位置编码区分

设文本Token的位置编码为 PEtext(pos)∈RdPE_{\text{text}}(pos) \in \mathbb{R}^dPEtext(pos)∈Rd，图像Token的2D位置编码为 PEimage(i,j)∈RdPE_{\text{image}}(i, j) \in \mathbb{R}^dPEimage(i,j)∈Rd，则最终输入嵌入为：

h=Embed(x)+PE(x)+ME(x)h = \text{Embed}(x) + PE(x) + ME(x)h=Embed(x)+PE(x)+ME(x)

其中 ME(x)ME(x)ME(x) 是模态嵌入。

4.3.3 训练策略

统一模型的训练通常采用多阶段策略：

阶段1：预训练。在大规模图文数据上进行无监督/弱监督预训练，学习目标包括：

语言建模损失（文本自回归）
图像Token预测（视觉自回归或扩散）
图文对比/对齐损失

阶段2：对齐微调。在高质量图文对数据上微调，增强文本到图像的生成能力。

阶段3：指令微调。在指令遵循数据上训练，使模型能够响应用户的多样化请求。

多任务训练需要平衡不同损失项的权重：

Ltotal=λ1LLM+λ2Lvision+λ3Lalign\mathcal{L}{\text{total}} = \lambda_1 \mathcal{L}{\text{LM}} + \lambda_2 \mathcal{L}{\text{vision}} + \lambda_3 \mathcal{L}{\text{align}}Ltotal=λ1LLM+λ2Lvision+λ3Lalign

权重 λi\lambda_iλi 的选择对模型性能有重要影响，通常需要通过实验调优。

4.3.4 推理策略

统一模型的推理需要处理混合模态的输出。对于交错图文生成，通常采用以下流程：

接收用户输入（可能包含文本和图像）
将输入编码为统一序列
自回归生成下一个Token
判断Token类型：
- 如果是文本Token，直接输出
- 如果是图像Token，继续生成直到图像序列完整
使用视觉解码器将图像Token还原为像素图像
重复步骤3-5直到生成结束

Chameleon的论文指出[65]，混合模态推理面临三个具体挑战：生成的Token需要从GPU复制到CPU以检查类型、需要掩码不属于特定模态的Token、以及变长文本与定长图像块的序列整合。

统一Transformer架构的设计仍在快速演进中。随着模型规模的扩大和训练技术的改进，我们可以期待更加优雅和高效的统一架构出现，真正实现"一个模型处理所有模态"的愿景。

5 训练策略------多阶段与多任务学习

交错多模态内容生成模型的训练是一项复杂的系统工程，涉及视觉与语言模态的深度对齐、理解与生成能力的协同优化，以及长序列生成的稳定性保障。本章将深入剖析当前主流模型采用的三阶段训练范式、多任务学习策略，以及支撑长序列生成的关键技术机制。

5.1 三阶段训练范式

现代多模态大语言模型（MLLM）的训练普遍遵循一个精心设计的渐进式三阶段范式[1][3][4]。这一范式的核心思想是：从简单的模态对齐开始，逐步过渡到复杂的统一预训练，最终通过监督微调实现任务特化。这种由浅入深的训练策略既保证了训练效率，又最大化了模型的最终性能。

5.1.1 阶段一：视觉Token化与对齐

第一阶段的核心目标是建立视觉模态与语言模态之间的有效桥梁。在这一阶段，模型需要学习如何将连续的图像像素转换为离散的视觉Token序列，并使其语义空间与语言Token空间对齐。

具体而言，阶段一的训练通常聚焦于适配器（Adaptor）和图像头（Image Head）的优化，而视觉编码器、生成编码器以及大语言模型主干保持冻结状态[4]。这种设计基于以下关键洞察：预训练的大型语言模型已经具备了强大的语义理解和生成能力，而视觉编码器（如SigLIP[30]）也已从大规模视觉数据中学习到了丰富的视觉表征。因此，训练的关键在于构建一个高效的"翻译"机制，将视觉表征映射到语言模型的输入空间。

Janus-Pro在这一阶段采用了SigLIP作为理解编码器，用于提取图像的高维语义特征[4]。这些特征被展平为一维序列后，通过理解适配器映射到LLM的输入空间。对于生成任务，则采用向量量化（VQ）Tokenizer将图像转换为离散ID序列，再通过生成适配器进行对齐。这种解耦的视觉编码策略------为理解和生成分别设计独立的编码路径------是Janus系列模型的核心创新之一[4]。

SEED-Story在这一阶段采用了类似的策略，利用预训练的视觉Tokenizer和反Tokenizer来实现图像与视觉Token之间的双向转换[1]。视觉Tokenizer将图像编码为紧凑的离散表示，而反Tokenizer则负责将这些视觉Token解码回像素空间。这种设计使得模型能够以统一的方式处理文本Token和视觉Token，为后续的交错生成奠定基础。

5.1.2 阶段二：统一预训练

第二阶段是模型能力全面发展的关键时期。在这一阶段，大语言模型主干被解冻，与适配器和图像头一起进行端到端的联合训练。训练数据涵盖了多模态理解、纯文本和文本到图像生成等多种任务类型[4]。

统一预训练的核心挑战在于如何平衡不同类型的训练数据。Janus-Pro在这一阶段采用了约7200万样本的合成美学数据与真实数据按1:1比例混合的策略[4]。这种平衡的混合策略带来了两个显著优势：首先，合成数据的质量可控，避免了真实数据中常见的噪声和不稳定性问题；其次，真实数据保证了生成内容的多样性和真实性。

Show-o在这一阶段采用了更为创新的训练策略------同时结合自回归建模和离散扩散建模[3]。对于文本Token，模型使用因果注意力进行自回归预测；对于图像Token，则采用全注意力的离散去噪扩散建模。这种混合训练目标使得单一Transformer能够同时处理理解和生成两种不同类型的任务，而无需在推理时切换不同的子系统[3]。

Emu3.5在这一阶段展现了其作为"世界学习者"的独特定位[2]。模型在超过10万亿个交错的视觉-语言Token上进行预训练，这些Token来源于视频帧和转录文本。通过这种大规模的交错序列预训练，Emu3.5学会了联合预测视觉和语言的下一状态，从而实现了连贯的世界建模和生成能力。

5.1.3 阶段三：监督微调（SFT）

第三阶段是模型能力精细化和任务特化的关键阶段。在这一阶段，整个模型------包括视觉编码器、适配器、大语言模型主干和图像头------全部解冻进行端到端的监督微调[4]。

监督微调的数据配比是影响最终模型性能的关键因素。Janus-Pro在这一阶段对数据比例进行了精心调整：将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10调整为5:1:4[4]。这种调整的背后逻辑是：在保持强大视觉生成能力的同时，进一步提升多模态理解性能。实验结果表明，这种配比调整显著改善了模型在多模态理解基准测试（如MMBench）上的表现，同时没有牺牲文本到图像生成的质量。

SEED-Story的监督微调则更加聚焦于交错故事生成任务[1]。模型在StoryStream数据集上进行训练，该数据集包含从动画视频中提取的叙事丰富的文本序列和高质量图像序列。通过在这种专门设计的交错数据上进行微调，SEED-Story学会了生成具有连贯叙事和风格一致图像的多模态故事。

5.2 多任务学习策略

交错多模态内容生成模型的核心优势在于其统一处理理解和生成任务的能力。然而，这两种任务在本质上存在显著差异：理解任务要求模型从输入中提取和推理语义信息，而生成任务则要求模型创造新的内容。如何在这两种任务之间取得平衡，是多任务学习策略需要解决的核心问题。

5.2.1 理解与生成任务的平衡

理解与生成任务的平衡首先体现在模型架构设计上。Janus-Pro采用了解耦的视觉编码策略，为理解和生成分别设计独立的编码路径[4]。理解编码器（SigLIP）专注于提取高维语义特征，适合需要深度语义理解的任务；生成编码器（VQ Tokenizer）则将图像转换为离散Token序列，更适合生成任务的需求。这种架构设计从根本上缓解了两种任务对视觉编码器的冲突需求。

Show-o则采用了另一种平衡策略------在单一Transformer框架内融合两种不同的生成范式[3]。对于理解任务（如视觉问答、图像描述），模型使用自回归建模，这与传统LLM的推理方式一致；对于生成任务（如文本到图像生成），则采用离散扩散建模，通过迭代去噪的方式生成图像。这种"各取所长"的策略使得单一模型能够同时达到与专门模型相当甚至更优的性能。

在训练数据层面，任务平衡体现为不同类型数据的比例调配。Janus-Pro在统一预训练阶段采用了1:1的真实数据与合成数据混合策略[4]；在监督微调阶段则调整为5:1:4的多模态、纯文本、文本到图像数据比例。这种动态调整的策略使得模型能够在不同训练阶段聚焦于不同的能力发展方向。

5.2.2 损失函数设计

损失函数的设计是多任务学习策略的核心。对于交错多模态内容生成模型，损失函数需要同时考虑文本Token和视觉Token的预测准确性。

自回归模型的标准训练目标是最大化序列的联合概率，即最小化负对数似然损失：

LAR=−∑i=1Nlog⁡p(xi∣x<i;θ)\mathcal{L}{\text{AR}} = -\sum{i=1}^{N} \log p(x_i | x_{<i}; \theta)LAR=−i=1∑Nlogp(xi∣x<i;θ)

其中，xix_ixi表示第iii个Token（可以是文本Token或视觉Token），x<ix_{<i}x<i表示之前的所有Token，θ\thetaθ表示模型参数。

对于采用扩散建模的模型（如Show-o），损失函数则采用去噪目标[3]：

Ldiff=Et,x0,ϵ[∣∣ϵ−ϵθ(xt,t)∣∣2]\mathcal{L}{\text{diff}} = \mathbb{E}{t, x_0, \epsilon} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||^2 \right]Ldiff=Et,x0,ϵ[∣∣ϵ−ϵθ(xt,t)∣∣2]

其中，xtx_txt是在时间步ttt加噪后的数据，ϵ\epsilonϵ是添加的噪声，ϵθ\epsilon_\thetaϵθ是模型预测的噪声。

在统一训练框架下，总损失通常是不同任务损失的加权和：

Ltotal=λtxtLtxt+λimgLimg+λinterLinter\mathcal{L}{\text{total}} = \lambda{\text{txt}} \mathcal{L}{\text{txt}} + \lambda{\text{img}} \mathcal{L}{\text{img}} + \lambda{\text{inter}} \mathcal{L}_{\text{inter}}Ltotal=λtxtLtxt+λimgLimg+λinterLinter

其中，Ltxt\mathcal{L}{\text{txt}}Ltxt、Limg\mathcal{L}{\text{img}}Limg和Linter\mathcal{L}_{\text{inter}}Linter分别对应文本生成、图像生成和交错生成的损失，λ\lambdaλ系数用于平衡不同任务的权重。

5.3 长序列生成技术

交错多模态内容生成的一个核心挑战是处理长序列。与纯文本生成不同，交错序列中的每个图像都对应大量的视觉Token（例如，一个512×512的图像可能需要256个视觉Token）。当生成长篇故事或多页文档时，序列长度会迅速膨胀，给计算和内存带来巨大压力。

5.3.1 多模态Attention Sink机制（SEED-Story）

SEED-Story提出的多模态Attention Sink机制是解决长序列生成问题的开创性工作[1]。该机制的核心思想是：在生成长序列时，并非所有历史Token都同等重要，通过有选择地保留关键Token，可以在控制内存消耗的同时保持生成质量。

具体而言，多模态Attention Sink机制维护一个固定大小的滑动窗口，用于存储最近的Token的Key-Value缓存。同时，它还特别保留了以下关键位置的Token：

文本序列的起始Token：这些Token通常包含故事的主题、背景设置等关键信息，对维持整体叙事连贯性至关重要。
图像序列的起始Token：这些Token包含了图像生成的基础条件信息，对保持角色和场景的一致性具有重要作用。
图像Token的结束位置：这些位置标记了图像生成的边界，有助于模型理解图像与后续文本之间的关系。

这种设计巧妙地克服了纯窗口注意力机制在长序列生成时的局限性。实验表明，配备多模态Attention Sink机制的SEED-Story模型能够生成长达25个多模态序列的故事，尽管它仅在10个序列的数据上进行了训练[1]。这种"训练短、生成长"的能力是长序列生成技术的重要突破。

5.3.2 窗口注意力与KV缓存优化

窗口注意力（Window Attention）是处理长序列的基础技术。其核心思想是限制每个Token只能关注其邻近的固定数量Token，从而将注意力计算的复杂度从O(n2)O(n^2)O(n2)降低到O(n×w)O(n \times w)O(n×w)，其中www是窗口大小。

然而，纯窗口注意力存在明显的局限性：当序列长度超过训练时的最大长度时，模型性能会急剧下降。这是因为窗口注意力完全丢弃了窗口之外的历史信息，导致长距离依赖关系的丢失。

KV缓存优化是提升长序列生成效率的另一关键技术。在自回归生成过程中，Key和Value向量会被重复用于后续所有Token的计算。通过缓存这些向量，可以避免重复计算，显著提升推理速度。然而，KV缓存的内存消耗随序列长度线性增长，在生成长序列时会成为严重的内存瓶颈。

PyramidKV[57]提出了一种基于注意力模式的层级化KV缓存压缩策略。该研究发现，Transformer不同层级的注意力模式存在显著差异：低层级的注意力分布较为分散，需要保留更多的KV缓存；高层级的注意力则高度集中于少数关键Token，可以使用更紧凑的缓存。基于这一发现，PyramidKV为不同层分配不同大小的KV缓存预算------低层分配更多缓存，高层分配较少缓存------从而在保持性能的同时显著降低内存消耗。

MixKV[61]进一步提出了结合重要性和多样性的KV缓存压缩方法。该研究发现，在大视觉语言模型中，KV缓存不仅在重要性上存在差异，在语义冗余度上也表现出头级别的差异。单纯基于重要性选择KV对可能丢失语义覆盖，而MixKV通过同时考虑重要性和多样性，在极端压缩条件下（预算为64）相比基线方法平均提升5.1%的性能。

6 应用场景------从故事生成到世界模型

交错多模态内容生成技术的成熟正在催生一系列创新应用场景。从富有想象力的多模态故事生成，到实用的图文混排内容创作，再到具有前瞻性的世界模型构建，这项技术正在重新定义人机协作的内容创作范式。

6.1 多模态故事生成

多模态故事生成是交错内容生成技术最直观、最具吸引力的应用之一。与纯文本故事或静态图像集不同，多模态故事通过交错的文本叙述和配套图像，为读者提供沉浸式的阅读体验。

6.1.1 SEED-Story的应用案例

SEED-Story作为多模态长篇故事生成领域的开创性工作，展示了交错内容生成技术在创意写作领域的巨大潜力[1]。该模型能够根据用户提供的一张起始图像和简短的文字提示，自动生成包含丰富叙事文本和风格一致图像的完整故事。

SEED-Story的一个典型应用案例是"分支故事生成"。给定相同的起始图像，通过不同的文本提示，模型可以生成截然不同的故事走向。例如，顶部分支以"戴黄帽子的男人"的引用开始，生成的图像会包含该角色；而底部分支如果不提及这个男人，故事则会朝着他缺席的方向发展[1]。这种分支生成能力为交互式叙事应用开辟了新的可能性。

另一个引人注目的应用是"风格一致性控制"。SEED-Story通过视觉反Tokenizer的自适应调整，确保生成的图像在角色外观、场景风格和色彩基调上保持高度一致。这种一致性对于维持读者的沉浸感至关重要------如果故事中的主角在每一页都呈现出不同的面貌，叙事的连贯性将被严重破坏。

6.1.2 StoryStream数据集

StoryStream数据集是支撑SEED-Story训练的核心资源，也是多模态故事生成领域的重要基础设施[1]。该数据集通过自动化的流水线从动画视频中提取叙事丰富的文本序列和高质量图像序列，具有以下显著特点：

规模优势：StoryStream的数据量是现有最大故事数据集的四倍，为模型训练提供了充足的样本[1]。

高分辨率图像：与许多使用低分辨率图像的数据集不同，StoryStream提供高分辨率图像，使得生成的故事具有更好的视觉质量。

长序列长度：StoryStream中的故事序列长度显著超过现有数据集，这使得在其上训练的模型能够学习更长距离的依赖关系。

详细叙事：StoryStream中的文本描述更加详细和叙事化，而非简单的图像标注，这有助于模型学习真正的故事讲述能力。

除了用于训练，StoryStream还配套设计了一套全面的评估指标，用于量化评估多模态故事生成的质量。这些指标涵盖三个核心维度：图像风格一致性（评估生成图像在视觉风格上的连贯性）、故事文本吸引力（评估叙事文本的趣味性和可读性）、图文一致性（评估图像与配套文本之间的语义匹配度）。

6.2 图文混排内容创作

除了故事生成这一创意应用，交错多模态内容生成技术在更广泛的图文混排内容创作领域也展现出巨大价值。社交媒体内容生成和教育材料制作是两个最具代表性的应用场景。

6.2.1 社交媒体内容生成

社交媒体平台是图文混排内容的天然载体。从Instagram的图文帖子到微博的长图文，从TikTok的视频脚本到小红书的种草笔记，高质量的内容创作需求日益增长。交错多模态内容生成技术为这一需求提供了自动化解决方案。

在社交媒体内容生成场景中，模型需要具备以下能力：

话题理解与热点追踪：模型需要理解当前热点话题，并生成与之相关的内容。这要求模型不仅具备强大的生成能力，还需要能够接入实时信息源。

品牌风格适配：商业账号的内容需要符合品牌调性。通过在特定品牌的历史内容上进行微调，模型可以学习并复现品牌的语言风格和视觉风格。

多平台适配：不同社交媒体平台有不同的内容规范和用户偏好。模型需要能够根据目标平台调整生成内容的格式和风格。

MM-Interleaved[5]在图文交错生成任务上的探索为社交媒体内容生成提供了技术基础。该工作展示了模型如何根据给定的主题生成结构化的交错内容，包括图像到文本序列生成、文本到图像序列生成、交错内容续写等多种任务形式。

6.2.2 教育材料制作

教育领域是交错多模态内容生成技术的另一个重要应用方向。现代教育理念强调多模态学习------通过结合文本、图像、图表等多种信息载体，提升学习效果和理解深度。

交错多模态内容生成技术可以应用于以下教育场景：

教材内容生成：根据教学大纲自动生成包含文字讲解和配套插图的教学内容。模型可以根据知识点的复杂程度自动调整文本深度和图像详细程度。

个性化学习材料：根据学生的学习进度和理解能力，生成定制化的学习材料。对于理解困难的概念，可以生成更多的解释性图像；对于已经掌握的内容，则可以快速跳过。

多语言教育内容：将同一教学内容自动翻译成多种语言，并为每种语言版本生成文化适配的配套图像。

Emu3.5的世界建模能力为教育内容生成带来了新的可能性[2]。通过在超过10万亿个交错的视频-文本Token上进行预训练，Emu3.5学会了理解视觉内容的时空结构和物理规律。这种能力使得模型能够生成更加真实、符合物理常识的教育插图，例如正确展示物体运动轨迹的物理示意图，或准确呈现生物结构的解剖图。

6.3 世界模型与视频生成

世界模型（World Model）是人工智能领域的一个前沿概念，指能够理解和预测环境动态变化的内部模型。在交错多模态内容生成的语境下，世界模型意味着模型不仅能够生成静态的图文内容，还能够理解和预测视觉世界的动态变化。

6.3.1 Emu3.5的世界模型能力

Emu3.5是原生多模态世界模型领域的代表性工作[2]。该模型的核心创新在于将世界建模能力直接内生于多模态模型中，而非作为外部模块附加。Emu3.5的世界模型能力体现在以下几个关键方面：

统一的世界建模：Emu3.5通过统一的下一Token预测目标，联合学习视觉和语言的动态变化。这意味着模型在预测下一个文本Token的同时，也在学习预测下一帧视觉内容的变化。

时空一致性理解：通过在大量视频帧和转录文本上进行预训练，Emu3.5学会了理解视觉内容的时空结构。这种理解使得模型能够生成长时间一致的视觉序列，而非孤立的静态图像。

物理规律学习：世界模型的一个重要特征是学习环境的物理规律。Emu3.5通过观察大量的视频数据，隐式地学习了物体运动、因果关系等物理概念。虽然这种学习是隐式的，但它使得模型生成的内容更加符合现实世界的物理常识。

Emu3.5的训练数据规模令人瞩目------超过10万亿个交错的视觉-语言Token[2]。这种规模的训练使得模型能够捕捉到丰富的视觉-语言关联模式，从而在多种任务上表现出色。在图像生成/编辑任务上，Emu3.5达到了与Gemini 2.5 Flash Image相当的水平；在交错生成任务上，甚至超越了这一强大的竞争对手。

6.3.2 未来帧预测与物理模拟

未来帧预测是世界模型的核心能力之一。给定一段视频的前几帧，模型需要预测后续帧的内容。这一任务要求模型理解视觉内容的动态变化规律，包括物体运动、场景变化、光照变化等。

Emu3.5通过离散扩散自适应（DiDA）技术实现了高效的未来帧预测[2]。DiDA将传统的顺序解码转换为双向并行预测，在保持性能的同时实现了约20倍的推理加速。这种效率提升对于未来帧预测等需要迭代生成的任务尤为重要。

物理模拟是世界模型的另一个重要应用方向。通过理解物体的物理属性（质量、形状、材质等）和环境条件（重力、摩擦力等），模型可以模拟物体在虚拟环境中的运动和行为。这种能力在机器人学习、游戏开发、虚拟现实等领域具有重要应用价值。

Emu3.5展示的可泛化世界建模能力为物理模拟提供了新的技术路径[2]。模型通过大规模的视频-文本预训练，学会了在多种场景下进行时空一致的视觉探索，以及开放世界的具身操作。虽然这些能力目前还处于早期阶段，但它们展示了原生多模态模型向世界模型演进的可能性。

6.4 应用场景技术需求对比

不同的应用场景对交错多模态内容生成技术有着不同的需求。下表总结了主要应用场景及其对应的技术需求：

应用场景	核心技术	关键挑战	代表模型/工作
多模态故事生成	视觉Tokenizer、Attention Sink机制、风格一致性控制	长序列连贯性、角色一致性、叙事吸引力	SEED-Story[1]
社交媒体内容生成	图文交错生成、风格迁移、话题理解	实时性、品牌适配、平台规范	MM-Interleaved[5]
教育材料制作	知识结构化、多语言生成、图表生成	准确性、适龄性、文化适配	Emu3.5[2]
世界模型构建	时空建模、物理规律学习、未来帧预测	长期一致性、物理正确性、计算效率	Emu3.5[2]
视频内容生成	帧间一致性、运动平滑性、时序连贯性	长视频稳定性、计算资源消耗	Show-o[3]
交互式叙事	分支生成、用户意图理解、动态适配	交互响应速度、故事分支质量	SEED-Story[1]

从表中可以看出，不同应用场景对技术的需求存在显著差异。故事生成应用最关注长序列连贯性和风格一致性，这要求模型具备强大的Attention机制和风格控制能力；社交媒体内容生成则更强调实时性和风格适配，这对模型的推理效率和微调能力提出了更高要求；世界模型构建是最具挑战性的应用方向，它需要模型具备深层的时空理解能力和物理规律学习能力。

值得注意的是，这些应用场景并非相互独立，而是存在深度的技术交叉。例如，世界模型的时空建模能力可以直接服务于视频内容生成；故事生成的风格一致性控制技术也可以应用于社交媒体的品牌内容创作。这种技术交叉意味着未来的交错多模态内容生成模型很可能向着更加通用化的方向发展，通过统一的架构支持多样化的应用场景。

7 挑战与局限

交错多模态内容生成技术虽然展现出巨大的潜力，但在迈向成熟应用的道路上仍面临诸多根本性挑战。这些挑战不仅涉及技术层面的架构设计与算法优化，更触及多模态学习的核心矛盾------如何在统一框架下协调不同模态的本质差异。本章将深入剖析当前技术面临的主要困境，从编码策略的权衡到评估体系的缺失，系统性地梳理制约领域发展的关键瓶颈。

7.1 理解与生成的权衡困境

7.1.1 统一编码与解耦编码的博弈

多模态理解与生成任务对视觉编码的需求存在本质差异，这一矛盾构成了统一模型设计的核心挑战。理解任务需要高维语义特征以支持抽象推理和概念关联，而生成任务则依赖低维空间细节以确保像素级保真度。DeepSeek-AI提出的Janus框架首次系统性地揭示了这一"表示冲突"问题[1]，并通过视觉编码解耦策略实现了突破性进展。

传统统一模型如Chameleon采用单一视觉编码器同时服务两个任务，导致严重的性能折衷。Janus的消融实验表明，使用单一VQ Tokenizer的基线模型（Exp-A）在视觉生成任务上表现尚可（COCO-FID为8.72），但在多模态理解基准上存在显著差距。当改用语义Tokenizer（Exp-B）后，理解性能明显提升，但生成性能反而超越了解耦方案，这暗示单一编码器内部存在任务间的资源竞争[1]。

更深层的分析揭示了问题的本质：当Exp-B仅进行理解任务训练（Exp-C）时，其理解性能显著优于同时进行双任务训练的Exp-B。这直接证明单一视觉编码器在双任务压力下被迫做出权衡，最终牺牲理解能力以兼顾生成需求。Janus通过SigLIP编码器提取高维语义特征用于理解，同时采用VQ Tokenizer生成离散Token用于生成，两条独立路径在统一Transformer内并行运作，从根本上消除了表示空间的冲突[1]。

然而，解耦编码并非没有代价。双编码器架构增加了模型复杂度，带来了额外的计算开销和内存占用。更重要的是，独立编码路径之间的对齐问题成为新的挑战------如何确保语义特征与离散Token在统一嵌入空间内实现有效交互，仍需精细的适配器设计和训练策略优化。

7.1.2 语义信息与像素保真度的张力

视觉Tokenizer的设计直接决定了模型在语义理解与像素重建之间的平衡。基于VQ-VAE的Tokenizer擅长捕获空间细节和纹理信息，能够支持高质量的图像重建，但在语义抽象能力上相对薄弱。相反，基于CLIP或SigLIP的编码器能够提取富含语义信息的特征表示，却难以保留精细的像素级细节。

Emu3.5采用的IBQ（Improved Binary Quantization）视觉Tokenizer在这一权衡中取得了显著进展[2]。该Tokenizer拥有131,072的码本规模和16倍下采样因子，在仅使用Emu3四分之一Token数量的前提下实现了高保真重建。更重要的是，Emu3.5引入了扩散解码器（Diffusion-based Decoder），能够在2K分辨率下生成图像，并在文本和人脸区域等细节敏感部位实现显著改善[2]。

这种"语义Tokenizer+扩散解码器"的混合架构代表了当前的主流趋势：在编码阶段优先保证语义完整性，在解码阶段通过扩散模型的强大生成能力补偿细节损失。然而，该方案引入了额外的计算复杂度和训练不稳定性。LoRA蒸馏技术将去噪步骤从50步压缩至4步，实现了10倍解码加速，但蒸馏过程中的信息损失仍是需要权衡的因素[2]。

7.2 长序列生成的挑战

7.2.1 上下文长度限制

交错多模态内容的本质特征在于其时序延展性------一篇完整的图文混排文章可能包含数十张图片和数千字的文本，这对模型的上下文处理能力提出了极高要求。以Emu3.5为例，其支持的最大上下文长度为32,768个Token[2]，看似充裕，但在实际应用中却可能捉襟见肘。

考虑一个典型场景：生成一篇包含20张图片的博客文章，每张图片以1024×1024分辨率编码。若采用16倍下采样的视觉Tokenizer，单张图片将产生4,096个视觉Token，20张图片即占用81,920个Token，远超标准上下文窗口。即使通过降低分辨率或增加下采样率来压缩Token数量，也会以牺牲图像质量为代价。

上下文长度限制带来的不仅是容量问题，更关键的是长距离依赖建模的挑战。交错内容中的图文关联往往跨越很长的序列距离------文章开头引入的概念可能在结尾处通过图像进行可视化阐释，这种长程语义连贯性要求模型具备强大的远程记忆和关联能力。标准Transformer的二次方注意力复杂度使得长序列处理成本高昂，而位置编码的外推能力也随序列长度增加而衰减。

针对这一挑战，研究社区探索了多种技术路径。扩展位置编码方案（如RoPE缩放和动态插值）能够在不进行大规模重训练的情况下扩展上下文窗口[62]。输入分块与稀疏注意力机制通过限制全局注意力的范围来降低计算复杂度。跨模态压缩表示技术则将Token序列渲染为图像或向量形式，利用视觉-语言模型的高效处理能力[52]。然而，这些方法往往需要在计算效率与建模精度之间做出权衡。

7.2.2 计算效率问题

自回归生成模式的固有特性决定了其计算效率的瓶颈。图像作为二维空间数据，其Token化表示通常具有显著的序列长度------一张384×384像素的图像经16倍下采样后仍产生576个Token。逐Token顺序生成意味着完成单张图像需要数百次前向传播，这在实时应用场景中是不可接受的。

Emu3.5提出的离散扩散适应（Discrete Diffusion Adaptation, DiDA）技术为这一困境提供了创新解决方案[2]。DiDA将自回归的逐Token解码转换为双向并行预测：在生成过程中，每张图像被复制为带噪声的版本，噪声Token对前置的干净Token保持因果注意力，同时对同一张图像内的其他噪声Token保持双向注意力。这种混合注意力机制使得模型能够在单次前向传播中并行去噪多个Token，实现了约20倍的单图推理加速[2]。

Show-o Turbo同样致力于加速统一多模态理解与生成[3]，通过优化架构设计和高效训练方法提升处理速度。其核心思想在于挖掘不同模态间的协同效应，通过统一建模实现计算资源的有效复用。然而，加速技术往往伴随着质量权衡------并行预测降低了生成过程的细粒度控制能力，可能在复杂场景下导致一致性下降。

混合推理框架代表了另一种优化方向。基于有限状态机（FSM）的动态模态调度能够根据当前生成阶段智能切换文本与图像处理模式，异步请求处理机制则提升了多设备部署时的并行效率。FP8量化技术在不显著影响精度的前提下将计算开销降低50%以上[2]。这些工程优化与算法创新相结合，共同推动着交错多模态生成向实用化迈进。

7.3 评估难题

7.3.1 多模态内容的质量评估

统一多模态模型的评估面临前所未有的复杂性。传统评估范式将理解与生成视为独立任务，分别采用专门的基准测试------理解任务使用VQA、MMBench等数据集，生成任务则依赖FID、CLIPScore等指标。然而，这种割裂的评估方式无法捕捉统一模型的核心优势：跨任务协同和指令跟随能力。

UniEval框架的提出标志着评估方法论的重要进步[54]。作为首个专为统一多模态模型设计的评估框架，UniEval通过UniBench基准和UniScore指标实现了对理解与生成能力的统一度量。UniBench包含81个细粒度标签，覆盖13个一级类别（包括数字、形容词、名词、动词、副词、文本内容、图像风格等），显著超越了现有基准的多样性（GenEval和DPG-Bench分别仅有约13个属性）[54]。

UniEval的核心创新在于采用多选问答范式：模型为每个提示生成四张图像，然后回答与这些图像相关的问题。这种设计使得评估无需依赖外部模型或大量标注图像，同时提供了细粒度的错误分析能力。实验表明，UniScore与人类评估的皮尔逊相关系数达到0.716，显著优于CLIPScore（0.372）和VQAScore（0.575）[54]。

然而，现有评估体系仍存在明显局限。首先，自动评估指标难以全面捕捉人类感知的细微差异------图像的美学质量、文本描述的情感色彩、图文配对的创意性等维度仍难以量化。其次，跨模态一致性的评估缺乏统一标准：如何度量生成图像与配套文本之间的语义对齐程度？如何评估长序列交错内容的整体连贯性？这些问题尚无成熟解决方案。

7.3.2 一致性与连贯性度量

交错多模态内容的一致性与连贯性评估涉及多个层面。在微观层面，单张图像内部的视觉一致性（如光照、风格、物体关系的合理性）可通过现有指标部分捕捉。在中观层面，图文配对的相关性和互补性需要专门的跨模态对齐度量。在宏观层面，长序列内容的主题连贯性和叙事流畅性则涉及更高层次的语义整合。

"模态失语症"（Modal Aphasia）现象揭示了评估的深层挑战[39]：统一模型可能在视觉记忆（忠实重建存储的图像）和文本表达（准确描述图像内容）之间出现深刻分离，即使经过十亿级交错数据训练的模型也可能无法有效进行跨模态召回。这表明联合训练和共享表示并不能保证跨模态一致性，现有评估框架对此类缺陷的检测能力有限。

多维度评估框架的构建需要整合自动指标与人工判断。UniEval的多级标签体系提供了结构化的评估维度，但标签覆盖的全面性和边界定义的清晰性仍需持续完善。未来发展方向包括：引入人类偏好学习来校准自动评估指标、构建针对交错内容的专门基准数据集、开发能够评估长程依赖和叙事连贯性的新型度量。

7.4 数据稀缺性

7.4.1 高质量交错图文数据的获取

高质量交错图文数据集的稀缺性是制约领域发展的根本性瓶颈。与纯文本或图像-文本对数据相比，自然存在的交错多模态内容相对稀少，且质量参差不齐。虽然Multimodal C4、OBELICS等数据集提供了自然交错的图文序列[40]，但这些数据来源于网页抓取，包含大量噪声和低质量样本，需要复杂的清洗和筛选流程。

MINT-1T项目尝试将开源多模态数据规模扩展10倍[46]，但数据规模的扩大并不自动等同于质量的提升。交错数据的独特价值在于其时序结构和模态间的依赖关系------简单的图像-文本对堆积无法替代真正的交错叙事结构。构建高质量交错数据集需要解决以下核心问题：如何定义和度量"高质量"？如何确保模态间的语义对齐和时序连贯性？如何覆盖多样化的领域和风格？

UniFilter项目提出了一种创新的数据质量评估思路[58]：训练一个统一的多模态数据质量分类器，通过半合成方法生成不同质量等级的训练样本。具体而言，该方法保留原始图像，使用专有MLLM按照四个质量等级生成对应的文本段落或描述，从而构建（样本，分数）配对用于分类器训练。应用UniFilter筛选后的数据训练的MLLM在多个基准上展现出显著性能提升[58]。

7.4.2 标注成本与质量控制

交错数据的标注成本远高于单模态数据。标注者不仅需要理解文本内容，还需要分析图像语义，并判断两者之间的关联性和时序关系。这种跨模态标注对标注者的专业素养提出了更高要求，也增加了标注一致性的控制难度。

合成数据生成技术为缓解数据稀缺问题提供了新思路。Infinity-MM项目展示了大规模合成数据训练的可行性[53]，其训练数据包含大量由GPT-4生成的合成指令数据和专门设计的合成数据。实验表明，包含合成数据的训练集能够进一步提升模型性能。然而，合成数据的质量控制和多样性保证仍是开放挑战------生成模型倾向于过度表示高频内容，导致数据分布的长尾被抑制[51]。

MI2RAGE方法提出了链式跨模态生成（Chained Cross-modal Generation）策略[51]，通过交替应用文本到图像和图像到文本生成器来增强数据多样性。每一轮生成都引入新的变化，逐步丰富数据分布。同时，教师网络用于筛选与真实标签具有高互信息的训练样本，从信息论角度保证合成数据的有效性。这种方法在仅使用合成图像训练的情况下，超越了在真实多模态数据上训练的最先进模型[51]。

7.5 技术挑战总结

下表系统总结了当前交错多模态内容生成技术面临的主要挑战、影响及可能的解决方向：

挑战类型	具体问题	影响	可能解决方向
编码策略	统一编码器面临理解与生成任务的信息粒度冲突	双任务性能均受制约，难以达到专用模型水平	解耦编码路径（如Janus的双编码器设计）[1]；开发统一Tokenizer平衡语义与细节[2]
序列长度	长交错内容超出上下文窗口容量；长距离依赖建模困难	限制内容长度和复杂度；影响长程连贯性	位置编码扩展技术（RoPE缩放）；稀疏/线性注意力；分块处理与记忆机制[62]
计算效率	自回归生成的逐Token特性导致推理速度慢	实时应用受限；部署成本高	离散扩散适应（DiDA）实现并行解码[2]；模型量化与蒸馏；混合推理调度[3]
评估体系	缺乏统一评估框架；跨模态一致性难以量化	模型优化方向不明确；难以比较不同方法	UniEval等统一评估框架[54]；人类偏好对齐的自动指标；专门交错内容基准
数据稀缺	高质量自然交错数据稀少；标注成本高	训练数据不足；模型泛化能力受限	合成数据生成（链式跨模态生成）[51]；半自动质量筛选（UniFilter）[58]；弱监督学习
模态对齐	不同模态的表示空间差异大；跨模态迁移困难	模态间信息融合不充分；生成内容一致性差	对比学习预训练；适配器微调；统一Token空间设计
任务干扰	多任务联合训练时的负迁移现象	某些任务性能下降；训练不稳定	渐进式训练策略；任务路由机制；模块化专家混合

上述挑战相互交织，形成了复杂的技术困境。例如，数据稀缺限制了模型规模扩展，而模型规模不足又制约了长序列建模能力；计算效率瓶颈影响了实时应用，而加速技术又可能牺牲生成质量。系统性解决方案需要多层面的协同创新------在架构设计、训练策略、评估方法和数据工程等方面同步推进。

8 未来展望与结论

8.1 技术发展趋势

交错多模态内容生成技术正处于快速发展的关键时期，未来几年内有望在以下几个方向取得重大突破。

更大规模的统一模型将成为主流趋势。Emu3.5已经展示了34B参数规模下的强大能力[17]，而Janus-Pro也推出了7B参数的增强版本[16]。随着计算资源的持续投入和训练技术的不断优化，我们可以预见未来将出现参数规模更大、能力更强的统一多模态模型。这些模型将在理解和生成两个维度上都达到甚至超越当前专用模型的水平。

多模态Scaling Law的探索将成为理论研究的重要方向。OpenAI在2020年提出的Scaling Law揭示了语言模型性能与模型规模、数据量和计算量之间的幂律关系[22]。在多模态语境下，这一定律是否依然成立？不同模态之间的Scaling行为是否存在差异？这些问题的答案将指导未来模型的设计和训练策略。

推理加速技术将持续进步。Emu3.5提出的离散扩散适应（DiDA）技术已经实现了约20倍的推理加速[17]，Show-o Turbo也在加速统一多模态理解与生成方面取得了显著进展[21]。未来，我们可以期待更多创新性的加速技术出现，包括更高效的并行解码策略、模型蒸馏与量化技术、以及硬件-软件协同优化方案。

8.2 新兴应用方向

交错多模态内容生成技术的成熟将催生一系列创新应用场景。

具身智能与机器人是其中一个最具前景的方向。传统机器人系统通常依赖预编程的规则和有限的感知能力，而基于统一多模态模型的机器人将能够更好地理解复杂的视觉场景，并根据自然语言指令执行精细的操作。Emu3.5展示的可泛化世界建模能力为这一应用方向提供了坚实的技术基础[17]。

交互式内容创作将彻底改变人类与AI的协作方式。未来的内容创作工具将不再局限于单一的文本或图像生成，而是能够理解创作者的整体意图，自主地生成结构完整、风格统一的交错图文内容。这种协作模式将大幅提升内容创作的效率和质量。

虚拟现实与元宇宙将成为交错多模态技术的另一个重要应用舞台。在虚拟世界中，用户需要与AI驱动的角色进行自然的多模态交互，而交错多模态生成技术正是实现这一目标的关键。从虚拟导游的讲解到虚拟教师的授课，从虚拟客服的答疑到虚拟伴侣的陪伴，统一多模态模型将为元宇宙注入真正的智能。

8.3 研究建议

针对交错多模态内容生成领域的未来发展，本文提出以下几点研究建议：

架构创新：继续探索更优雅、更高效的统一架构。Janus的解耦编码策略是一个重要的起点，未来可以进一步研究如何在保持架构统一性的同时，为不同任务提供定制化的处理能力。

训练策略：深入研究多任务学习的优化策略，包括损失函数设计、数据配比调整、训练顺序安排等。特别是如何平衡理解与生成任务，避免负迁移现象，是一个值得深入探索的问题。

评估体系：构建更加全面、更加可靠的评估框架。UniEval是一个很好的开端[54]，但仍需在评估维度、评估方法和评估数据集等方面持续完善。

数据工程：加大高质量交错图文数据集的构建力度。这包括开发更高效的数据清洗和筛选技术、探索合成数据生成的有效方法、以及建立数据质量评估的标准体系。

应用拓展：积极探索交错多模态技术在各个垂直领域的应用可能性。从教育到医疗，从娱乐到商业，每一个领域都可能孕育着创新的应用场景。

8.4 全文总结

交错多模态内容生成技术代表了人工智能内容创作领域的一次范式变革。从单一的文本生成或图像生成，到能够自由交替生成图文混排长文，这一技术进步不仅拓展了AI的能力边界，更深刻地改变了人机协作的内容创作模式。

本文系统性地介绍了这一前沿领域的理论基础、核心技术和最新进展。我们首先回顾了多模态内容生成从单一模态到多模态融合的演进历程，深入剖析了单模态生成的局限性和多模态统一表征的核心思想。随后，我们详细分析了扩散模型、自回归模型和融合AR+扩散三大技术路线，对比了它们的核心原理、优势、局限和代表模型。在核心架构部分，我们深入探讨了视觉编码器的类型与选择、视觉解码器的设计原理，以及统一Transformer架构的核心设计思想。

在训练策略部分，我们剖析了现代多模态大语言模型普遍采用的三阶段训练范式，探讨了理解与生成任务的平衡策略，以及支撑长序列生成的关键技术机制。在应用场景部分，我们展示了多模态故事生成、图文混排内容创作、世界模型与视频生成等创新应用。最后，我们系统性地梳理了当前技术面临的主要挑战，包括理解与生成的权衡困境、长序列生成的挑战、评估难题和数据稀缺性，并展望了未来的发展方向。

交错多模态内容生成技术的发展，标志着人工智能正在从"工具"向"伙伴"转变。在这一新范式下，AI不再是被动的执行者，而是能够主动理解创作意图、自主生成高质量内容的智能协作者。随着技术的不断进步，我们有理由相信，在不久的将来，人机协作的内容创作将成为常态，而交错多模态内容生成技术将在这一变革中扮演核心角色。

核心架构图

图1：统一多模态模型架构演进

解耦编码架构 (Janus)
SigLIP
VQ
理解适配器
生成适配器
图像
语义特征
离散Token
文本
文本Token
统一Transformer
理解输出
生成输出
早期融合架构 (Chameleon)
VQ Tokenizer
BPE
Transformer
图像
视觉Token
文本
文本Token
统一序列
输出
晚期融合架构 (CLIP)
ViT
Transformer
图像
图像嵌入
文本
文本嵌入
对比学习空间

图2：三种技术路线对比

融合AR+扩散路线
自回归
条件
去噪
文本
文本输出
扩散过程
图像输出
自回归路线
自回归
VQ解码
文本Token
视觉Token
生成图像
扩散模型路线
迭代去噪
CLIP编码
文本条件
噪声图像
生成图像
语义空间

图3：SEED-Story多模态Attention Sink机制

生成过程
KV缓存管理
输入序列
文本起始Token
图像起始Token
图像Token序列
图像结束Token
后续文本Token
保留: 文本起始
保留: 图像边界Token
滑动窗口: 最近Token
丢弃: 远距离Token
当前生成位置
Attention计算
下一Token预测

图4：三阶段训练范式

阶段3: 监督微调
全参数微调
SFT训练
指令数据
任务数据
任务特化
阶段2: 统一预训练
解冻LLM
联合训练
多模态数据
生成数据
端到端优化
阶段1: 视觉Token化与对齐
冻结视觉编码器
训练适配器
冻结LLM主干
建立视觉-语言桥梁

图5：交错多模态内容生成应用场景

交错多模态

内容生成
创意创作
多模态故事生成
交互式叙事
个性化漫画
实用应用
社交媒体内容
教育材料制作
产品说明书
前沿探索
世界模型
视频生成
具身智能

参考文献

1\] Yang S, Ge Y, Li Y, et al. SEED-Story: Multimodal Long Story Generation with Large Language Model\[J\]. arXiv preprint arXiv:2407.08683, 2024. \[2\] Chameleon Team. Chameleon: Mixed-Modal Early-Fusion Foundation Models\[J\]. arXiv preprint arXiv:2405.09818, 2024. \[3\] Wu C, Chen X, Wu Z, et al. Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation\[J\]. arXiv preprint arXiv:2410.13848, 2024. \[4\] Xie J, Zhang Y, Zhu Y, et al. Show-o: One Single Transformer to Unify Multimodal Understanding and Generation\[C\]. ICLR 2025. \[5\] Emu3 Team, BAAI. Emu3: Next-Token Prediction is All You Need\[R\]. Beijing Academy of Artificial Intelligence, 2024. \[6\] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks\[C\]. NeurIPS 2014. \[7\] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need\[C\]. NeurIPS 2017. \[8\] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision\[C\]. ICML 2021. \[9\] Jia C, Yang Y, Xia Y, et al. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision\[C\]. ICML 2021. \[10\] Oord A, Vinyals O, Kavukcuoglu K. Neural Discrete Representation Learning\[C\]. NeurIPS 2017. \[11\] Razavi A, Oord A, Vinyals O. Generating Diverse High-Fidelity Images with VQ-VAE-2\[C\]. NeurIPS 2019. \[12\] Esser P, Rombach R, Ommer B. Taming Transformers for High-Resolution Image Synthesis\[C\]. CVPR 2021. \[13\] Yu L, Cheng Y, Sohn K, et al. MAGVIT: Masked Generative Video Transformer\[C\]. CVPR 2023. \[14\] Rombach R, Blattmann A, Lorenz D, et al. High-Resolution Image Synthesis with Latent Diffusion Models\[C\]. CVPR 2022. \[15\] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding\[J\]. NeurIPS 2022. \[16\] Chen X, Wu Z, Liu X, et al. Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling\[J\]. arXiv preprint arXiv:2501.17811, 2025. \[17\] BAAI. Emu3.5: Native Multimodal Models are World Learners\[R\]. Beijing Academy of Artificial Intelligence, 2025. \[18\] Zhai X, Mustafa B, Kolesnikov A, et al. SigLIP: Sigmoid Loss for Language Image Pre-Training\[C\]. ICCV 2023. \[19\] Zhang Y, Li Y, Cai Z, et al. PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling\[J\]. arXiv preprint arXiv:2406.02069, 2024. \[20\] Zhou Y, Cui T, Sun J, et al. Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models\[J\]. arXiv 2025. \[21\] Shi J, Wu C, Liang W, et al. Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation\[J\]. arXiv 2025. \[22\] Zhou Y, Neubig G, Gu J. A Survey on Unified Multimodal Understanding and Generation\[J\]. arXiv 2025. \[23\] Alayrac J B, Donahue J, Luc P, et al. Flamingo: a Visual Language Model for Few-Shot Learning\[J\]. NeurIPS 2022. \[24\] Li J, Li D, Savarese S, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models\[C\]. ICML 2023. \[25\] Zhu D, Chen J, Shen X, et al. Minigpt-4: Enhancing Vision-language Understanding with Advanced Large Language Models\[J\]. arXiv 2023. \[26\] Yu L, Cheng Y, Sohn K, et al. MAGVIT-v2: Language Model Beats Diffusion --- Tokenizer is Key to Visual Generation\[J\]. arXiv 2023. \[27\] Gafni O, Polyak A, Ashual O, et al. Make-a-scene: Scene-based Text-to-image Generation with Human Priors\[C\]. ECCV 2022. \[28\] Team G, Anil R, Borgeaud S, et al. Gemini: a Family of Highly Capable Multimodal Models\[J\]. arXiv 2023. \[29\] Liu X, Yu L, Zheng M, et al. Transfusion: Predict the Next Token and Diffuse Tokens with a Single Model\[J\]. arXiv 2024. \[30\] Liu X, et al. Janus-Flow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation\[J\]. arXiv 2024.