无需扩散，下一个token预测直达AGI！

简单概括

虽然，下一token预测已在大语言模型领域实现了ChatGPT等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型（如Stable Diffusion）和组合方法（如结合CLIP视觉编码器和LLM）所主导。

2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术，只需要预测下一个token。

图1:Emu3被训练为使用混合视频、图像和文本标记的单个Transformer来预测下一个标记。在生成和感知任务中，与成熟的特定任务模型相比，Emu3实现了最先进的性能。

复制代码

论文：Emu3: Next-Token Prediction is All You Need
作者：Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, etc.
单位：BAAI
代码：https://github.com/baaivision/Emu3
项目：https://emu.baai.ac.cn/
模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

关注微信公众号，获取更多资讯

1 背景知识

图2：与开源旗舰模型在视觉生成和感知方面的比较。仅基于下一个令牌预测，Emu3分别击败了SDXL[66]、LLaVA-1.6-7B[56]、openora -1.2[107]，完全不需要扩散和CLIP。对于图像生成任务，我们给出了基于英语提示的人类评价分数的比较结果。对于视觉语言理解任务，我们评估了12个基准的平均得分：SEEDBench-Img[45]、OCRBench[59]（具有归一化结果）、MMVet[98]、POPE[51]、VQAv2[27]、GQA[34]、TextVQA[78]、ChartQA[61]、AI2D[36]、RealWorldQA[91]、MMMU[99]和MMbench[58]。对于视频生成任务，我们给出了VBench的比较结果。

我们将关键技术和模型开源，以促进这一方向的未来研究。值得注意的是，我们提供了一个强大的视觉标记器，可以将视频和图像转换为离散的标记，这在以前是公开不可用的。我们还展示了下一个令牌预测框架的多功能性，表明直接偏好优化（DPO）[68]可以无缝地应用于自回归视觉生成，使模型与人类偏好保持一致。

我们的研究结果提供了强有力的证据，表明下一个令牌预测可以作为多模态模型的强大范例，超越语言模型，并在多模态任务中提供最先进的性能。通过简化复杂的模型设计并只关注令牌，它在训练和推理期间释放了巨大的扩展潜力。我们相信下一个代币预测为构建通用多模态智能提供了一条有希望的道路。

Emu3文本到图像生成的定性结果。

方法

数据

Emu3是在语言、图像和视频数据的混合基础上从零开始训练的。
1. 语言数据 。我们使用与Aquila[101]相同的语言数据，Aquila是一个由中英文数据组成的高质量语料库。
2. 图像数据。我们策划了一个大规模的图像文本数据集，包括开源网络数据、人工生成数据和高质量的内部数据。滤波过程包括几个关键步骤：

1)我们应用分辨率滤波器，丢弃分辨率低于512 × 512像素的样本。
2)我们使用LAION-AI美学预测器2评估每张图像的美学质量，排除得分低于5.5的图像，以确保整体美学质量。
3)对于未通过美学滤波的图像，我们采用文本检测3和颜色滤波来保留非单色图像和文本最少的图像，提高了开放世界图像的滤波召回率。
4)此外，我们为图像理解准备补充数据。通过遵循DenseFusion中的数据处理管道[50]，我们提取了数百万张具有代表性的图像，这些图像涵盖了广泛的类别，包括图表、表格、文本丰富的内容等，这些图像来自不同的开源web数据。

为了对过滤后的数据集进行标注，我们开发了一个基于Emu2[81]的图像字幕模型来构建密集的合成字幕。我们利用GPT-4V[64]与详细的提示来生成大约100万图像标题对。然后使用这个带注释的数据集微调Emu2-17B[81]模型作为我们的图像捕获器。此外，我们利用开源的vLLM库[40]来加速标注过程。

视频数据。我们收集的视频涵盖了广泛的类别，如风景，动物，植物，游戏和动作。这些视频预先拥有一个复杂的管道[6]，具有以下四个阶段：1)我们使用PySceneDectect4将视频拆分为场景，分别使用ContentDetector和ThresholdDetector来识别内容变化和渐入/渐出事件。2)使用PaddleOCR3进行文本检测，去除文本覆盖过多的片段。为了减少计算成本，我们以2帧/秒的速度对视频帧进行采样，并将较短的边缘调整为256。3)我们进一步计算光流[84]，以消除最小或极端运动的剪辑。与前一步一样，我们采样和调整视频帧的大小以提高效率。流量分数定义为所有像素的平均流量大小与较短边缘的比值。我们排除流分数超出可接受范围的剪辑。4)最后，我们使用LAION-AI美学预测器评估每个片段的美学质量1。我们对三帧进行采样，每个片段得到三个分数，最低分数小于5的片段被丢弃。

我们使用基于我们的图像字幕器训练的视频字幕器对过滤后的视频剪辑进行字幕。训练数据最初使用GPT-4V进行标记[64]。对于每个视频剪辑，我们采样8帧，并为GPT-4V创建一个详细的提示，以描述这些帧内的内容和运动。一些标记的数据需要手工修改。然后，我们对这些标记数据的图像标题进行微调，以开发我们的视频标题。对于大规模部署，我们使用vLLM加速字幕[40]。短于20秒的片段使用12个均匀采样帧进行字幕，而较长的片段则分成10-20秒的子片段，每个子片段独立字幕。

视觉 Tokenizer

我们训练了基于SBER-MoVQGAN5的视觉标记器，该标记器可以将4 × 512 × 512的视频片段或512 × 512的图像编码为4096个离散的标记，这些标记来自大小为32,768的码本。我们的标记器在时间维度上实现4倍压缩，在空间维度上实现8×8压缩，适用于任何时间和空间分辨率。在MoVQGAN架构[106]的基础上，我们将两个具有3D卷积核的时间残差层合并到编码器和解码器模块中，以增强视频标记化能力。使用L2损失、LPIPS感知损失[104]、GAN损失和承诺损失[23]的组合目标函数，在LAION-High-Resolution6图像数据集和InternVid[89]视频数据集上对标记器进行端到端训练。

定性结果如图3所示。我们使用来自Pexels7的3,172个视频的评估数据集报告了表2中的LPIPS（由AlexNet特征计算），PSNR和SSIM分数。在保持长宽比的情况下，视频在5秒内被重建。在评估过程中，原始视频和重构视频根据短边进行调整和裁剪，并以12 FPS的8帧速率均匀采样。

架构

Emu3模型保留了已建立的大型语言模型（llm）的架构框架，如Llama-2[85]，主要的修改是扩展嵌入层以适应离散视觉标记。我们使用RMSNorm[100]进行规范化，使用GQA[1]进行注意力机制，同时使用SwiGLU[76]激活函数和旋转位置嵌入（RoPE）[79]。消除了qkv和线性投影层中的偏差。此外，实现了0.1的辍学率，以提高训练的稳定性。我们使用QwenTokenizer8来标记多语言文本。详细配置如表3所示。

预训练

数据准备 。在预训练过程中，我们首先定义了多模态数据格式。与依赖外部文本编码器的扩散模型不同，Emu3集成了用于图像/视频生成的文本条件信息。我们重新缩放图像/视频，同时将其宽高比保持为接近512 × 512的面积，然后使用我们的视觉标记器生成视觉标记。然后，我们合并五个特殊的标记来合并文本和视觉数据，为训练过程创建类似文档的输入。得到的训练数据结构如下：

其中[BOS]和[EOS]是文本标记器中的原始特殊标记，[SOV]标记视觉输入的开始，[SOT]标记视觉标记的开始，[EOV]表示视觉输入的结束。此外，[EOL]和[EOF]被插入到视觉标记中，分别表示换行和帧断行。"元文本"包含有关图像分辨率的信息，而对于视频，它包括分辨率、帧率和持续时间，所有这些都以纯文本格式呈现。我们还将数据集的一部分中的"标题文本"字段移动到[EOV]令牌后面，从而构建针对视觉理解任务的数据。

培训目标。由于Emu3中的视觉信号完全转换为离散的标记，我们只需要使用标准交叉熵损失来训练下一个标记预测任务。为了防止视觉标记在学习过程中占主导地位，我们对与视觉标记相关的损失应用0.5的权重。

训练细节。Emu3模型在预训练期间利用广泛的上下文长度来处理视频数据。为了便于训练，我们采用了张量并行（TP）、上下文并行（CP）和数据并行（DP）的组合。我们同时将文本-图像数据打包成最大上下文长度，以充分利用计算资源，同时确保在打包过程中不分割完整的图像。预训练过程分为两个阶段。在第一阶段，不使用视频数据，从头开始训练，文本和图像数据的上下文长度为5120。在第二阶段，引入视频数据，上下文长度为131072。两个阶段都使用5 × 10−5的学习率，并将学习率进行余弦退火至零。

实验结果

在使用重写器扩展短提示后，我们报告了GenEval和twi - compbench的结果。由于Emu3在训练过程中使用了相当大比例的合成标签，因此与较短的提示相比，它在密集字幕方面表现出优越的性能。然而，GenEval和tt2i - compbench中的评估提示过于简短，无法准确反映模型的真实性能。在DALL-E 3之后，我们还报告了使用GPT-4V作为重写器的评估结果。GenEval总分结果表明，Emu3显著优于多模态自回归模型Chameleon，以及最新的自回归扩散方法Show-O和Transfusion。此外，Emu3超过SDXL，并与最先进的扩散模型（包括dall - e3）的性能相匹配。

表4：在文本到图像的基准测试上与最先进的模型的比较。我们在MSCOCO-30K上进行评估[15]；GenEval [26];T2I-CompBench[32]和DPG-Bench[31]。†结果是改写。

视频生成

与训练阶段一致，Emu3原生支持24秒生成5秒视频并且可以通过自回归方法无限扩展。图7给出了视频生成的定性示例，从前3秒中提取了6帧用于展示。我们对Emu3和13个性能最好的开源和专有文本到视频模型进行了定量比较。使用的基准是VBench[33]，这是一个用于评估视频生成性能的综合工具包，它在16个维度上评估每个模型的质量和语义能力。除了Emu3，这是一个自回归模型，所有其他公开可比较的方法是扩散模型。然而，如表5所示。， Emu3证明与其他最先进的模型相比，在整体得分方面具有很强的竞争力。具体地说,虽然它不如最先进的专有模型，如Kling[39]和Gen-3[75]，但它优于大多数开源文本到视频模型。这些结果突出了强者Emu3视频生成能力。

表5：与最先进的文本到视频模型在VBench[33]基准上的比较。我们从VBench的16个评估维度中选择了11个，以及最终分数，用于演示。除了Emu3是自回归（AR）模型外，所有其他公开可比较的方法都是扩散（Diff）模型。度量越高，结果越好。

未来预测

Emu3可以通过预测未来的帧来扩展视频。在图8中，我们举例说明了视频扩展的定性例子，其中以24 FPS的2秒视频被标记为离散的视觉标记作为上下文。Emu3以相同的离散视觉令牌形式预测随后的2秒内容，可以将其去令牌化以生成未来预测的视频。这些例子表明，仅使用下一个令牌预测有助于视频的时间扩展，包括预测人类和动物的行为、与现实世界的交互以及三维动画的变化。此外，通过以这种方式延长视频持续时间，我们的方法能够迭代地生成超过其上下文长度的视频。我们已经观察到，使用2秒的视频数据作为背景，成功地将未来的视频帧扩展8秒是可行的。

表6：视觉语言基准的比较。我们收集的评价包括：SEEDB: SEEDBench-Img [45]；OCRB: OCRBench
$59\]；MMV: MMVet \[98\]；教皇\[51\];VQAv2 \[27\];GQA \[34\];SQA: science - qaimg \[60\]；TextVQA \[78\]；CQA: ChartQA \[61\]；DVQA: DocVQA \[63\]；IVQA: InfoVQA \[62\]；AI2D \[36\];RWQA: RealWorldQA \[91\]；MMMU \[99\];MMB: MMBench\[58\]。\*在训练过程中观察相关训练数据集的图像。$