Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Lumina-T2X 是一个新的内容生成系列模型，统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本，而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I，其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型，模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

论文阅读

摘要

Sora揭示了缩放扩散变压器（DIT）的潜力以任意分辨率，宽高比和持续时间为单位的影像图像和视频，但仍然缺乏足够的实施细节。

在这份技术报告中，我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器（FLAG-DIT），作为一个统一的框架，旨在将噪声转换为图像，视频，多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征，并结合了 $Nextline$ 和 $NextFrame$ 令牌等可学习的占位符，Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式，并可以在任何分辨率，宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索，rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性，灵活性和可扩展性，使Lumina-T2X的模型可扩展到高达70亿个参数，并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是，由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT（PIXART-α）的训练计算成本的35％，这表明参数数量显着增加加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推，高分辨率编辑，生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码，输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架，支持文本到图像的生成，分辨率外推，风格一致生成，合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像，提供优越的分辨率视觉质量和保真度，同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练，LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述，Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比，在所有分辨率下都具有卓越的视觉质量。

结论

在本文中，我们提出了Lumina-T2X，这是一个统一的框架，旨在将文本说明转换为任意分辨率和持续时间的任何模式，包括图像，视频，3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器（FLAG-DIT），精心设计用于可扩展的条件生成。配备了关键修改，包括绳索，RNSNORM，KQ-NORM和零定位的注意体系结构， $NextLine$ 和 $NextFrame$ 令牌用于数据表示形式，以及与原点扩散变压器相比，我们的旗帜位从扩散到流匹配公式的转换为稳定性，灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力，该功能表现出卓越的性能和与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现，我们以各种方式实例化旗杆，并为文本对图像，视频，视频提供统一的食谱多文章和语音产生。我们证明，该框架不仅可以在任意分辨率下生成逼真的图像或视频任务，例如以无训练的方式推断出外推，高分辨率编辑和组成生成。

总体而言，我们希望我们的尝试，发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图，并成为进一步研究开发有效大型多模式生成模型的新起点。

Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

相关链接

论文阅读

摘要

方法

实验

结论