(Arxiv-2025)SkyReels-A2：在视频扩散变换器中组合任意内容

SkyReels-A2：在视频扩散变换器中组合任意内容

paper是昆仑天工发布在Arxiv 2025的工作
paper title:SkyReels-A2: Compose Anything in Video Diffusion

Transformers
Code：链接

图1：我们提出的 SkyReels-A2 模型的元素到视频生成结果示例。给定多个图像作为参考以及文本提示，我们的方法能够生成逼真且自然构图的视频，同时保持特定身份的一致性。

Abstract

本文提出了 SkyReels-A2，一个可控的视频生成框架，能够根据文本提示将任意视觉元素（例如角色、物体、背景）组合成合成视频，同时对每个元素保持与参考图像严格一致性。我们将此任务称为元素到视频（elements-to-video，E2V），其主要挑战在于：保持每个参考元素的保真度、确保场景的协调构图以及实现自然的输出。为了解决这些问题，我们首先设计了一条全面的数据处理流程，用于构建"文本提示-参考图像-视频"三元组以供模型训练。接着，我们提出了一种新颖的图像-文本联合嵌入模型，以将多元素表示注入生成过程，在元素一致性、整体协调性和文本对齐之间实现平衡。我们还优化了推理流程，以提高速度和输出稳定性。此外，我们引入了一个精心构建的系统评估基准------A2 Bench。实验表明，我们的框架能够在元素控制精确的前提下，生成多样化、高质量的视频。SkyReels-A2 是首个开源的商用级 E2V 生成模型，其性能优于先进的闭源商用模型。我们期望 SkyReels-A2 能推动戏剧创作、虚拟电商等创意应用的发展，突破可控视频生成的边界。

1 Introduction

扩散模型的出现极大推动了生成建模领域的发展，从根本上改变了内容创作的范式 $75, 65, 58, 14, 24, 25$ 。在文本到图像架构的基础上，大规模预训练的视频扩散框架通过在注意力机制中引入时间一致性机制，实现了显著突破 $39, 5, 73, 32, 6$ 。值得注意的是，具有完整三维注意力的扩散变换器架构的可扩展性 $58, 49, 102, 103, 91, 60, 86, 84$ 推动了高质量视觉内容的发展，使其广泛应用于下游任务 $98, 99, 72, 95, 77, 96, 28$ 。这些可控场景在受限主题定制方面具有重大影响 $85, 83, 87, 9, 56, 16$ ，能够生成高度定制化和动态的视觉输出 $27, 62$ 。尽管取得了这些进展，将视频扩散模型能力扩展到多个一致元素的生成仍然是一个挑战 $89$ ，例如 AI 剧集和虚拟电商等应用。

当代基础视频生成模型主要集中在两个核心任务上：文本到视频（text-to-video，T2V）和图像到视频（image-to-video，I2V）。T2V 通常使用 T5 $64$ 或 CLIP $63$ 文本编码器来解析文本指令，生成反映所需角色、动作和场景的视觉内容。尽管 T2V 有利于创造性和多样化内容的生成，但由于扩散过程固有的随机性，它经常难以保持结果的一致性和可预测性 $60, 91$ 。相比之下，I2V 通常将静态图像转换为动态视频，提供初始帧及可选的文本描述，但往往受限于对初始帧的"复制-粘贴"依赖 $97, 27, 41, 53$ 。在本文中，我们致力于研究"元素到视频"任务（elements-to-video，E2V），该任务生成动态且自然构图的视频，能够精确遵循多个参考图像和文本提示，从而结合文本生成的灵活性与图像调控的可控性。值得指出的是，参考组合的范围不仅限于人物或主体，还包括任何动物、风景以及其他各种视觉元素。

在本研究中，我们首先构建了由文本-参考-视频三元组组成的数据结构，其中参考图像包括针对不同视觉元素的多个图像。我们对视频字幕进行了重新标注与对齐，使其更聚焦于描述视频中元素的外观和动作。此外，参考图像并非简单从单一视频帧中截取，而是跨多个视频采样和筛选，以确保生成的视频不是图像的简单拷贝。然后，我们开发了一个统一的视频生成框架，用于处理任意视觉元素，在市场上与现有解决方案具有竞争力。具体而言，我们基于已有的基础视频模型，设计了一种结合语义和空间信息的图像-文本注入机制，以确保跨模态数据表示的有效学习。我们还提出了 A2-Bench，一个用于全面评估 E2V 任务的新基准，其得分与人类主观评价之间具有显著的统计相关性。最后，我们采用了无训练加速推理方法，以提升用户体验。大量实验结果展示了我们方法的优越性，突出了其作为生成控制机制的有效性。

总结而言，我们的方法展示了强大的灵活性，能够在合成视频输出中无缝整合多种视觉元素，适用于多样化的应用场景。我们的贡献如下：

我们提出了 SkyReels-A2，一个基于视频扩散模型的元素到视频（E2V）生成框架，旨在在多个参考图像（角色、物体、背景）中保持保真度的同时，通过文本指令实现精确控制。
我们引入了一个精心策划的数据集，包含高质量的文本-参考-视频三元组，并开发了 A2-Bench，用于对元素到视频任务进行全面、自动化的评估。
大量实验表明，SkyReels-A2 能够生成高质量、可编辑、时间一致性强的多视觉元素视频，在定性和定量分析中均优于先进的闭源商用模型。为推动该领域进一步发展，我们已公开发布代码、模型和评估基准。

2 Methodology

形式上，给定一组 N N N 个输入参考图像，记作 { C n } n = 1 N \{C_n\}_{n=1}^N {Cn}n=1N，表示图像中 N − 1 N - 1 N−1 个独立主体和背景，我们的目标是根据文本提示生成由这些视觉元素组成的高质量、自然的视频。我们首先在第 2.1 节中讨论文本到视频扩散模型和图像条件的预备知识。接着，在第 2.2 节中介绍 SkyReels-A2 的组合视频架构。最后，在第 2.3 节和第 2.4 节中分别介绍数据集构建流程和 A2-Bench 评估方法。

2.1 Preliminaries

文本到视频扩散。基于扩散的文本到视频模型通常通过迭代方式将噪声 ϵ \epsilon ϵ 转换为视频 x 0 x_0 x0。早期方法在像素空间中直接执行去噪过程 $75, 38, 74$ 。但由于计算成本高，较新的技术主要在潜空间中操作，结合 3D VAE $66, 47, 98, 91, 86$ 。其优化目标可定义为：

L d i f f = E x 0 , t , y , ϵ $∥ ϵ - ϵ θ ( E ( x 0 ) , t , τ θ ( y ) ) ∥ 2 2$ (1) L_{diff} = \mathbb{E}_{x_0, t, y, \epsilon} \left $\\\| \\epsilon - \\epsilon_\\theta (\\mathcal{E}(x_0), t, \\tau_\\theta(y)) \\\|_2\^2 \\right$ \tag{1} Ldiff=Ex0,t,y,ϵ $∥ϵ-ϵθ(E(x0),t,τθ(y))∥22$ (1)

其中 y y y 表示文本提示， ϵ \epsilon ϵ 从高斯分布中随机采样，例如 ϵ ∼ N ( 0 , 1 ) \epsilon \sim \mathcal{N}(0, 1) ϵ∼N(0,1)， τ θ ( ⋅ ) \tau_\theta(\cdot) τθ(⋅) 是文本编码器，例如 T5 $64$ 。用 E ( x 0 ) \mathcal{E}(x_0) E(x0) 表示 x 0 x_0 x0 的潜在表示后代入扩散过程。需要注意的是，我们的方法遵循更先进的流匹配方法 $14$ ，用 MSE 损失优化速度。基于 DiT 的视频生成模型在捕捉物理世界动态方面表现出巨大潜力 $8, 91, 103$ 。尽管最近在一维序列扩展方面取得了进展，基于可控生成的研究仍相对较少。特别是，尚无研究探讨在多视觉元素组合场景中 DiT 的有效性机制。相反，商用模型在此领域展示出优越性能。本文旨在填补开源方法与专有解决方案之间的空白，推动可控视频生成的研究进展。

图像条件。尽管自然语言为控制生成模型提供了直观手段，但其往往缺乏准确描述对象所需的细节。为解决这一问题，近期方法 $86, 39$ 扩展了文本条件扩散模型以支持参考图像条件。例如，在 Wan $84$ 中，图像提示 I i m g I_{img} Iimg 首先通过预训练的图像编码器（如 CLIP）编码为视觉嵌入 E v i s i o n ( I i m g ) E_{vision}(I_{img}) Evision(Iimg)，然后将隐藏状态 H i m g H_{img} Himg 投影为键矩阵 f K i m g ( H i m g ) f_K^{img}(H_{img}) fKimg(Himg) 和值矩阵 f V i m g ( H i m g ) f_V^{img}(H_{img}) fVimg(Himg)。

类似文本提示，图像提示通过额外交叉注意力融入视频序列查询中，其计算公式为：

Softmax ( f Q t e x t ( H t x t ) ⋅ f K i m g ( H i m g ) T d ) ⋅ f V i m g ( H i m g ) (2) \text{Softmax} \left( \frac{f_Q^{text}(H_{txt}) \cdot f_K^{img}(H_{img})^T}{\sqrt{d}} \right) \cdot f_V^{img}(H_{img}) \tag{2} Softmax(d fQtext(Htxt)⋅fKimg(Himg)T)⋅fVimg(Himg)(2)

最终的输出隐藏表示通过文本提示交叉注意力与图像提示注意力的输出求和得到。与此同时，参考图像 I i m g I_{img} Iimg 还通过 VAE 编码为空间潜特征，并与输入噪声在通道维度拼接后输入至 patch embedding 层。不同图像条件方法 $39, 86$ 在编码器设计和图像融合分支上有所不同。

图2：SkyReels-A2 框架概览。我们的方法首先通过两个不同的分支对所有参考图像进行编码。第一个分支称为空间特征分支（图中红色下箭头表示），使用细粒度的 3D VAE 编码器处理每个组成图像。第二个分支称为语义特征分支（图中红色上箭头表示），通过 CLIP 图像编码器和一个 MLP 投影层对语义参考进行编码。随后，空间特征与加噪视频标记在通道维度上进行拼接，并输入至扩散变换器块中。同时，从参考图像中提取的语义特征通过附加的交叉注意力层注入扩散变换器，以确保在扩散过程中有效整合语义上下文信息。

2.2 Architecture

整体架构如图2所示。给定一组 N N N 个参考组合图像与背景图像，记作 { C n } n = 1 N \{C_n\}{n=1}^N {Cn}n=1N，我们的目标是生成高质量的视频，在遵循文本提示 T \mathcal{T} T 的同时保留每个参考主体与背景的身份，并支持灵活的布局。我们的方法采用先进的视频扩散变换器架构，在结构上进行最小改动，以确保适用于广泛的应用场景。我们将参考图像中的每个主体进行分割（背景图像为白色背景），以避免额外噪声。每个输入参考主体 c n c_n cn 通过双流结构进行处理以实现跨模态投影。第一条流使用语义图像编码器 E i m g E{img} Eimg 提取全局和语义视觉特征；第二条流使用原始 VAE 获取空间和局部细节特征。

具体来说，语义编码器使用 CLIP 图像编码器实现，从其倒数第二层提取基于网格的特征。随后投影模块将这些特征转换为与视频序列查询维度对齐的图像查询。所有参考图像的图像标记被拼接，并作为交叉注意力模块中的键和值使用，集成于每个文本提示交叉注意力模块之后。对于空间分支，参考图像首先在帧维度上拼接，并通过零填充对齐到原始帧数。标准的 3D VAE 被用于提取视频潜变量，这些潜变量随后与噪声潜变量在通道维度拼接，并输入至 patch embedding 模块。

2.3 Training and Inference

训练目标。给定组合提示 { C n } n = 1 N \{C_n\}_{n=1}^N {Cn}n=1N 和输入文本提示 T \mathcal{T} T，我们首先将原始图像中的主体进行分割以去除背景，然后训练我们的 SkyReels-A2 模型在潜空间中重建目标视频。我们的训练目标遵循标准扩散 MSE 损失，如公式 (1) 所示。在训练过程中，我们仅优化以下神经模块：交叉注意力、patch embedding、图像条件嵌入器，其余部分保持冻结状态。

推理加速。参考文献 $84$ ，我们在推理采样中采用 UniPC 多步调度方法 $101$ 。与此同时，我们还考虑了一些有效的高级加速策略，以提升实际部署效率。通常，在扩散模型推理过程中，将神经网络激活并行化到多个 GPU 上是一项关键的加速手段，特别是在模型规模扩展到 140 亿参数时，每次采样步骤的低速变成瓶颈。我们的方法引入了 Context Parallel、CFG Parallel 和 VAE Parallel 策略，以增强模型效率，从而实现在在线环境中快速且无损的视频生成。此外，我们还实现了用户级 GPU 部署，通过模型量化与参数级别卸载策略显著降低 GPU 内存消耗，从而适配 VRAM 受限的消费级显卡。

2.4 Dataset Construction

图3：SkyReels-A2 中的数据处理流程。该流程从预处理开始，首先通过分辨率、标签、类型和来源对原始视频进行筛选，然后基于关键帧进行时间切分。接下来，采用专有的多专家视频字幕模型生成视频片段的整体描述以及结构化概念注释。随后，检测与分割模型提取视觉元素（如人物、物体、环境）。为减少重复，参考图像通过片段/人脸相似度得分从其他视频片段中检索。进一步的细化步骤包括人脸检测与人体解析，用以提取面部和服饰元素。最后，将提取的视觉元素与结构化描述进行匹配，形成训练三元组（视觉元素、视频片段和文本描述）。

数据构建在实现多主体一致性可控视频生成中起着关键作用。不同于传统的文本到视频（T2V）或图像到视频（I2V）任务，我们的框架需要为不同主体（如人物、物体和场景）提供额外的参考图像。为应对这一挑战，我们设计了一条完整的训练数据处理流程，能够生成高质量的视频-字幕-多参考三元组，如图3所示。

该流程首先从大规模视频数据集的收集开始。每段视频依据内容一致性被切分为多个片段。随后，我们采用内部开发的多专家视频字幕模型，为这些片段生成整体和结构化字幕。结构化字幕包含了细粒度的信息，包括不同主体（如人物、服饰和物体）、背景信息以及动态属性（如面部表情、动作和运动轨迹）。

接着我们构建参考图像。对每个视频片段，首先使用通用检测模型 $45$ 对人和物体进行定位。对于人物主体，我们进一步应用人脸检测器 $12$ 和人体解析模型 $46$ ，提取面部特征和服装细节。为了将检测到的主体与结构化字幕中的文本描述对齐，我们使用 CLIP 模型 $44$ 将字幕中的文本描述与视觉实体进行匹配。

为减少生成结果中的"复制-粘贴"效应，我们引入了基于相似度的额外筛选步骤。具体而言，我们分别使用人脸相似度模型 $12$ （针对人类）和基于 CLIP 的相似度模型 $44$ （针对物体）计算跨片段主体之间的相似度，从而为同一主体选择不同片段中的多样化参考图像。对于背景参考的构建，我们选取背景覆盖率最大的帧，通过裁剪去除前景物体，保留纯净的背景图像。最终，我们构建了一个包含约 200 万条高质量视频-参考-提示三元组的数据集，用于模型训练。

2.5 A2-Bench Evaluation

现有的视频生成评估基准，如 VBench $42$ 和 VBench++ $43$ ，通过精心设计的评估套件与多维度评价指标，为文本到视频和图像到视频任务提供了严格的评估框架。然而，对于下游视频生成任务------元素到视频（E2V），仍缺乏全面的评估基准。

为在多种场景下全面评估 E2V 任务的性能，我们提出了自动化、全面且对齐人类评价的 A2-Bench。该基准为组合视频生成模型提供了多维度、系统性的评估框架，确保性能测量的严谨性与可靠性。

我们从多种场景中收集了 150 张参考图像作为 E2V 任务中的元素，包含 50 个不同的人物身份、50 个来自 12 个类别的不同物体，以及 50 个独特背景。为了构建基准数据集，我们随机将多个元素（人物、物体和背景）组合为 50 组不同的输入配置，并使用大语言模型（LLMs）生成对应文本提示以辅助数据集生成。值得注意的是，我们严格确保训练视频与 A2-Bench 中构建的视频无重叠。

A2-Bench 的自动化评估指标涵盖三个核心维度：组合一致性、视觉质量与提示遵循度，并通过八个细粒度指标进行评估。

组合一致性（Composition Consistency）：作为 E2V 任务中评估生成元素一致性的核心指标，具体包括：

人物身份一致性：通过人脸检测与人脸识别模型 $13$ 提取特征，并计算余弦相似度，评估人物的一致性。
物体一致性：评估非人物类物体的一致性，采用 Grounded-SAM 分割视频中的物体区域，并计算帧级片段特征的相似度。
背景一致性：通过检测与分割主体、掩蔽掉主体部分，计算生成视频场景与参考背景图之间的帧级特征相似度。

视觉质量（Visual Quality）：借助 VBench $42$ 中定义的图像质量、美学质量、运动平滑度与动态程度指标，全面衡量生成视频的时间一致性与视觉吸引力。

提示遵循度（Prompt Following）：使用 ViCLIP 计算文本描述与视频内容的余弦相似度，直接评估文本输入与视觉表现之间的语义一致性。

综合评分（Comprehensive Score）：引入人类反馈，对组合一致性、视觉质量与提示遵循度进行整体评估。评分非简单平均，而是考虑不同维度对用户偏好的不同贡献。

用户偏好研究（User Preference Study）：鉴于自动元素检测与匹配中存在较高误差率，我们进行用户偏好研究以补充自动评估，专注于评估视觉质量与元素保真度。我们选取 50 个测试样本，并展示条件图像、提示词及来自多个模型（包括 Keling、Vidu、Pika 和我们 SkyReels-A2）的视频结果给多位受试者。每个样本中，参与者同时观看四个模型输出，并根据不同评估维度对其进行 1 至 5 分的评分。

我们的用户研究采用细致的评估框架，涵盖 10 项具体评估维度，例如：指令遵循度、人脸一致性、空间合理性与主体协调性。每个样本由人工基于这些细粒度标准进行评分，确保对模型性能的更精准评估。此外，我们在表 5 中提供完整的评分准则，以增强评估的透明性与严谨性，推动元素到视频任务的有效发展。

图4：A2-Bench 涵盖的评估维度。我们的评估同时考虑自动化指标与用户研究，并从多个角度进行覆盖，以精准反映 E2V 任务的生成质量。

3 Experiments

3.1 Experimental Settings

实现细节。SkyReels-A2 基于 DiT 架构 $84$ 的视频生成基础模型进行微调。本次评估中不包含 T2V 和 I2V 的预训练阶段，我们专注于评估元素到视频的生成能力，包括人物、物体和背景的一致性。在训练过程中，我们以 30% 和 10% 的概率分别丢弃视频字幕和参考条件，用于无分类器引导（classifier-free guidance）。当参考图像与视频比例不一致时，我们使用白色图像进行填充。训练视频片段由 81 帧组成，相当于以 15 帧每秒（FPS）生成的 6 秒视频。训练过程中采用 Adam 优化器，学习率设为 1e-5，全局批大小为 256。在推理阶段，我们使用 50 步采样，并将 CFG scale 设置为 5。

基线方法。对于元素到视频任务，目前可用的最先进方法（SoTA）均为闭源商用工具。因此，我们评估并比较了 Pika $2$ 、Vidu $71$ 和 Keling $1$ 产品的最新能力。