阿里开源通义万相Wan2.1-VACE-14B：用于视频创建和编辑的一体化模型

Wan2.1：开放且先进的大规模视频生成模型

一、引入与概述

Wan2.1是一个全面且开放的视频基础模型套件，旨在突破视频生成的边界。该模型在多个基准测试中持续超越现有的开源模型和商业解决方案的性能。Wan2.1支持多种任务，包括文本到视频、图像到视频、视频编辑、文本到图像和视频到音频，推动了视频生成领域的发展。此外，Wan2.1还具备生成中英文文本的能力，极大增强了其实际应用价值。

二、模型版本与性能

Wan2.1提供了多种模型版本，包括1.3B和14B参数规模的模型，支持480P和720P两种分辨率。其中，T2V-1.3B模型仅需8.19GB显存，可在RTX 4090显卡上大约4分钟内生成5秒的480P视频。即使在未进行量化优化等技术处理的情况下，其性能也能与一些闭源模型相媲美。Wan2.1的多个版本在不同GPU上的计算效率也得到了详细测试和展示。

三、技术创新

（一）3D因果变分自编码器（Wan-VAE）

Wan2.1提出了专为视频生成设计的3D因果VAE架构------Wan-VAE。该架构通过多种策略结合，提高了时空压缩效率，降低了显存占用，并确保了时间因果性。与其它开源VAE相比，Wan-VAE在性能效率上具有显著优势。它可以对任意长度的1080P视频进行编码和解码，且不会丢失历史时间信息，非常适合视频生成任务。

（二）扩散变换器（DiT）

Wan2.1基于主流的扩散变换器范式设计，采用T5编码器对多语言文本输入进行编码，并在每个变换器块中使用交叉注意力将文本嵌入模型结构。此外，还采用了带有线性层和SiLU层的MLP来处理输入时间嵌入，并分别预测六个调制参数。该MLP在所有变换器块中共享，每个块学习不同的偏置参数。这种设计在相同参数规模下显著提升了性能。

（三）数据集构建

Wan2.1团队策划并去重了一个包含大量图像和视频数据的候选数据集。在数据策划过程中，设计了四步数据清洗流程，重点关注基础维度、视觉质量和运动质量。通过稳健的数据处理流程，可以轻松获得高质量、多样化且大规模的图像和视频训练集。

四、模型架构与参数

（一）1.3B模型

输入维度：1536
输出维度：16
前馈维度：8960
频率维度：256
注意力头数：12
层数：30

（二）14B模型

输入维度：5120
输出维度：16
前馈维度：13824
频率维度：256
注意力头数：40
层数：40

五、应用场景与集成

Wan2.1已经集成到多个平台和框架中，包括Diffusers、ComfyUI等。它支持多种视频生成任务，如文本到视频、图像到视频、首尾帧到视频等，并提供了相应的推理代码和权重。此外，Wan2.1还支持通过多种策略（如Ulysses策略和Ring策略）进行多GPU推理，以提高生成效率。

六、评估与比较

通过人工评估，使用Wan2.1生成的结果在提示扩展后优于闭源和开源模型。团队还对图像到视频模型进行了广泛的人工评估，并将结果以表格形式呈现，清晰地表明Wan2.1在性能上超越了二者。此外，团队还比较了Wan2.1与领先的开源和闭源模型的性能，并使用精心设计的1035个内部提示进行了测试，涵盖了14个主要维度和26个子维度，结果显示Wan2.1具有优越的性能。

七、许可与致谢

Wan2.1模型采用Apache 2.0许可证，用户可以自由使用生成的内容，但必须遵守许可证的规定。团队对SD3、Qwen、umt5xxl、diffusers和HuggingFace等仓库的贡献者表示感谢，感谢他们的开放研究。

八、未来展望

Wan2.1团队持续更新和改进模型，发布了多个版本和功能，如Wan2.1 VACE、FLF2V等，并欢迎社区的反馈和贡献。团队计划进一步更新集成提示扩展和多GPU版本的Diffusers。