阿里最新开源视频生成模型Wan2.1 介绍和实践

介绍

Wan2.1是由Wan团队推出的开源视频生成模型套件,通过创新的架构设计和工程优化,在视频生成领域实现了多项技术突破。该模型系列基于扩散变换器范式 开发,支持从文本/图像输入生成720P高清视频,同时保持对消费级显卡的兼容性,为视频创作提供了新的可能(github.com/Wan-Video/W...%25E3%2580%2582 "https://github.com/Wan-Video/Wan2.1)%E3%80%82")

1. 核心功能亮点

- 多模态生成能力

支持文本到视频(T2V)、图像到视频(I2V)、视频编辑、文本到图像(T2I)、视频到音频(V2A)五大核心功能,覆盖完整的创作流程。其中T2V模型1.3B版本在RTX 4090上仅需4分钟即可生成5秒480P视频 huggingface.co/Wan-AI/Wan2...

- 跨语言文本生成

首次实现视频内中英文字幕的动态生成,支持自动生成信息卡、字幕条等视觉文本元素,显著提升视频信息传达效率。

- 革命性视频编解码

采用自主开发的Wan-VAE架构,突破性地支持无限时长1080P视频的编解码处理,通过3D因果编码结构保持时空连贯性,压缩效率较传统方案提升40%

2. 技术架构创新

扩散变换器(DiT)优化

  • 集成Flow Matching框架,通过T5编码器实现多语言文本嵌入
  • 创新调制参数预测机制,每个transformer块学习独立偏置
  • 14B模型采用5120维度隐空间,40头注意力机制

模型规格对比

参数 T2V-1.3B I2V-14B
隐空间维度 1536 5120
注意力头数 12 40
网络层数 30 40
前馈维度 8960 13824

1.3B 实践

1. 下载官方仓库

bash 复制代码
git clone https://github.com/Wan-Video/Wan2.1.git

2. 安装环境

shell 复制代码
cd Wan2.1
pip install -r requirements

3.启动本地gradio

python 复制代码
#注意没有足够显存不要使用local_qwen,使用api,启动一个qwen2.5 14B太耗资源了,权重下载用下面的就好了

DASH_API_KEY=sk-xx python t2v_1.3B_singleGPU.py \
--prompt_extend_method 'dashscope' --ckpt_dir /root/autodl-tmp/Wan-AI/Wan2.1-T2V-1.3B


#from modelscope import snapshot_download
#model_dir = snapshot_download('Wan-AI/Wan2.1-T2V-1.3B', cache_dir='/root/autodl-tmp')
#model_dir = snapshot_download('Wan-AI/Wan2.1-i2V-1.3B', cache_dir='/root/autodl-tmp')

计算时显存占用18G

4.结果

感觉上1.3B生成的视频还是差了一点,得上14B

相关推荐
大刀爱敲代码44 分钟前
基础算法01——二分查找(Binary Search)
java·算法
HR Zhou5 小时前
群体智能优化算法-正弦余弦算法(Sine Cosine Algorithm, SCA,含Matlab源代码)
算法·机器学习·matlab·优化·群体智能优化
自信的小螺丝钉5 小时前
Leetcode 378. 有序矩阵中第 K 小的元素 二分查找
算法·leetcode·矩阵·二分查找
m0_735234606 小时前
蓝桥杯算法实战分享:算法进阶之路与实战技巧
算法·职场和发展·蓝桥杯
程序员老周6666 小时前
矩阵补充,最近邻查找
算法·机器学习·推荐算法
_GR6 小时前
2021年蓝桥杯第十二届C&C++大学B组真题及代码
c语言·数据结构·c++·算法·蓝桥杯
奋进的小暄6 小时前
贪心算法(11)(java)加油站
算法·贪心算法
tpoog7 小时前
[贪心算法]最长回文串 && 增减字符串匹配 && 分发饼干
算法·贪心算法
Flower#8 小时前
C . Serval and The Formula【Codeforces Round 1011 (Div. 2)】
c语言·开发语言·c++·算法
大刀爱敲代码8 小时前
基础算法02——冒泡排序(Bubble Sort)
java·算法·排序算法