WAN:万象视频,开源视频生成的新标杆
一句话总结:阿里通义推出的开源视频生成模型,性能比肩闭源产品,填补了国产开源视频AI的空白。
🎬 引子:开源视频AI的困境
2024年,视频AI领域有个怪现象:
图像生成 已经有了Flux、Stable Diffusion这样的顶级开源模型,
文本AI 有Llama、Qwen这样的开源旗舰,
但视频生成一直是开源的短板------
- Stable Video Diffusion效果一般
- ModelScope分辨率低、时长短
- 开源视频模型和Sora、可灵之间,差距大得像两个时代
直到 WAN(万象) 出现,这个局面才被改变。
📋 基本信息
| 项目 | 内容 |
|---|---|
| 开发方 | 阿里巴巴通义团队 |
| 发布时间 | 2025年1月 |
| 开源协议 | Apache 2.0(完全开源,可商用) |
| 模型规格 | 1.3B / 14B 两个版本 |
| 核心能力 | 文生视频、图生视频、视频编辑 |
| 最大分辨率 | 1080P |
| 最大时长 | 约10秒 |
| 下载地址 | Hugging Face + ModelScope 均可下载 |
🔥 为什么说WAN是里程碑?
1. 开源界最强视频模型(2025年初)
WAN发布时,在多项基准测试中超越了:
- ✅ CogVideoX-5B(智谱AI开源视频模型)
- ✅ OpenSora(开源重制版Sora)
- ✅ AnimateDiff(社区热门动图模型)
**Human Evaluation(人类评测)**中,WAN-14B的效果接近可灵1.5的水平。
这是开源视频AI第一次真正逼近商业闭源产品。
2. 完全商用的Apache 2.0协议
不像某些"开源"模型附带各种限制,WAN使用 Apache 2.0:
- ✅ 可以商用
- ✅ 可以修改分发
- ✅ 可以集成到产品中
- ✅ 不需要开源你的代码
这对创业公司和独立开发者来说意义重大------可以直接用WAN做产品。
3. 在普通消费级显卡上能跑
| 模型 | 所需显存 | 生成720P视频时间 |
|---|---|---|
| WAN-1.3B | 8GB(RTX 3070可用) | 约3-5分钟 |
| WAN-14B | 24GB(RTX 4090) | 约10-20分钟 |
| Sora | 不开放 | --- |
| 可灵API | 云端调用 | 约30秒 |
对本地部署的开发者来说,WAN是首选。
🏗️ WAN的技术架构
核心:DiT + Flow Matching
WAN放弃了传统的UNet架构,采用了和Sora类似的技术路线:
文本/图像输入
↓
CLIP/T5 文本编码器
↓
DiT(Diffusion Transformer)主干
↓
Flow Matching 去噪过程
↓
VAE 解码器
↓
视频输出
DiT(Diffusion Transformer) :
把Transformer的注意力机制引入扩散模型,比UNet更能处理长时序的时空关系。这也是Sora、SD3等新一代模型的共同选择。
Flow Matching :
比传统DDPM更高效的训练方式,用更少的步数完成高质量生成,推理速度更快。
3D因果注意力机制
WAN在时序建模上有独特设计------3D因果注意力:
传统:空间维度注意力(处理单帧画面)
WAN:时间+空间联合注意力(处理多帧连续运动)
通过"因果"设计(每帧只看之前的帧,不看后面的),WAN能生成连贯流畅的长时序视频,而不会出现帧间跳跃的问题。
多任务统一框架
WAN用一个模型权重处理多种任务:
| 任务 | 说明 |
|---|---|
| T2V(文生视频) | 文字描述 → 视频 |
| I2V(图生视频) | 一张图片 + 文字 → 视频 |
| Video Editing | 现有视频 + 指令 → 修改后视频 |
这种统一设计比多个专用模型更灵活,参数也更高效。
🎯 WAN vs 竞争对手
| 指标 | WAN-14B | CogVideoX-5B | Sora | 可灵1.5 |
|---|---|---|---|---|
| 开源 | ✅ | ✅ | ❌ | ❌ |
| 商用协议 | ✅ Apache 2.0 | ✅ Apache 2.0 | ❌ | ❌ |
| 画面质量 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 运动流畅度 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 本地部署 | ✅ | ✅ | ❌ | ❌ |
| 最大分辨率 | 1080P | 720P | 1080P | 1080P |
结论 :
如果你需要商用且本地部署 → WAN
如果你追求最高质量且不介意付费 → 可灵/Sora
💻 快速上手:5分钟本地运行WAN
安装依赖
bash
# 创建虚拟环境
conda create -n wan python=3.10
conda activate wan
# 安装依赖
pip install torch==2.4.0 torchvision
pip install diffusers transformers accelerate
pip install wan # 官方包
下载模型
python
from huggingface_hub import snapshot_download
# 下载1.3B版本(8GB显存可用)
snapshot_download(
repo_id="Wan-AI/Wan2.1-T2V-1.3B",
local_dir="./wan-1.3b"
)
文生视频示例
python
import torch
from wan.pipelines import WanT2VPipeline
# 加载模型
pipe = WanT2VPipeline.from_pretrained(
"./wan-1.3b",
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
# 生成视频
video = pipe(
prompt="一只猫咪在夕阳下的海滩上奔跑,毛发随风飘动,慢动作特写,电影质感",
num_frames=81, # 约5秒
height=480,
width=832,
num_inference_steps=50,
guidance_scale=6.0
).frames[0]
# 保存
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=16)
图生视频示例
python
from wan.pipelines import WanI2VPipeline
from PIL import Image
pipe = WanI2VPipeline.from_pretrained(
"./wan-14b-i2v", # 图生视频需要14B版本
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
image = Image.open("my_photo.jpg")
video = pipe(
image=image,
prompt="让画面中的人物慢慢转身,头发飘动,背景虚化",
num_frames=81,
).frames[0]
export_to_video(video, "photo_to_video.mp4", fps=16)
🌐 WAN背后:通义视觉生成的进化史
WAN不是凭空出现的,它是阿里通义团队多年积累的集大成:
2022年:通义万象(文图生成)
↓
2023年:通义万象 2.0(质量大幅提升)
↓
2024年:通义万象视频版(内测)
↓
2025年1月:WAN开源(对标Sora的开源版)
通义团队做了一个在当时很勇敢的决定:把最好的视频模型完全开源。
这一决定让WAN迅速成为开源社区的热点,也倒逼了国际开源视频模型的发展节奏。
🔮 WAN的局限和未来
当前局限
| 问题 | 程度 |
|---|---|
| 视频时长限制(约10秒) | 中等限制 |
| 生成速度较慢 | 中等限制 |
| 复杂物理动作偶有错误 | 轻度问题 |
| 人脸精细度不如SDXL | 轻度问题 |
社区期待的方向
- WAN 3.0:据传分辨率将支持4K,时长提升至30秒
- 实时模式:类似SD-Turbo的快速版本
- ComfyUI集成:目前已有第三方节点,官方支持中
📌 总结
WAN的最大意义,不是它有多好,而是它是开源的。
在视频AI这个"开源荒漠"中,WAN是第一个真正可用的绿洲。
它让普通开发者、创业团队能够在本地、免费、可商用地生成高质量视频。
这比闭源的Sora先进100倍......的开放性,将彻底改变视频AI的格局。
延伸阅读: