大模型实战:通义万相2.1-文生视频-1.3B

通义万相2.1-文生视频-1.3B-480P效果演示

一、Wan2.1-T2V-1.3B

1、简介

通义万相2.1是阿里巴巴达摩院推出的多模态AI模型,专注于文本到视频(Text-to-Video)生成任务。1.3B版本是其参数规模为13亿的轻量级模型,旨在高效生成符合文本描述的短视频片段。

2、核心功能

文生视频 :通过输入自然语言描述(如"一只猫在草地上奔跑"),模型自动生成与之匹配的动态视频内容,支持分辨率、时长等参数调整。
多风格适配 :可生成写实、卡通、水墨等不同艺术风格的视频。
语义理解:对复杂场景和动作描述(如"夕阳下海浪拍打礁石")具有较高还原能力。

3、技术特点

模型架构 :基于扩散模型(Diffusion Model)与Transformer结合,优化了视频帧间连贯性。
训练数据 :使用大规模视频-文本对数据集,涵盖多样化场景和物体。
轻量化设计:1.3B参数规模在消费级GPU上可部署,推理速度较快。

4、应用场景

  • 短视频内容创作
  • 广告与营销素材生成
  • 游戏及影视行业预可视化

5、推理示例

输入文本:"星空下的旋转木马"

输出视频:生成5秒、720p视频,包含闪烁星空与缓慢旋转的木马,光影效果自然。

注:实际效果可能受文本描述具体性和硬件配置影响。

二、克隆仓库

bash 复制代码
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

三、安装依赖项

bash 复制代码
# Ensure torch >= 2.4.0
pip install -r requirements.txt

四、下载模型

bash 复制代码
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

五、模型推理

(1) 无提示扩展

  • 单 GPU 推理
bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM(内存不足)问题,可以使用 --offload_model True--t5_cpu 选项来减少 GPU 内存使用:

bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果使用的是 T2V-1.3B 模型,建议设置参数 --sample_guide_scale 6--sample_shift 参数 可以根据性能在 8 到 12 的范围内进行调整。

运行效果:在当前目录下生成 mp4 视频

视频效果:

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 FSDP + xDiT USP 进行多 GPU 推理
bash 复制代码
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) 使用提示扩展

  • 使用本地模型进行扩展。
    • 默认情况下,使用 HuggingFace 上的 Qwen 模型进行此扩展。当然也可以根据 GPU 内存大小进行模型选择。
    • 对于文生视频任务,可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
    • 较大的模型通常提供更好的扩展结果,但需要更多的 GPU 内存。
    • 参数 --prompt_extend_model 指定使用本地模型路径或 Hugging Face 模型。

例如:

bash 复制代码
modelscope download --model Qwen/Qwen2.5-3B-Instruct
bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'en' --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

运行效果:

复制代码
INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 12:56:49,202] INFO: Extending prompt ...
[2025-09-24 12:56:54,503] INFO: Extended prompt: CG fantasy digital art, two anthropomorphic cats with expressive fur textures, each in comfortable boxing gear and bright gloves, fiercely engage in an intense fight on a spotlighted stage. The cats have vividly colored eyes and fur, with dynamic poses and muscular builds. The stage is adorned with colorful banners and a raised circular platform in the center. The lighting highlights the cats' movements, casting dramatic shadows. The background features a bustling magical forest setting with glowing mushrooms and mystical creatures. The cats' fur shimmers under the stage lights, adding to their animated expressions. The scene captures a high-energy, dynamic action moment. Close-up, mid-shot, and wide shots capturing the entire fight.
[2025-09-24 12:56:54,503] INFO: Creating WanT2V pipeline.
[2025-09-24 12:57:17,372] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 12:57:27,278] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 12:57:27,738] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 12:57:30,428] INFO: Generating video ...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:48<00:00,  6.97s/it]
[2025-09-24 13:03:38,770] INFO: Saving generated video to t2v-1.3B_832*480_1_1_CG_fantasy_digital_art,_two_anthropomorphic_cats_w_20250924_130338.mp4
[2025-09-24 13:03:39,541] INFO: Finished.

注意prompt_extend_target_lang使用的语言是英语,日志中对应优化后的提示词 Extended prompt 也是英语。

显存占用:10GB+

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 Dashscope API 进行扩展。
    • 提前申请 dashscope.api_key
    • 配置环境变量 DASH_API_KEY 来指定 Dashscope API 密钥。
    • 使用参数 --prompt_extend_model 修改用于扩展的模型。

注册登录百炼平台:https://bailian.console.aliyun.com/#/home,进入模型服务-密钥管理创建API-KEY

然后选择一个模型,注意查看使用额度或者token费用:

这里复制模型名字:qwen3-max

文生视频指令:

bash 复制代码
DASH_API_KEY='your_key' python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt_extend_model 'qwen3-max'

运行效果:

复制代码
2025-09-24 13:26:13,819] INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 13:26:13,819] INFO: Extending prompt ...
[2025-09-24 13:26:17,304] INFO: Extended prompt: 写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,肌肉紧绷,戴着鲜艳醒目的拳击手套,眼神专注凶猛,正挥拳交错。舞台背景昏暗,唯有中央光束聚焦在它们身上,营造出紧张动感的格斗氛围。动态捕捉镜头,中景仰视视角,强调动作张力与光影对比。
[2025-09-24 13:26:17,305] INFO: Creating WanT2V pipeline.
[2025-09-24 13:26:42,043] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 13:26:52,264] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 13:26:52,724] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 13:26:55,558] INFO: Generating video ...
100%|██████████████████████████████████████████████████████████████████████████████████████| 50/50 [06:00<00:00,  7.20s/it]
[2025-09-24 13:33:16,598] INFO: Saving generated video to t2v-1.3B_832*480_1_1_写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,_20250924_133316.mp4
[2025-09-24 13:33:17,365] INFO: Finished.

注意prompt_extend_target_lang使用的语言是中文,日志中对应优化后的提示词 Extended prompt 也是中文。

通义万相2.1-文生视频-1.3B-480P效果演示

(3) 运行本地 gradio

进入gradio目录:

bash 复制代码
cd gradio
  • 使用本地模型进行扩展。
bash 复制代码
# if one uses a local model for prompt extension
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'
  • 使用 Dashscope API 进行扩展。
bash 复制代码
# if one uses dashscope's API for prompt extension
DASH_API_KEY='your_key' python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model 'qwen3-max'
复制代码
Step1: Init prompt_expander...done
Step2: Init 1.3B t2v model...done
* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

此时打开网页:

复制代码
http://127.0.0.1:7860/

参考文档

相关推荐
阿里云大数据AI技术2 小时前
云上AI推理平台全掌握(6):大规模EP专家并行
人工智能
yanxing.D2 小时前
OpenCV轻松入门_面向python(第五章几何变换)
图像处理·人工智能·python·opencv
电商软件开发 小银2 小时前
wo店模式兴起旧模式式微:本地生活服务市场的深度变革
大数据·人工智能·商业模式·本地生活·数字化生活·实体店转型·wo店模式
泰迪智能科技3 小时前
泰迪智能科技分享数据挖掘定义、主要方法、预处理、应用领域
人工智能·科技·数据挖掘
GIS好难学3 小时前
【智慧城市】2025年中国地质大学(武汉)暑期实训优秀作品(2):智慧城市西安与一带一路
人工智能·信息可视化·智慧城市·webgis
jerryinwuhan3 小时前
数据挖掘清洗实战项目目录
人工智能·数据挖掘
说私域3 小时前
开源AI大模型、AI智能名片与S2B2C商城小程序在价值观型社群构建与运营中的价值与应用
人工智能·小程序·开源
憨憨爱编程3 小时前
机器学习-单因子线性回归
人工智能·机器学习·线性回归
阿里云大数据AI技术4 小时前
云栖2025 | 人工智能平台 PAI 年度发布
人工智能