大模型实战:通义万相2.1-文生视频-1.3B

通义万相2.1-文生视频-1.3B-480P效果演示

一、Wan2.1-T2V-1.3B

1、简介

通义万相2.1是阿里巴巴达摩院推出的多模态AI模型,专注于文本到视频(Text-to-Video)生成任务。1.3B版本是其参数规模为13亿的轻量级模型,旨在高效生成符合文本描述的短视频片段。

2、核心功能

文生视频 :通过输入自然语言描述(如"一只猫在草地上奔跑"),模型自动生成与之匹配的动态视频内容,支持分辨率、时长等参数调整。
多风格适配 :可生成写实、卡通、水墨等不同艺术风格的视频。
语义理解:对复杂场景和动作描述(如"夕阳下海浪拍打礁石")具有较高还原能力。

3、技术特点

模型架构 :基于扩散模型(Diffusion Model)与Transformer结合,优化了视频帧间连贯性。
训练数据 :使用大规模视频-文本对数据集,涵盖多样化场景和物体。
轻量化设计:1.3B参数规模在消费级GPU上可部署,推理速度较快。

4、应用场景

  • 短视频内容创作
  • 广告与营销素材生成
  • 游戏及影视行业预可视化

5、推理示例

输入文本:"星空下的旋转木马"

输出视频:生成5秒、720p视频,包含闪烁星空与缓慢旋转的木马,光影效果自然。

注:实际效果可能受文本描述具体性和硬件配置影响。

二、克隆仓库

bash 复制代码
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

三、安装依赖项

bash 复制代码
# Ensure torch >= 2.4.0
pip install -r requirements.txt

四、下载模型

bash 复制代码
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

五、模型推理

(1) 无提示扩展

  • 单 GPU 推理
bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM(内存不足)问题,可以使用 --offload_model True--t5_cpu 选项来减少 GPU 内存使用:

bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果使用的是 T2V-1.3B 模型,建议设置参数 --sample_guide_scale 6--sample_shift 参数 可以根据性能在 8 到 12 的范围内进行调整。

运行效果:在当前目录下生成 mp4 视频

视频效果:

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 FSDP + xDiT USP 进行多 GPU 推理
bash 复制代码
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) 使用提示扩展

  • 使用本地模型进行扩展。
    • 默认情况下,使用 HuggingFace 上的 Qwen 模型进行此扩展。当然也可以根据 GPU 内存大小进行模型选择。
    • 对于文生视频任务,可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
    • 较大的模型通常提供更好的扩展结果,但需要更多的 GPU 内存。
    • 参数 --prompt_extend_model 指定使用本地模型路径或 Hugging Face 模型。

例如:

bash 复制代码
modelscope download --model Qwen/Qwen2.5-3B-Instruct
bash 复制代码
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'en' --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'

运行效果:

复制代码
INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 12:56:49,202] INFO: Extending prompt ...
[2025-09-24 12:56:54,503] INFO: Extended prompt: CG fantasy digital art, two anthropomorphic cats with expressive fur textures, each in comfortable boxing gear and bright gloves, fiercely engage in an intense fight on a spotlighted stage. The cats have vividly colored eyes and fur, with dynamic poses and muscular builds. The stage is adorned with colorful banners and a raised circular platform in the center. The lighting highlights the cats' movements, casting dramatic shadows. The background features a bustling magical forest setting with glowing mushrooms and mystical creatures. The cats' fur shimmers under the stage lights, adding to their animated expressions. The scene captures a high-energy, dynamic action moment. Close-up, mid-shot, and wide shots capturing the entire fight.
[2025-09-24 12:56:54,503] INFO: Creating WanT2V pipeline.
[2025-09-24 12:57:17,372] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 12:57:27,278] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 12:57:27,738] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 12:57:30,428] INFO: Generating video ...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:48<00:00,  6.97s/it]
[2025-09-24 13:03:38,770] INFO: Saving generated video to t2v-1.3B_832*480_1_1_CG_fantasy_digital_art,_two_anthropomorphic_cats_w_20250924_130338.mp4
[2025-09-24 13:03:39,541] INFO: Finished.

注意prompt_extend_target_lang使用的语言是英语,日志中对应优化后的提示词 Extended prompt 也是英语。

显存占用:10GB+

通义万相2.1-文生视频-1.3B-480P效果演示

  • 使用 Dashscope API 进行扩展。
    • 提前申请 dashscope.api_key
    • 配置环境变量 DASH_API_KEY 来指定 Dashscope API 密钥。
    • 使用参数 --prompt_extend_model 修改用于扩展的模型。

注册登录百炼平台:https://bailian.console.aliyun.com/#/home,进入模型服务-密钥管理创建API-KEY

然后选择一个模型,注意查看使用额度或者token费用:

这里复制模型名字:qwen3-max

文生视频指令:

bash 复制代码
DASH_API_KEY='your_key' python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' --prompt_extend_model 'qwen3-max'

运行效果:

复制代码
2025-09-24 13:26:13,819] INFO: Input prompt: Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage
[2025-09-24 13:26:13,819] INFO: Extending prompt ...
[2025-09-24 13:26:17,304] INFO: Extended prompt: 写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,肌肉紧绷,戴着鲜艳醒目的拳击手套,眼神专注凶猛,正挥拳交错。舞台背景昏暗,唯有中央光束聚焦在它们身上,营造出紧张动感的格斗氛围。动态捕捉镜头,中景仰视视角,强调动作张力与光影对比。
[2025-09-24 13:26:17,305] INFO: Creating WanT2V pipeline.
[2025-09-24 13:26:42,043] INFO: loading ./Wan2.1-T2V-1.3B/models_t5_umt5-xxl-enc-bf16.pth
[2025-09-24 13:26:52,264] INFO: loading ./Wan2.1-T2V-1.3B/Wan2.1_VAE.pth
[2025-09-24 13:26:52,724] INFO: Creating WanModel from ./Wan2.1-T2V-1.3B
[2025-09-24 13:26:55,558] INFO: Generating video ...
100%|██████████████████████████████████████████████████████████████████████████████████████| 50/50 [06:00<00:00,  7.20s/it]
[2025-09-24 13:33:16,598] INFO: Saving generated video to t2v-1.3B_832*480_1_1_写实风格数字插画,两只拟人化猫咪身穿舒适贴身的拳击装备,在聚光灯照亮的擂台上激烈对战。它们毛色分明,_20250924_133316.mp4
[2025-09-24 13:33:17,365] INFO: Finished.

注意prompt_extend_target_lang使用的语言是中文,日志中对应优化后的提示词 Extended prompt 也是中文。

通义万相2.1-文生视频-1.3B-480P效果演示

(3) 运行本地 gradio

进入gradio目录:

bash 复制代码
cd gradio
  • 使用本地模型进行扩展。
bash 复制代码
# if one uses a local model for prompt extension
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model '/home/sam/.cache/modelscope/hub/models/Qwen/Qwen2.5-3B-Instruct'
  • 使用 Dashscope API 进行扩展。
bash 复制代码
# if one uses dashscope's API for prompt extension
DASH_API_KEY='your_key' python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ../Wan2.1-T2V-1.3B --prompt_extend_model 'qwen3-max'
复制代码
Step1: Init prompt_expander...done
Step2: Init 1.3B t2v model...done
* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

此时打开网页:

复制代码
http://127.0.0.1:7860/

参考文档

相关推荐
电棍2335 小时前
工程记录:使用tello edu无人机进行计算机视觉工作(手势识别,yolo3搭载)
人工智能·计算机视觉·无人机
wan5555cn5 小时前
国产电脑操作系统与硬盘兼容性现状分析:挑战与前景评估
人工智能·笔记·深度学习·机器学习·电脑·生活
BullSmall6 小时前
汽车HIL测试:电子开发的关键验证环节
人工智能·机器学习·自动驾驶
woshihonghonga6 小时前
停止Conda开机自动运行方法
linux·人工智能·conda
海洲探索-Hydrovo8 小时前
TTP Aether X 天通透传模块丨国产自主可控大数据双向通讯定位模组
网络·人工智能·科技·算法·信息与通信
触想工业平板电脑一体机8 小时前
【触想智能】工业安卓一体机在人工智能领域上的市场应用分析
android·人工智能·智能电视
墨染天姬10 小时前
【AI】数学基础之矩阵
人工智能·线性代数·矩阵
2401_8414956411 小时前
【计算机视觉】基于复杂环境下的车牌识别
人工智能·python·算法·计算机视觉·去噪·车牌识别·字符识别
倔强青铜三12 小时前
苦练Python第66天:文件操作终极武器!shutil模块完全指南
人工智能·python·面试
倔强青铜三12 小时前
苦练Python第65天:CPU密集型任务救星!多进程multiprocessing模块实战解析,攻破GIL限制!
人工智能·python·面试