1. ModelScope T2V by 阿里达摩院(推荐)
-
模型名 :
damo/text-to-video-synthesis
-
输入:一句文字描述(如:"a panda is dancing")
-
输出:2秒视频(16帧,576x320 分辨率)
-
显卡推荐:8GB~16GB 显存(支持 CPU fallback)
-
生成时间:约 40~120 秒(满足你的要求)
-
优点:
-
真正文生视频(非插帧)
-
HuggingFace + ModelScope CLI 接口友好
-
-
开源地址:
-
使用方式(简化):
pip install modelscope python -m modelscope.cli inference \ --model damo/text-to-video-synthesis \ --text "A dog running in the park"