Allegro:强大的文本到视频模型

Allegro是一款先进的文本到视频生成模型,能够从简单的文本输入生成高质量的视频。这些视频长达6秒,以每秒15帧(FPS)的速度和720p的分辨率呈现,为视频内容创作带来了新的可能性。

Allegro模型信息

  • 模型名称:Allegro
  • 描述:文本到视频生成模型
  • 下载:可在Hugging Face上找到
  • 参数
    • VAE:175M
    • DiT:2.8B
  • 推理精度
    • VAE:FP32/TF32/BF16/FP16(推荐使用FP32/TF32)
    • DiT/T5:BF16/FP32/TF32
  • 上下文长度:79.2K
  • 分辨率:720 x 1280
  • 帧数:88
  • 视频长度:6秒 @ 15 FPS
  • 单GPU内存使用量:9.3G BF16(启用cpu_offload时)

快速开始

要开始使用Allegro,你需要按照以下步骤操作:

  1. 下载Allegro GitHub代码
  2. 安装必要的依赖
  3. 确保Python版本大于等于3.10,PyTorch版本大于等于2.4,CUDA版本大于等于12.4。具体详情可查看requirements.txt文件。
  4. 推荐使用Anaconda创建新环境(Python >= 3.10)来运行以下示例。
  5. 下载Allegro模型权重
  6. 运行推理

以下是运行推理的示例命令:

bash

复制代码
python single_inference.py \
--user_prompt 'A seaside harbor with bright sunlight and sparkling seawater, with many boats in the water. From an aerial view, the boats vary in size and color, some moving and some stationary. Fishing boats in the water suggest that this location might be a popular spot for docking fishing boats.' \
--save_path ./output_videos/test_video.mp4 \
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 7.5 \
--num_sampling_steps 100 \
--seed 42

使用--enable_cpu_offload可以将模型卸载到CPU以减少GPU内存使用(约9.3G,如果不启用CPU卸载则为27.5G),但推理时间将显著增加。

(可选)将视频插值到30 FPS。

推荐使用EMA-VFI将视频从15 FPS插值到30 FPS。

为了更好的视觉质量,请使用imageio保存视频。

限制

该模型无法渲染名人、可读文本、特定地点、街道或建筑物。

未来计划

  • 多GPU推理和进一步加速(PAB)
  • 文本&图像到视频(TI2V)视频生成
  • 动作控制视频生成
  • 视觉质量增强

结语

Allegro为视频内容创作带来了新的便利性和效率。如果你对这个模型感兴趣,可以访问其Hugging Face页面、博客、论文或加入等待名单来了解更多信息,并尝试在Discord上使用它。

相关推荐
数科云34 分钟前
AI提示词(Prompt)入门:什么是Prompt?为什么要写好Prompt?
人工智能·aigc·ai写作·ai工具集·最新ai资讯
Devlive 开源社区36 分钟前
技术日报|Claude Code超级能力库superpowers登顶日增1538星,自主AI循环ralph爆火登榜第二
人工智能
软件供应链安全指南1 小时前
灵脉 IAST 5.4 升级:双轮驱动 AI 漏洞治理与业务逻辑漏洞精准检测
人工智能·安全
lanmengyiyu1 小时前
单塔和双塔的区别和共同点
人工智能·双塔模型·网络结构·单塔模型
微光闪现1 小时前
AI识别宠物焦虑、紧张和晕车行为,是否已经具备实际可行性?
大数据·人工智能·宠物
技术小黑屋_2 小时前
用好Few-shot Prompting,AI 准确率提升100%
人工智能
中草药z2 小时前
【嵌入模型】概念、应用与两大 AI 开源社区(Hugging Face / 魔塔)
人工智能·算法·机器学习·数据集·向量·嵌入模型
知乎的哥廷根数学学派2 小时前
基于数据驱动的自适应正交小波基优化算法(Python)
开发语言·网络·人工智能·pytorch·python·深度学习·算法
DisonTangor2 小时前
GLM-Image:面向密集知识与高保真图像生成的自回归模型
人工智能·ai作画·数据挖掘·回归·aigc
努力学习的小洋3 小时前
Python训练打卡Day5离散特征的处理-独热编码
人工智能·python·机器学习