Genmoai-smol：专为单 GPU 优化的开源 AI 视频生成模型，低显存生成高质量视频

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

Genmoai-smol 是一个优化过的视频生成模型，能在单个 GPU 上运行，并减少显存占用。
该模型支持通过 Gradio UI 或命令行界面生成视频，具有高保真度的运动和强大的提示遵循能力。
项目开源，提供了详细的安装和运行教程，适合在显存有限的设备上进行视频创作。

正文（附运行示例）

Genmoai-smol 是什么

Genmoai-smol 是 Genmoai 的 txt2video 模型的一个优化分支，专为在单个 GPU 节点上运行而设计，减少了显存占用。它能够在只有 24GB 显存的 GPU 上生成高质量的视频内容，适合资源受限的环境使用。模型通过高保真度的运动和强大的提示遵循能力，缩小了开放和封闭视频生成系统之间的差距。

Genmoai-smol 的主要功能

视频生成：将文本描述转换为视频内容。
高保真度运动：生成自然流畅的视频内容。
强大的提示遵循能力：理解并遵循用户的文本提示。
优化显存占用：通过技术手段减少显存使用，适合单 GPU 设备。
用户界面：提供 Gradio UI 和命令行界面两种操作方式。

Genmoai-smol 的技术原理

深度学习模型：基于生成对抗网络（GANs）或变分自编码器（VAEs）等深度学习技术生成视频内容。
文本到视频的转换：通过自然语言处理（NLP）技术理解文本提示，生成对应的视频内容。
显存优化：通过将部分模型移回 CPU 和使用 bfloat16 数据类型等手段优化显存使用。
多步骤推理：推理步骤不改变显存使用，但生成视频的时间随步骤增加而增加。
系统资源管理：需要大量系统 RAM（约 64GB）来保证流畅的视频生成过程。

如何运行 Genmoai-smol

安装步骤

克隆项目仓库：

bash 复制代码

git clone https://github.com/victorchall/genmoai-smol
cd models

安装 uv 工具并创建虚拟环境：

bash 复制代码

pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

下载模型权重（可以从 Hugging Face 下载或使用磁力链接）。

运行 Gradio UI

启动 Gradio UI：

bash 复制代码

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

命令行生成视频

使用命令行直接生成视频：

bash 复制代码

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg-scale 4.5 --model_dir "<path_to_downloaded_directory>"

将 <path_to_downloaded_directory> 替换为您下载模型权重的目录路径。

资源

关注并回复公众号【63】或【GenmoaiSmol】获取相关项目资源。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦