Ruyi-Mini-7B：开源的图像生成视频模型

Ruyi-Mini-7B 是由 CreateAI 开发的一款开源图像生成视频模型，可将输入图像转化为短视频。该模型支持从 360p 到 720p 的多种分辨率、灵活的长宽比，生成视频的最大时长为 5 秒。凭借运动与摄像机控制功能，Ruyi 为视频生成带来了更高的创造性与灵活性。该模型采用宽松的 Apache 2.0 许可协议发布，允许社区广泛使用与二次开发。

核心功能概述

图像到视频：以静态图像为输入，生成动态视频。

多分辨率支持：支持 360p 至 720p 的分辨率以及各种宽高比。

灵活时长：可生成最多 5 秒的视频内容。

高级控制：内置运动和摄像机控制，增强用户对视频动态的操控能力。

模型架构

Ruyi-Mini-7B 拥有 71 亿参数，其架构在 EasyAnimate V4 的基础上优化改进，核心组件包括：

Casual VAE 模块

负责视频的压缩与解压。

空间分辨率降低至 1/8，时间分辨率降低至 1/4。

每个潜在像素使用 16 通道的 BF16 进行表示。
扩散变换器模块 (Diffusion Transformer Module)

使用 3D 全注意力机制生成压缩视频数据。

空间维度采用 2D Normalized-RoPE 方法；时间维度使用正弦-余弦位置嵌入。

训练过程基于 DDPM（去噪扩散概率模型）。
CLIP 引导特性

提取输入图像的语义特征，用于指导视频生成过程。

特征通过交叉注意力机制引入变换器模块。

训练数据与方法

Ruyi-Mini-7B 的训练分为以下四个阶段，覆盖从预训练到高质量视频生成的全流程：

阶段 1 ：从零开始的预训练

数据量：约 2 亿视频片段 + 3000 万张图像

分辨率：256

批量大小：4096

迭代次数：350,000 次

阶段 2 ：多分辨率微调

数据量：约 6000 万视频片段

分辨率：384--512

批量大小：1024

迭代次数：60,000 次

阶段 3 ：高质量微调

数据量：约 2000 万视频片段 + 800 万张图像

分辨率：384--1024

动态批量大小，基于显存分配

迭代次数：10,000 次

阶段 4 ：最终高质量视频训练

数据量：约 1000 万高质量视频片段

批量大小：1024

迭代次数：10,000 次

使用说明

安装

bash 复制代码

git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt

运行

使用 Python 脚本运行：

bash 复制代码

python3 predict_i2v.py

使用 GitHub 提供的 ComfyUI 包装器。

硬件需求

运行 Ruyi-Mini-7B 所需的显存大小取决于视频的分辨率和时长。以下是单张 A100 测试下的典型显存消耗：

总结

Ruyi-Mini-7B 是一个强大的图像生成视频模型，结合了先进的架构设计和高质量的训练数据。无论是科研用途还是实际创意场景，它都为用户提供了强大的视频生成能力。凭借开源的特性与详细的文档支持，Ruyi-Mini-7B 让每位用户都能轻松体验视频生成的乐趣与创造力。