一、简介
Cosmos-Predict2 是 Cosmos 世界基金会模型 (WFM) 物理 AI 生态系统的一个关键分支,专门通过高级世界建模进行未来状态预测。它提供两项强大的功能:用于从文本描述创建高质量图像的文本到图像生成,以及用于从视频输入生成视觉模拟的视频到世界生成。
我们在下图中可视化了 Cosmos-Predict2 的架构。

模型
- Cosmos-Predict2-2B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Text2Image:文本到图像的生成
- Cosmos-Predict2-2B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Sample-GR00T-Dreams-GR1:基于视频 + 文本的未来视觉世界生成,在 GR00T Dreams GR1 数据集上进行后训练
- Cosmos-Predict2-14B-Sample-GR00T-Dreams-DROID:基于视频 + 文本的未来视觉世界生成,在 GR00T Dreams DROID 数据集上进行后训练
- Cosmos-Predict2-2B-Sample-Action-Conditioned:基于视频 + 动作的未来视觉世界生成,在 Bridge 数据集上进行后训练
注意:
本次部署使用的是这两个模型,应为ComfyUI不支持多卡,因为使用的是4090,所以采用2B的模型。
Cosmos-Predict2-2B-Video2World:基于视频 + 文本的未来视觉世界生成
二、本地部署
注意:本文主要介绍部署到 ComfyUI 中使用
环境 | 版本号 |
---|---|
Python | =3.12 |
PyTorch | =2.5.1 |
cuda | =12.4 |
Ubtuntu | 22.4.0 |
1.安装 Miniconda
步骤 1:更新系统
首先,更新您的系统软件包:
sql
sudo apt update
sudo apt upgrade -y
步骤 2:下载 Miniconda 安装脚本
访问 Miniconda 的官方网站或使用以下命令直接下载最新版本的安装脚本(以 Python 3 为例):
arduino
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
步骤 3:验证安装脚本的完整性(可选)
下载 SHA256 校验和文件并验证安装包的完整性:
bash
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh.sha256
sha256sum Miniconda3-latest-Linux-x86_64.sh
比较输出的校验和与.sha256 文件中的值是否一致,确保文件未被篡改。
步骤 4:运行安装脚本
为安装脚本添加执行权限:
bash
chmod +x Miniconda3-latest-Linux-x86_64.sh
运行安装脚本:
./Miniconda3-latest-Linux-x86_64.sh
步骤 5:按照提示完成安装
安装过程中,您需要:
阅读许可协议 :按 Enter 键逐页阅读,或者按 Q 退出阅读。
接受许可协议 :输入 yes 并按 Enter。
选择安装路径 :默认路径为/home/您的用户名/miniconda3,直接按 Enter 即可,或输入自定义路径。
是否初始化 Miniconda :输入 yes 将 Miniconda 添加到您的 PATH 环境变量中。
步骤 6:激活 Miniconda 环境
安装完成后,使环境变量生效:
bash
source ~/.bashrc
步骤 7:验证安装是否成功
检查 conda 版本:
css
conda --version
步骤 8:更新 conda(推荐)
为了获得最新功能和修复,更新 conda:
sql
conda update conda
2.部署 ComfyUI
2.1 克隆代码仓库
bash
git clone https://github.com/comfyanonymous/ComfyUI.git
2.2 安装依赖
- 创建 conda 虚拟环境
ini
conda create -n comfyenv python==3.12
conda activate comfyenv
- 安装 PyTorch
ini
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
- 安装依赖
bash
cd ComfyUI
pip install -r requirements.txt
- 安装 ComfyUI Manager
bash
#进入插件的文件
cd /ComfyUI/custom_nodes/
#下载ComfyUI Manager
git clone https://github.com/Comfy-Org/ComfyUI-Manager.git
3.下载模型
推荐在魔搭社区中下载模型
bash
#启动虚拟环境
conda activate comfyenv
#进入项目文件
cd ComfyUI
#下载modelscope
pip install modelscope
#下载模型文件到指定文件夹(需要下载三个模型)
modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_t2i.safetensors --local_dir /models/diffusion_models/
modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_video2world_480p_16fps.safetensors --local_dir /models/diffusion_models/
modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_video2world_720p_16fps.safetensors --local_dir /models/diffusion_models/
#下载vae模型
modelscope download --model Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/vae/wan_2.1_vae.safetensors --local_dir /models/vae/
#下载text_encoders模型
modelscope download --model comfyanonymous/cosmos_1.0_text_encoder_and_VAE_ComfyUI text_encoders/oldt5_xxl_fp8_e4m3fn_scaled.safetensors --local_dir /models/text_encoders/
模型网址:
Cosmos_Predict2_repackaged · 模型库
Wan_2.1_ComfyUI_repackaged · 模型库
cosmos_1.0_text_encoder_and_VAE_ComfyUI · 模型库
模型名称:
cosmos_predict2_2B_t2i.safetensors
cosmos_predict2_2B_video2world_480p_16fps.safetensors
cosmos_predict2_2B_video2world_720p_16fps.safetensors
模型放置路径:ComfyUI/models/omnigen2_fp16.safetensors
oldt5_xxl_fp8_e4m3fn_scaled.safetensors
模型放置路径:ComfyUI/models/text_encoders
wan_2.1_vae.safetensors
模型放置路径:ComfyUI/models/vae
4.启动 ComfyUI
css
python main.py
输入网址进入 ComfyUI:
arduino
http://127.0.0.1:8188

5.使用 Cosmos-Predict2 工作流

点击如图所示的文件图标,然后选取想使用的 Cosmos-Predict2 工作流