5 秒预览物理世界，2 行代码启动生成——ComfyUI-Cosmos-Predict2 本地部署教程，重塑机器人训练范式！

一、简介

Cosmos-Predict2 是 Cosmos 世界基金会模型（WFM）物理 AI 生态系统的一个关键分支，专门通过高级世界建模进行未来状态预测。它提供两项强大的功能：用于从文本描述创建高质量图像的文本到图像生成，以及用于从视频输入生成视觉模拟的视频到世界生成。

我们在下图中可视化了 Cosmos-Predict2 的架构。

模型

Cosmos-Predict2-2B-Video2World：基于视频 + 文本的未来视觉世界生成
Cosmos-Predict2-14B-Text2Image：文本到图像的生成
Cosmos-Predict2-2B-Video2World：基于视频 + 文本的未来视觉世界生成
Cosmos-Predict2-14B-Video2World：基于视频 + 文本的未来视觉世界生成
Cosmos-Predict2-14B-Sample-GR00T-Dreams-GR1：基于视频 + 文本的未来视觉世界生成，在 GR00T Dreams GR1 数据集上进行后训练
Cosmos-Predict2-14B-Sample-GR00T-Dreams-DROID：基于视频 + 文本的未来视觉世界生成，在 GR00T Dreams DROID 数据集上进行后训练
Cosmos-Predict2-2B-Sample-Action-Conditioned：基于视频 + 动作的未来视觉世界生成，在 Bridge 数据集上进行后训练

注意：

本次部署使用的是这两个模型，应为ComfyUI不支持多卡，因为使用的是4090，所以采用2B的模型。

Cosmos-Predict2-2B-Video2World：基于视频 + 文本的未来视觉世界生成

二、本地部署

注意：本文主要介绍部署到 ComfyUI 中使用

环境	版本号
Python	=3.12
PyTorch	=2.5.1
cuda	=12.4
Ubtuntu	22.4.0

1.安装 Miniconda

步骤 1：更新系统

首先，更新您的系统软件包：

sql 复制代码

sudo apt update
sudo apt upgrade -y

步骤 2：下载 Miniconda 安装脚本

访问 Miniconda 的官方网站或使用以下命令直接下载最新版本的安装脚本（以 Python 3 为例）：

arduino 复制代码

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

步骤 3：验证安装脚本的完整性（可选）

下载 SHA256 校验和文件并验证安装包的完整性：

bash 复制代码

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh.sha256
sha256sum Miniconda3-latest-Linux-x86_64.sh

比较输出的校验和与.sha256 文件中的值是否一致，确保文件未被篡改。

步骤 4：运行安装脚本

为安装脚本添加执行权限：

bash 复制代码

chmod +x Miniconda3-latest-Linux-x86_64.sh

运行安装脚本：

复制代码

./Miniconda3-latest-Linux-x86_64.sh

步骤 5：按照提示完成安装

安装过程中，您需要：

阅读许可协议 ：按 Enter 键逐页阅读，或者按 Q 退出阅读。
接受许可协议 ：输入 yes 并按 Enter。
选择安装路径 ：默认路径为/home/您的用户名/miniconda3，直接按 Enter 即可，或输入自定义路径。
是否初始化 Miniconda ：输入 yes 将 Miniconda 添加到您的 PATH 环境变量中。
步骤 6：激活 Miniconda 环境

安装完成后，使环境变量生效：

bash 复制代码

source ~/.bashrc

步骤 7：验证安装是否成功

检查 conda 版本：

css 复制代码

conda --version

步骤 8：更新 conda（推荐）

为了获得最新功能和修复，更新 conda：

sql 复制代码

conda update conda

2.部署 ComfyUI

2.1 克隆代码仓库

bash 复制代码

git clone https://github.com/comfyanonymous/ComfyUI.git

2.2 安装依赖

创建 conda 虚拟环境

ini 复制代码

conda create -n comfyenv python==3.12
conda activate comfyenv

安装 PyTorch

ini 复制代码

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

安装依赖

bash 复制代码

cd ComfyUI
pip install -r requirements.txt

安装 ComfyUI Manager

bash 复制代码

#进入插件的文件
cd /ComfyUI/custom_nodes/
#下载ComfyUI Manager
git clone https://github.com/Comfy-Org/ComfyUI-Manager.git

3.下载模型

推荐在魔搭社区中下载模型

bash 复制代码

#启动虚拟环境
conda activate comfyenv
#进入项目文件
cd ComfyUI
#下载modelscope
pip install modelscope
#下载模型文件到指定文件夹（需要下载三个模型）
modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_t2i.safetensors  --local_dir /models/diffusion_models/

modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_video2world_480p_16fps.safetensors  --local_dir /models/diffusion_models/

modelscope download --model Comfy-Org/Cosmos_Predict2_repackaged cosmos_predict2_2B_video2world_720p_16fps.safetensors  --local_dir /models/diffusion_models/
#下载vae模型
modelscope download --model Comfy-Org/Wan_2.1_ComfyUI_repackaged split_files/vae/wan_2.1_vae.safetensors --local_dir /models/vae/
#下载text_encoders模型
modelscope download --model comfyanonymous/cosmos_1.0_text_encoder_and_VAE_ComfyUI text_encoders/oldt5_xxl_fp8_e4m3fn_scaled.safetensors --local_dir /models/text_encoders/

模型网址：

Cosmos_Predict2_repackaged · 模型库

Wan_2.1_ComfyUI_repackaged · 模型库

cosmos_1.0_text_encoder_and_VAE_ComfyUI · 模型库

模型名称：

cosmos_predict2_2B_t2i.safetensors

cosmos_predict2_2B_video2world_480p_16fps.safetensors

cosmos_predict2_2B_video2world_720p_16fps.safetensors

模型放置路径：ComfyUI/models/omnigen2_fp16.safetensors

oldt5_xxl_fp8_e4m3fn_scaled.safetensors

模型放置路径：ComfyUI/models/text_encoders

wan_2.1_vae.safetensors