cosmos系列模型的推理使用——cosmos transfer2.5

我们先来使用cosmos transfer2.5来进行基本的功能推理。之前已经用过cosmos-transfer1的功能了,所以对一些基本内容还是比较熟悉了,这次我们主要解决cosmos2上遇到的一些问题。

首先还是先下载源码,通过git lfs来拉取。

bash 复制代码
sudo apt install git-lfs
git lfs install
bash 复制代码
git clone https://github.com/nvidia-cosmos/cosmos-transfer2.5.git
cd cosmos-transfer2.5
git lfs pull
bash 复制代码
sudo apt update && sudo apt -y install curl ffmpeg libx11-dev tree wget
bash 复制代码
curl -LsSf https://astral.sh/uv/install.sh | sh
uv --version
bash 复制代码
uv python install # 注意版本,cosmos2不再限制python的3.12,只需要3.10即可
uv sync --extra=cu128
source .venv/bin/activate

以上下载是比较慢的,需要多等待。另外,如果是先要把环境安装到当前的conda环境,也是可以用命令uv sync --extra=cu128 --active --inexact实现的,但是比较麻烦,不太推荐了。这样我们就把运行的python环境都配置好了。

接下来我们测试相关的功能

bash 复制代码
python examples/inference.py -i assets/robot_example/depth/robot_depth_spec.json -o outputs/depth

python examples/inference.py \
  -i assets/robot_example/depth/robot_depth_spec.json \
  -o outputs/depth2

python examples/inference.py -i assets/robot_example/edge/robot_edge_spec.json -o outputs/edge

python examples/inference.py -i assets/robot_example/seg/robot_seg_spec.json -o outputs/seg

python examples/inference.py -i assets/robot_example/vis/robot_vis_spec.json -o outputs/vis

python examples/inference.py -i assets/robot_example/multicontrol/robot_multicontrol_spec.json -o outputs/multicontrol
bash 复制代码
# 汽车场景
# Depth 控制 - 汽车
python examples/inference.py -i assets/car_example/depth/car_depth_spec.json -o outputs/car_depth

# Edge 控制 - 汽车
python examples/inference.py -i assets/car_example/edge/car_edge_spec.json -o outputs/car_edge

# Segmentation 控制 - 汽车
python examples/inference.py -i assets/car_example/seg/car_seg_spec.json -o outputs/car_seg

# Blur 控制 - 汽车
python examples/inference.py -i assets/car_example/vis/car_vis_spec.json -o outputs/car_vis

# 多控制 - 汽车
python examples/inference.py -i assets/car_example/multicontrol/car_multicontrol_spec.json -o outputs/car_multicontrol
bash 复制代码
# 8卡并行推理(单控制或多控制变体)
torchrun --nproc_per_node=8 --master_port=12341 \
  examples/inference.py \
  -i assets/robot_example/depth/robot_depth_spec.json \
  -o outputs/depth_8gpu

# 自定义GPU数量
torchrun --nproc_per_node=4 --master_port=12341 \
  examples/inference.py \
  -i assets/robot_example/multicontrol/robot_multicontrol_spec.json \
  -o outputs/multicontrol_4gpu
bash 复制代码
# 图像推理
# 单帧图像转换
python examples/inference.py -i assets/image_example/image2image.json -o outputs/image2image
# 使用参考图像引导视频生成
python examples/inference.py -i assets/image_example/image_style.json -o outputs/image_style

# 多GPU版本
torchrun --nproc_per_node=8 --master_port=12341 \
  examples/inference.py \
  -i assets/image_example/image_style.json \
  -o outputs/image_style
bash 复制代码
# 生成多视角所需的视频
python scripts/generate_control_videos.py -i assets/multiview_example1/scene_annotations -o outputs/multiview_example1_world_scenario_videos


# 多相机视角同步生成(front_wide, rear_left, rear_right等7个视角)
torchrun --nproc_per_node=8 --master_port=12341 \
  examples/multiview.py \
  -i assets/multiview_example/multiview_spec.json \
  -o outputs/multiview

# 自回归多视角生成长视频
torchrun --nproc_per_node=8 --master_port=12341 \
  -m examples.multiview \
  -i assets/multiview_example/multiview_autoregressive_spec.json \
  -o outputs/multiview_autoregressive
bash 复制代码
# 查看所有参数说明
python examples/inference.py --help

# 查看特定控制类型的参数
python examples/inference.py control:edge --help
python examples/inference.py control:depth --help
python examples/inference.py control:seg --help
python examples/inference.py control:vis --help

# 多视角帮助
python examples/multiview.py --help
python examples/multiview.py control:view-config --help

新版本的最重要的是可以生成更加合理的多视角视频了,这里我们资源不足,多模态的控制模式的生成是没有问题的。

单一模态

多模态

相关推荐
小O的算法实验室15 小时前
2026年ASOC,基于深度强化学习的无人机三维复杂环境分层自适应导航规划方法,深度解析+性能实测
算法·无人机·论文复现·智能算法·智能算法改进
郭涤生16 小时前
STL vector 扩容机制与自定义内存分配器设计分析
c++·算法
༾冬瓜大侠༿16 小时前
vector
c语言·开发语言·数据结构·c++·算法
Ricky111zzz16 小时前
leetcode学python记录1
python·算法·leetcode·职场和发展
汀、人工智能16 小时前
[特殊字符] 第58课:两个正序数组的中位数
数据结构·算法·数据库架构··数据流·两个正序数组的中位数
liu****16 小时前
第16届省赛蓝桥杯大赛C/C++大学B组(京津冀)
开发语言·数据结构·c++·算法·蓝桥杯
汀、人工智能16 小时前
[特殊字符] 第79课:分割等和子集
数据结构·算法·数据库架构·位运算·哈希表·分割等和子集
最初的↘那颗心16 小时前
Agent 实战:构建第一个 Agent 与记忆系统设计
java·大模型·agent·spring ai·记忆系统
汀、人工智能16 小时前
[特殊字符] 第74课:完全平方数
数据结构·算法·数据库架构·图论·bfs·完全平方数
CoderCodingNo16 小时前
【GESP】C++四、五级练习题 luogu-P1177 【模板】排序
数据结构·c++·算法