上海AI Lab视频生成大模型书生.筑梦环境搭建&推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 "书生・筑梦 2.0"(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ------VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models

相关推荐
一瞬祈望1 分钟前
⭐ 深度学习入门体系(第 18 篇): Batch Size:为什么它能影响训练速度与泛化能力?
人工智能·深度学习·batch
Cloudtechnology1 分钟前
Agentgateway 代理 MCP 流量初探
人工智能
友思特 智能感知5 分钟前
友思特新品 | sinaSCOPE 数字 3D 显微镜系统,重新定义精准、协作与无疲劳的显微作业
人工智能·显微镜
waterfeeling5 分钟前
AGI 论文复现日记:从 54 到 92 分,论文复现 AI Agent 的 PDF 解析“西游记”
人工智能·agi
萤丰信息6 分钟前
科技赋能智慧园区:解码绿色转型的“数字密码”
java·大数据·人工智能·科技·安全·智慧城市·智慧园区
1***43806 分钟前
C盘清理技巧分享大纲了解C盘空间占用情况
人工智能
没学上了7 分钟前
Vlm-BERT环境搭建和代码演示
人工智能·深度学习·bert
空山新雨后、8 分钟前
从 CIFAR 到 ImageNet:计算机视觉基准背后的方法论
人工智能·深度学习·算法·计算机视觉
Pyeako8 分钟前
Opencv计算机视觉--图像边缘检测
人工智能·python·opencv·计算机视觉·sobel·canny·图像边缘检测
Light608 分钟前
智链护航,数档永存:基于领码SPARK平台构建下一代AI+区块链档案系统解决方案
人工智能·spark·区块链