上海AI Lab视频生成大模型书生.筑梦环境搭建&推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 "书生・筑梦 2.0"(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ------VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models

相关推荐
8个贝壳1 天前
开发者福音!一键聚合GPT-5.1、Claude 4.5:我的高性价比AI模型中转站实战分享
人工智能
liliangcsdn1 天前
如何从二项分布中抽取样本 - binomial
大数据·人工智能
北京耐用通信1 天前
耐达讯自动化Profibus光纤转换器为您的水处理系统装上“光纤高速路”,数据从此畅通无阻!
网络·人工智能·科技·网络协议·自动化·信息与通信
老蒋新思维1 天前
创客匠人 2025 峰会深度解析:AI 激活创始人 IP 变现的核心价值
网络·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
赖small强1 天前
【音视频开发】Linux V4L2 (Video for Linux 2) 驱动框架深度解析白皮书
linux·音视频·v4l2·设备节点管理·视频缓冲队列·videobuf2
仙女修炼史1 天前
目标分割学习之U_net
人工智能·深度学习·学习
nix.gnehc1 天前
PyTorch自动求导
人工智能·pytorch·python
多恩Stone1 天前
【Pytorch 深入理解(2)】减少训练显存-Gradient Checkpointing
人工智能·pytorch·python
Dfreedom.1 天前
机器学习模型误差深度解读:从三类来源到偏差-方差权衡
人工智能·深度学习·机器学习·误差·偏差方差权衡
serve the people1 天前
tensorflow tf.function 的 多态性(Polymorphism)
人工智能·python·tensorflow