上海AI Lab视频生成大模型书生.筑梦环境搭建&推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 "书生・筑梦 2.0"(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ------VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models

相关推荐
人工智能AI技术几秒前
GitHub Trending榜首:Python Agentic RAG企业级落地指南
人工智能·python
柯儿的天空2 分钟前
边缘计算与AI部署优化技术分析:从云端到边缘的智能化演进
人工智能·gpt·aigc·边缘计算·ai编程·ai写作·agi
chushiyunen3 分钟前
大模型.safetensors文件
人工智能·pytorch·深度学习
带娃的IT创业者3 分钟前
信号链双路径陷阱:新增 Signal 路径后 AI 回复重复的根因与修复
人工智能
光羽隹衡3 分钟前
计算机视觉——Opencv(人脸检测)
人工智能·opencv·计算机视觉
IT_陈寒6 分钟前
SpringBoot 项目启动慢?5 个提速技巧让你的应用快如闪电 ⚡️
前端·人工智能·后端
币之互联万物6 分钟前
好用的推理训练引擎:博云AIOS如何重塑企业AI算力底座
大数据·人工智能
视***间8 分钟前
算力下沉,智赋全域——解析当前AI边缘计算形势及视程空间的使命与征程
人工智能·边缘计算·ai算力·视程空间·终端算力
IT_陈寒8 分钟前
SpringBoot自动配置的坑,我把头发都快薅没了
前端·人工智能·后端
supericeice9 分钟前
建筑行业大模型落地提速,知识图谱方案为何受到关注
人工智能·知识图谱