上海AI Lab视频生成大模型书生.筑梦环境搭建&推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 "书生・筑梦 2.0"(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ------VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models

相关推荐
KG_LLM图谱增强大模型1 分钟前
a16z 最新AI市场状态报告:独角兽崛起与科技超级周期
人工智能
xixixi777774 分钟前
Prompt脱敏——不损失(或尽量少损失)原文本语义和上下文价值的前提下,防止原始敏感数据暴露给模型服务方、潜在的攻击者或出现在模型训练数据中
人工智能·microsoft·ai·大模型·数据安全·提示词·敏感信息
凡泰极客科技4 分钟前
新浪财经专访凡泰极客梁启鸿:金融App的AI落地应避哪些坑
人工智能·金融
量子-Alex6 分钟前
【大模型技术报告】Qwen2-VL技术报告解读
人工智能
得赢科技7 分钟前
2026年料汁定制公司深度评测报告
人工智能
jllllyuz13 分钟前
基于卷积神经网络(CNN)的图像融合方法详解
人工智能·神经网络·cnn
风流 少年17 分钟前
解决AI画图的最后一公里-Next AI Draw.io MCP实践
人工智能·draw.io
OLOLOadsd12317 分钟前
牛群目标检测新突破:基于YOLOv3-SPP的精准识别与优化策略
人工智能·yolo·目标检测
小鸡吃米…20 分钟前
机器学习 - 贝叶斯定理
人工智能·python·机器学习
esmap23 分钟前
技术解构:ESMAP AI数字孪生赋能传统行业转型的全链路技术方案
人工智能·低代码·ai·架构·编辑器·智慧城市