重塑视频新语言,让每一帧都焕发新生——Video-Retalking,开启数字人沉浸式交流新纪元!

模型简介

Video-Retalking 模型是一种基于深度学习的视频再谈话技术,它通过分析视频中的音频和图像信息,实现视频角色口型、表情乃至肢体动作的精准控制与合成。这一技术的实现依赖于强大的技术架构和核心算法,特别是生成对抗网络(GAN)等先进算法的应用。

一、在算家云搭建

1.选择模型实例

在应用社区中搜索或找到"video-retalking"模型

或者在"视频生成"选项功能中单击选择"视频配音"

2.创建模型实例

在video-retalking模型界面页面中单击"创建应用"

选择GPU资源项选择RTX 3090后单击"立即创建"

3.使用模型

单击webSSH进入终端:

使用下列命令运行项目

复制代码
conda activate video_retalking
cd video-retalking
python webUI.py

返回项目实例页面点击video-retalking项目开放端口

打开一个新的网页,将得到网址进行粘贴,模型界面成功打开:

二、本地部署教程

系统:Ubuntu22.04 系统,显卡:3090,显存:24G

1.查看系统是否有 Miniconda3 的虚拟环境

conda -V

如果输入命令没有显示 Conda 版本号,则需要安装。

安装教程可查看:

2.更新系统命令

输入下列命令将系统更新及系统缺失命令下载

复制代码
apt-get update 
apt-get upgrade 
apt-get install -y vim wget unzip lsof net-tools openssh-server git git-lfs gcc cmake build-essential

3.创建虚拟 Python 环境

  • 创建一个名为"Video-Retalking"的虚拟镜像,python 版本为 3.10

    conda create -n video_retalking python=3.10

  • 进入"video_retalking"虚拟环境

    conda activate video_retalking

4.下载模型

输入下列命令对 video_retalking 模型进行下载

复制代码
git clone https://gitclone.com/github.com/AILab-CVC/VideoCrafter.gitls
cd VideoCrafter

5.下载 pytorch

输入下列命令:

复制代码
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1

耐心等待直到"Successfully"出现:

6.下载模型依赖包

先输入下载 tb-nightly 包避免下载其他依赖包报错:

复制代码
pip install tb-nightly -i https://mirrors.aliyun.com/pypi/simple

再输入下列命令:

复制代码
pip install -r requirements.txt

耐心等待直到"Successfully"出现

最后安装 ffmpeg:

复制代码
conda install ffmpeg

7.添加模型文件

先创建一个名为 checkpoints

复制代码
mkdir checkpoints
cd checkpoints

下载权重文件:

复制代码
git lfs install
git clone https://hf-mirror.com/yachty66/video_retalking

8.推理

输入下列命令:

复制代码
python3 inference.py
--face examples/face/1.mp4
--audio examples/audio/1.wav
--outfile results/1_3.mp4

9.web 界面展示

输入下列命令启动界面:

复制代码
python webUI.py

此时系统会自动下载缺失权重文件

复制网址打开页面:

以上就是在算家云搭建以及本地部署的详细教程。进入算家云-AI-应用社区|模型社区|镜像社区一键使用,快来体验吧~

算家云------简单、高效、便宜

相关推荐
居然JuRan10 分钟前
阿里云多模态大模型岗三面面经
人工智能
THMAIL12 分钟前
深度学习从入门到精通 - BERT与预训练模型:NLP领域的核弹级技术详解
人工智能·python·深度学习·自然语言处理·性能优化·bert
nju_spy13 分钟前
Kaggle - LLM Science Exam 大模型做科学选择题
人工智能·机器学习·大模型·rag·南京大学·gpu分布计算·wikipedia 维基百科
软工的小白23 分钟前
uniapp开发前端静态视频界面+如何将本地视频转换成网络地址
uni-app·音视频
中國龍在廣州41 分钟前
GPT-5冷酷操盘,游戏狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默
人工智能·gpt·深度学习·机器学习·计算机视觉·机器人
东哥说-MES|从入门到精通42 分钟前
Mazak MTF 2025制造未来参观总结
大数据·网络·人工智能·制造·智能制造·数字化
CodeCraft Studio1 小时前
Aspose.Words for .NET 25.7:支持自建大语言模型(LLM),实现更安全灵活的AI文档处理功能
人工智能·ai·语言模型·llm·.net·智能文档处理·aspose.word
山烛1 小时前
深度学习:CNN 模型训练中的学习率调整(基于 PyTorch)
人工智能·pytorch·python·深度学习·cnn·调整学习率
THMAIL1 小时前
深度学习从入门到精通 - 神经网络核心原理:从生物神经元到数学模型蜕变
人工智能·python·深度学习·神经网络·算法·机器学习·逻辑回归
七夜zippoe1 小时前
AI+Java 守护你的钱袋子!金融领域的智能风控与极速交易
java·人工智能·金融