一、介绍
EchoMimicV3 是蚂蚁集团在8月底开源的一款高效、多模态、多任务的数字人视频生成框架, 凭借13亿参数的紧凑型视频扩散模型(CVDM),实现了在多种输入条件下快速生成高质量、强泛化能力的数字人动画,为数字人动画技术带来了重要突破。

二、部署过程
快速部署及使用方法,请进入算家云官网, 参考"镜像社区"。
基础环境最低要求说明:
环境名称 | 版本信息 |
---|---|
Ubuntu | 22.04 |
Cuda | 12.1.1 |
Python | 3.10 |
NVIDIA Corporation | RTX 4090 D |
1、构建基础镜像 Miniconda-Ubuntu-22.04-cuda12.1.1

2、更新系统
sql
sudo apt update && sudo apt upgrade -y
更新过程中遇到下图的情况时,在命令行中输入"2"即可
3、创建虚拟环境
ini
# 创建一个名为 echomimic_v3 的新虚拟环境,并指定 Python 版本为 3.10
conda create -n echomimic_v3 python=3.10 -y
等待安装完成

bash
# 进入虚拟环境
conda activate echomimic_v3
4、从 github 仓库 克隆项目
bash
# (如果下载速度过慢可以开启学术代理加速)
git clone https://github.com/antgroup/echomimic_v3.git

5、安装依赖
bash
cd echomimic_v3
pip install -r requirements.txt
安装成功
6、模型准备
模型名称 | 备注 |
---|---|
Wan2.1-Fun-1.3B-InP | 基础模型 |
wav2vec2-base | 音频编码器 |
EchoMimicV3-preview | 权重 |
注意:由于Wan2.1-Fun-1.3B-InP和wav2vec2-base模型已经下载到堡垒机里面,所以这里不需要下载。之后在 app_mm.py
文件中修改地址即可
6.1 下载权重
-
创建目录
bashcd echomimic_v3 mkdir -p models
-
下载元数据(不拉大文件)
bashcd models GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/BadToBest/EchoMimicV3
-
拉取大文件
bashcd EchoMimicV3/transformer git lfs pull
-
移动transformer文件夹
bashmv /echomimic_v3/models/EchoMimicV3/transformer /echomimic_v3/models
7、编辑 app_mm.py
文件
7.1 打开 app_mm.py
文件,找到第82行左右

修改红框部分:

7.2 打开 app_mm.py
文件,找到第326行左右

修改红框部分:

8、运行 app_mm.py
文件
css
cd echomimic_v3
python app_mm.py --server_name 0.0.0.0 --server_port 8080
运行成功
三、网页演示
出现以下 Gradio 页面,即是模型已搭建完成。
