阿里发布 EchoMimicV2 ：从数字脸扩展到数字人可以通过图片+音频生成半身动画视频

EchoMimicV2 是由阿里蚂蚁集团推出的开源数字人项目，旨在生成高质量的数字人半身动画视频。以下是该项目的简介：

主要功能：
1. 音频驱动的动画生成：EchoMimicV2 能够使用音频剪辑驱动人物的面部表情和身体动作，实现音频与动画的同步。
2. 半身动画制作：项目从仅生成头部动画扩展到生成包括上半身的动画。
3. 简化的控制条件：EchoMimicV2 减少了动画生成过程中所需的复杂条件，让动画制作更为简便。
4. 手势和表情同步：基于手部姿势序列与音频的结合，生成自然且同步的手势和面部表情。
5. 多语言支持：支持中文和英文驱动，根据语言内容生成相应的动画。
技术原理：
1. 音频-姿势动态协调（APDH）：包括姿势采样和音频扩散，增强细节表现力并减少条件冗余。
2. 头部局部注意力（Head Partial Attention, HPA）：在训练中整合头部数据，增强面部表情的细节。
3. 特定阶段去噪损失（Phase-specific Denoising Loss, PhD Loss）：将去噪过程分为三个阶段，每个阶段都有特定的优化目标。
4. Latent Diffusion Model（LDM）：用变分自编码器（VAE）将图像映射到潜在空间，在训练过程中逐步添加噪声，估计并去除每个时间步的噪声。
5. ReferenceNet-based Backbone：用ReferenceNet从参考图像中提取特征，保持生成图像与参考图像之间的外观一致性。
项目地址：
1. 项目官网：antgroup.github.io/ai/echomimic_v2
2. GitHub仓库：github.com/antgroup/echomimic_v2
3. HuggingFace模型库：huggingface.co/BadToBest/EchoMimicV2
4. arXiv技术论文：arxiv.org/pdf/2411.10061

EchoMimicV2 通过其先进的技术，为数字人动画领域带来了革命性的进步，能够广泛应用于娱乐、教育和虚拟现实等多个领域。

AutoDL镜像：

CodeWithGPU | 能复现才是好算法

⚒️ 安装 EchoMimicV2

配置信息：

CUDA版本：12.4
Pytorch版本：2.5.1+cu124
测试用显卡型号：NVIDIA GeForce RTX 4090 D
显存大小：23.64GB
精度：float16

win整合包:

https://pan.quark.cn/s/5bae49a8750d

需额外安装miniconda

手动下载安装：https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe

cmd命令行安装：

bash 复制代码

curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe -o miniconda.exe
start /wait "" .\miniconda.exe /S
del miniconda.exe

安装CUDA Toolkit

cuda_12.4.0_551.61_windows.exe

链接：https://pan.quark.cn/s/1cb755a42df4

安装后需重启验证

bash 复制代码

nvcc --version

解压整合包（注意路径不要有空格/中文）

双击 conda_start.bat启动

Running on local URL: http://127.0.0.1:7860