EchoMimic 音频驱动照片生成视频部署测试

环境:Windows 11 + NVIDIA RTX 3070 Laptop 16GB

我配置了阿里云的镜像,要实现一样的效果,你也可以在每一行的命令后加

bash 复制代码
-i https://mirrors.aliyun.com/pypi/simple/

如:

bash 复制代码
pip install package_name -i https://mirrors.aliyun.com/pypi/simple/

安装按 GitHub 开源说明部署没有压力

bash 复制代码
conda create -n EchoMimicCpu python=3.10
activate EchoMimicCpu
conda install git
git clone https://github.com/antgroup/echomimic.git
cd EchoMimic
conda install ffmpeg
pip install -r requirements.txt
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

注意huggingface在国内不能正常访问,可以用以下命令替代

bash 复制代码
git clone https://hf-mirror.com/BadToBest/EchoMimic pretrained_weights

我的经验,其实你用某种方式打开原网站点下载后,使用IDM等下载工具,会自动跳到CDN链接,速度飞起,至于怎么打开原网页,作为肩负国家振兴责任的年轻人,你可以大胆一点

问题:

bash 复制代码
ImportError: cannot import name 'cached_download' from 'huggingface_hub'

手动安装相关包的版本

bash 复制代码
pip install transformers==4.38.2
pip install huggingface_hub==0.25.0
pip install gradio==4.44.0

问题:

bash 复制代码
please download ffmpeg-static and export to FFMPEG_PATH.

下载

bash 复制代码
https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.4-amd64-static.tar.xz

解压,比如我直接解压到

bash 复制代码
F:\EchoMimic

然后,运行时(每一次运行都要,也可以设置永久环境变量)

bash 复制代码
set FFMPEG_PATH=F:\EchoMimic\ffmpeg-4.4-amd64-static

问题:

bash 复制代码
Cannot initialize model with low cpu memory usage because `accelerate` was not found in the environment.

安装 accelerate 包

bash 复制代码
pip install accelerate

问题:

bash 复制代码
AssertionError: Torch not compiled with CUDA enabled

要么改python脚本,要么安装cuda版本的torch(次奥,还是cuda吧)

bash 复制代码
conda install cuda=12.1

# 从 https://download.pytorch.org/whl/cu121 下载 wheel
# 如 torch 就到 https://download.pytorch.org/whl/cu121/torch 下载对应版本
# 国内也可以用阿里云 https://mirrors.aliyun.com/pytorch-wheels/cu121 但是新版本 torch 还没有

pip install D:\Downloads\torch-2.2.2+cu121-cp310-cp310-win_amd64.whl
pip install D:\Downloads\torchvision-0.17.2+cu121-cp310-cp310-win_amd64.whl
pip install D:\Downloads\torchaudio-2.2.2+cu121-cp310-cp310-win_amd64.whl

问题:

bash 复制代码
TypeError: argument of type 'bool' is not iterable
ValueError: When localhost is not accessible, a shareable link must be created.

这个是老问题了,是pydantic版本所致

bash 复制代码
pip install pydantic==2.10.6

此外,如果使用页面 webui.py 脚本有问题(我怀疑这帮人是故意的)

bash 复制代码
	cv2.error: OpenCV(4.11.0) :-1: error: (-5:Bad argument) in function 'resize'
	修改 webui.py 第 169,170 行
        face_img = cv2.resize(face_img, (width, height))
        face_mask = cv2.resize(face_mask, (width, height))
	为
        face_img = cv2.resize(face_img[0], (width, height))
        face_mask = cv2.resize(face_mask[0], (width, height))

实测

也许是因为笔记本的GPU的原因,生成6秒的视频,磨蹭了2个小时,效果还行吧,反正比wav2lip好一些,而微软的VASA-1和国内同样是阿里的EMO还没有开源,暂时没法对比,字节跳动老张的LatentSync可以处理视频,效果都差不多

相关推荐
格调UI成品2 分钟前
智能制造新视角:工业4.0中,数字孪生如何优化产品全生命周期?
人工智能·工业4.0
机器学习之心14 分钟前
PINN物理信息神经网络用于求解二阶常微分方程(ODE)的边值问题,Matlab实现
人工智能·神经网络·matlab·物理信息神经网络·二阶常微分方程
zandy101117 分钟前
LLM与数据工程的融合:衡石Data Agent的语义层与Agent框架设计
大数据·人工智能·算法·ai·智能体
大千AI助手23 分钟前
梯度消失问题:深度学习中的「记忆衰退」困境与解决方案
人工智能·深度学习·神经网络·梯度·梯度消失·链式法则·vanishing
研梦非凡32 分钟前
CVPR 2025|无类别词汇的视觉-语言模型少样本学习
人工智能·深度学习·学习·语言模型·自然语言处理
seegaler37 分钟前
WrenAI:开源革命,重塑商业智能未来
人工智能·microsoft·ai
max50060038 分钟前
本地部署开源数据生成器项目实战指南
开发语言·人工智能·python·深度学习·算法·开源
他们叫我技术总监38 分钟前
【保姆级选型指南】2025年国产开源AI算力平台怎么选?覆盖企业级_制造业_国际化场景
人工智能·开源·算力调度·ai平台·gpu国产化
IT_陈寒40 分钟前
🔥5个必学的JavaScript性能黑科技:让你的网页速度提升300%!
前端·人工智能·后端
czijin41 分钟前
【论文阅读】Security of Language Models for Code: A Systematic Literature Review
论文阅读·人工智能·安全·语言模型·软件工程