最近比较火的一个AI场景,就是用原声讲外语,嘴型同步,网上找了些资料,今天也跑起来了,推荐 Wav2Lip,官网地址:Github Wav2Lip
环境准备
- Python3.6
- ffmpeg
- git clone https://github.com/Rudrabha/Wav2Lip.git
- pip install -r requirements.txt
- 下载人脸检测模型,并放在路径 face_detection/detection/sfd/s3fd.pth
- Wav2Lip模型下载,放到路径 face_detection/detection/sfd/wav2lip.pth
上述步骤中涉及到下载地址的,直接访问官网首页对应链接即可下载
安装异常排查
opencv 安装异常
将 requirements.txt
中的 opencv-contrib-python>=4.2.0.34
修改为 opencv-contrib-python==4.2.0.34
pytorch 1.1.0 安装异常
直接进 pytorch 官网,用官网的方法安装 https://pytorch.org/get-started/previous-versions/#v110
视频demo
直接用官方的视频demo,进入 https://bhaasha.iiit.ac.in/lipsync/ 这个地址,里面的三个视频可以直接下载使用
音频生成
推荐这个网站,很好用 https://www.text-to-speech.cn/
运行命令
python inference.py --checkpoint_path ./face_detection/detection/sfd/wav2lip.pth --face D:/Ekoz/Items/QiuBao/dictator_orig.mp4 --audio D:/Ekoz/Items/QiuBao/output.wav
最终合成的视频,在 results 目录下