Wav2Lip视频人脸口型同步(Win10)

最近比较火的一个AI场景,就是用原声讲外语,嘴型同步,网上找了些资料,今天也跑起来了,推荐 Wav2Lip,官网地址:Github Wav2Lip

环境准备

  • Python3.6
  • ffmpeg
  • git clone https://github.com/Rudrabha/Wav2Lip.git
  • pip install -r requirements.txt
  • 下载人脸检测模型,并放在路径 face_detection/detection/sfd/s3fd.pth
  • Wav2Lip模型下载,放到路径 face_detection/detection/sfd/wav2lip.pth

上述步骤中涉及到下载地址的,直接访问官网首页对应链接即可下载

安装异常排查

opencv 安装异常

requirements.txt 中的 opencv-contrib-python>=4.2.0.34 修改为 opencv-contrib-python==4.2.0.34

pytorch 1.1.0 安装异常

直接进 pytorch 官网,用官网的方法安装 https://pytorch.org/get-started/previous-versions/#v110

视频demo

直接用官方的视频demo,进入 https://bhaasha.iiit.ac.in/lipsync/ 这个地址,里面的三个视频可以直接下载使用

音频生成

推荐这个网站,很好用 https://www.text-to-speech.cn/

运行命令

python inference.py --checkpoint_path ./face_detection/detection/sfd/wav2lip.pth --face D:/Ekoz/Items/QiuBao/dictator_orig.mp4 --audio D:/Ekoz/Items/QiuBao/output.wav

最终合成的视频,在 results 目录下

相关推荐
憧憬成为原神糕手3 小时前
FFmpeg 音视频开发笔记(一):H.264 解码为 YUV
笔记·ffmpeg·音视频
ai产品老杨3 小时前
突破品牌壁垒:基于 GB28181 与 RTSP 的异构 AI 视频平台架构深度解析(支持 Docker 与源码交付)
人工智能·架构·音视频
AI服务老曹3 小时前
【架构深析】打破安防“黑盒”:GB28181/RTSP 视频管理平台如何通过源码交付与 API 驱动节省 95% 开发成本
架构·音视频
科研前沿3 小时前
多视角相机驱动的室内人员空间定位技术白皮书
大数据·人工智能·python·科技·数码相机·音视频
ai产品老杨5 小时前
深度解析:异构算力下的 AI 视频管理平台架构实现 (GB28181 / Docker / 源码交付)
人工智能·架构·音视频
ai产品老杨6 小时前
深度解析:基于 Docker 与 GB28181 的企业级 AI 视频管理平台——实现 X86/ARM 异构计算与全场景边缘计算架构
人工智能·docker·音视频
电子科技圈6 小时前
四大“门派”围攻边缘及端侧AI SoC市场“光明顶”
人工智能·嵌入式硬件·mcu·物联网·网络安全·音视频·语音识别
地球@+jdhb4410 小时前
2026年,去豆包视频水印有哪些真正靠谱的方法?我亲自替你蹚了一遍坑
音视频
时空自由民.11 小时前
ESP ADF音频篇章
macos·音视频·xcode
ZC跨境爬虫1 天前
跟着 MDN 学 HTML day_17:媒体与 Web Audio API 自动播放指南——策略、检测与最佳实践
前端·笔记·ui·html·音视频·媒体