今日看了一些对嘴的视频,觉得很好玩,遂来记录更新一番。本文主要讲述现在一些平台上AI翻译换嘴型换语言的AI模型Wav2Lip视频融合语音技术。
介绍
Wav2Lip是一个开源工具,它是一种神经网络可以让视频中的人说话时的嘴唇的动作和音频的内容保持一致,根据语音调整嘴唇的变化,使得生成的视频人物口型跟输入的语音同步。
适用于 任何人脸、任何语言、可以无缝地与原始视频融合
,还可以匹配转动
的脸型的口型。
霉霉说英文中文配音视频:(这个是剪映完成的,通过剪映-识别字幕-翻译中文-找个声音读出来,当然最后你自己配音也是没问题的。)
使用教程
准备工作
1、本地环境需要python环境: python3.6
2、需要音视频处理工具ffmpeg: sudo apt-get install ffmpeg
3、从远程git仓库中复制Wav2Lip模型
下载到本地:
scss
git clone git@github.com:Rudrabha/Wav2Lip.git
4、在下载下来的文件根目录打开终端运行pip install -r requirements.txt
5、点击下载人脸检测训练模型,下完之后把它放对应文件夹下 face_detection/detection/s3fd.pth
,其名字为s3fd.pth
执行命令
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>
--checkpoint_path <ckpt>
: Checkpoint(理解为一个检查点路径
),转换完成的视频将默认放置到results
文件夹下,这个ckpt可以指定路径。
--face <video.mp4>
: 视频路径
--audio <an-audio-source>
: 音频路径 (可以是.mp3,.wav,甚至支持视频文件)
基本实现原理
- 提取音频特征 : 通过使用
声谱图
等音频处理技术来完成。 - 提取视频帧: 从目标视频中提取一系列连续的视频帧,用作唇部动画的目标。
- 预测唇部运动 :使用深度学习模型,如
卷积神经网络或循环神经网络
等模型,学习音频和唇部动作之间的对应关系,生成适合于输入音频的唇部动画。 - 合成唇部动画:将预测的唇部运动序列应用于目标视频的唇部区域。对齐和融合。
- 渲染和输出 :将合成
唇部动画序列
和目标视频的内容
,最终合成唇部动画叠加在目标视频中,后期处理和调整。
效果
总结
总的来说,Wav2Lip AI 的实现原理是利用深度学习模拟预测唇部运动,并应用于唇部区域,然后通过音频特征和视频进行一一对应和合成的。在很多领域都需要这种技术。
相关链接
AI网站
- AI模型趋势以及排名
- 视频融合语音 以训练好的模型,同步任何视频到任何语言任何音频,进行视频人物嘴型和语音融合,免费。
- hygen 同步音色和口型,分分钟掌握多国语言,but要💰
- chatGPT4.0语音对话 可模拟人喘息换气等,付费💰。
工具类
☎️ 希望对大家有所帮助,如有错误,望不吝赐教,欢迎评论区留言互相学习。感谢阅读,祝您开发有乐趣。