# 😱,AI自动生成口型,视频嘴型自动同步

今日看了一些对嘴的视频,觉得很好玩,遂来记录更新一番。本文主要讲述现在一些平台上AI翻译换嘴型换语言的AI模型Wav2Lip视频融合语音技术。

介绍

Wav2Lip是一个开源工具,它是一种神经网络可以让视频中的人说话时的嘴唇的动作和音频的内容保持一致,根据语音调整嘴唇的变化,使得生成的视频人物口型跟输入的语音同步。

适用于 任何人脸、任何语言、可以无缝地与原始视频融合,还可以匹配转动的脸型的口型。

霉霉说英文中文配音视频:(这个是剪映完成的,通过剪映-识别字幕-翻译中文-找个声音读出来,当然最后你自己配音也是没问题的。)

使用教程

准备工作

1、本地环境需要python环境: python3.6

2、需要音视频处理工具ffmpeg: sudo apt-get install ffmpeg

3、从远程git仓库中复制Wav2Lip模型下载到本地:

scss 复制代码
git clone git@github.com:Rudrabha/Wav2Lip.git

4、在下载下来的文件根目录打开终端运行pip install -r requirements.txt

5、点击下载人脸检测训练模型,下完之后把它放对应文件夹下 face_detection/detection/s3fd.pth,其名字为s3fd.pth

执行命令

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

--checkpoint_path <ckpt>: Checkpoint(理解为一个检查点路径),转换完成的视频将默认放置到results文件夹下,这个ckpt可以指定路径。

--face <video.mp4>: 视频路径

--audio <an-audio-source>: 音频路径 (可以是.mp3,.wav,甚至支持视频文件)

基本实现原理

  1. 提取音频特征 : 通过使用声谱图等音频处理技术来完成。
  2. 提取视频帧: 从目标视频中提取一系列连续的视频帧,用作唇部动画的目标。
  3. 预测唇部运动 :使用深度学习模型,如卷积神经网络或循环神经网络等模型,学习音频和唇部动作之间的对应关系,生成适合于输入音频的唇部动画。
  4. 合成唇部动画:将预测的唇部运动序列应用于目标视频的唇部区域。对齐和融合。
  5. 渲染和输出 :将合成唇部动画序列目标视频的内容,最终合成唇部动画叠加在目标视频中,后期处理和调整。

效果

总结

总的来说,Wav2Lip AI 的实现原理是利用深度学习模拟预测唇部运动,并应用于唇部区域,然后通过音频特征和视频进行一一对应和合成的。在很多领域都需要这种技术。


相关链接

AI网站

工具类

☎️ 希望对大家有所帮助,如有错误,望不吝赐教,欢迎评论区留言互相学习。感谢阅读,祝您开发有乐趣。

相关推荐
码农小白AI几秒前
AI报告审核赋能质量安全:IACheck助力机体结构检测报告精准合规
大数据·人工智能
沉睡的无敌雄狮2 分钟前
跨平台AI运营繁琐?矩阵跃动小陌GEO多端同步技术,解放技术运营双手
大数据·人工智能
2501_943124052 分钟前
7×24小时无人值守:矩阵跃动龙虾机器人+GEO,AI流量闭环效率实测报告
人工智能·矩阵·机器人
renhongxia13 分钟前
唤醒过去:利用记忆模拟机器人流动唤醒效应
人工智能·微服务·架构·机器人·知识图谱
Elastic 中国社区官方博客4 分钟前
Serverless 中用于负载均衡的 Elasticsearch 副本
大数据·运维·人工智能·elasticsearch·搜索引擎·云原生·serverless
ryrhhhh4 分钟前
从0到1搭建AI流量闭环:矩阵跃动龙虾机器人+GEO的技术选型与实操指南
人工智能·矩阵·机器人
2301_764441336 分钟前
Helios:14B实时长视频生成模型
人工智能·音视频
云蝠呼叫大模型联络中心11 分钟前
金融行业大模型呼叫系统架构与API集成案例
人工智能·金融·系统架构·多智能体协同·voiceagent·云蝠智能·ai agent技术
Tony Bai11 分钟前
【AI 智能体时代的软件工程】11 双态工作台:为何我们需要为 AI 重构 IDE?
ide·人工智能·重构
hf20001211 分钟前
当千亿数据遇上增量计算:拆解云器科技与快手的技术共创——从快手GIC实践,看新一代数据处理范式的真实落地
大数据·人工智能·科技