视频和音频合成视频Easy_Wav2Lip

Easy_Wav2Lip 是使用视频和音频合成新的视频

Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

  1. 整体流程

第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。

第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)

第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。

第四步:预测出来的人脸拼接到原图上,输出位视频。

  1. 优缺点

优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。

缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了

软件包运行:go-web.bat 双击就可以了

运行成功,用浏览器打开:http://127.0.0.1:7860/

运行成功。

可以上传一段视频和音频试试

生成中

一分钟视频合成花了50分钟

看看效果

813

最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced

分辨率选项:full resolution

Wav2Lip版本选项:Wav2Lip

启动追踪旧数据:True

启用脸部平滑:True

嘴部上边缘:0

嘴部下边缘:10

嘴部左边缘:0

嘴部右边缘:0

Mask尺寸:1

Mask羽化:1

启用嘴部追踪:True

启用调试:False

参考视频:如何用自己的形象生成AI数字人,代替自己出镜创作短视频和直播?零成本干货教学!_哔哩哔哩_bilibili

资源包有:

ChatTTS增强版一件整合包

AI数字人生成工具

EchoMimic照片转视频等

还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
⚙️AI吧教学日记 · AI工具和教程分享⚙️ · 语雀

有需要的小伙伴可自行领取

================================

构建中国人自己的私人GPT
构建中国人自己的私人GPT - 神经网络 - 金双石科技 -

(出处: 金双石科技)

AI绘图软件stable-diffusion 3
AI绘图软件stable-diffusion 3 - 神经网络 - 金双石科技 -

(出处: 金双石科技)

AI绘图软件fooocus
AI绘图软件fooocus - 神经网络 - 金双石科技 -

(出处: 金双石科技)

文字生成语音1
文字生成语音1 - 神经网络 - 金双石科技 -

(出处: 金双石科技)

图片和音频合成数字人SadTalker
图片和音频合成数字人SadTalker - 神经网络 - 金双石科技 -

(出处: 金双石科技)

视频和音频合成视频Easy_Wav2Lip
视频和音频合成视频Easy_Wav2Lip - 神经网络 - 金双石科技 -

(出处: 金双石科技)

3D模型和音频合成数字人
3D模型和音频合成数字人 - 神经网络 - 金双石科技 -

(出处: 金双石科技)

实时智能应答3D数字人
实时智能应答3D数字人 - 神经网络 - 金双石科技 -

(出处: 金双石科技)

AI模型生成数字人DeepFaceLive
AI模型生成数字人DeepFaceLive - 神经网络 - 金双石科技 -

(出处: 金双石科技)

相关推荐
小鸡吃米…4 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫4 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)5 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan5 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维5 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS5 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd5 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟6 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然6 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~6 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1