sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处

https://arxiv.org/abs/2211.12194

使用方法

  1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片,这里添加的是航天之父戚发轫,respect。

  1. 再用ttsmaker文字转语音工具,将戚先生在剧本中要说的话转为语音,链接如下

https://ttsmaker.com/zh-cn

  1. 生成wav文件后,上传到colab中的/examples/driven_audio文件夹,并在代码部分进行名称替换

  2. 接下来只需要按步骤运行demo,就能在result文件夹下生成想要的动起来的mp4文件了,我的视频大约1分半,用了约10分钟生成,生成效果如下(已经按第6步视频增强)。

4718_1711785136

5.生成的视频分辨率不够高,但相比之前自己使用的DID生成的数字人,真实度高了不少,DID生成的嘴巴明显是从另外找了一个,属于一眼假,DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊,用了一个手机上的app叫wink来视频增强

相关推荐
星期天要睡觉1 小时前
自然语言处理(NLP)——自然语言处理原理、发展历程、核心技术
人工智能·自然语言处理
低音钢琴1 小时前
【人工智能系列:机器学习学习和进阶01】机器学习初学者指南:理解核心算法与应用
人工智能·算法·机器学习
颜颜yan_2 小时前
UU远程——让工作、学习、娱乐跨设备无缝衔接,“远程”更像“身边”
学习·娱乐·远程工作
大千AI助手2 小时前
Hoeffding树:数据流挖掘中的高效分类算法详解
人工智能·机器学习·分类·数据挖掘·流数据··hoeffding树
新知图书3 小时前
大模型微调定义与分类
人工智能·大模型应用开发·大模型应用
山烛3 小时前
一文读懂YOLOv4:目标检测领域的技术融合与性能突破
人工智能·yolo·目标检测·计算机视觉·yolov4
大千AI助手3 小时前
独热编码:分类数据处理的基石技术
人工智能·机器学习·分类·数据挖掘·特征工程·one-hot·独热编码
钱彬 (Qian Bin)3 小时前
项目实践4—全球证件智能识别系统(Qt客户端开发+FastAPI后端人工智能服务开发)
人工智能·qt·fastapi
钱彬 (Qian Bin)3 小时前
项目实践3—全球证件智能识别系统(Qt客户端开发+FastAPI后端人工智能服务开发)
人工智能·qt·fastapi
Microsoft Word3 小时前
向量数据库与RAG
数据库·人工智能·向量数据库·rag