sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处

https://arxiv.org/abs/2211.12194

使用方法

  1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片,这里添加的是航天之父戚发轫,respect。

  1. 再用ttsmaker文字转语音工具,将戚先生在剧本中要说的话转为语音,链接如下

https://ttsmaker.com/zh-cn

  1. 生成wav文件后,上传到colab中的/examples/driven_audio文件夹,并在代码部分进行名称替换

  2. 接下来只需要按步骤运行demo,就能在result文件夹下生成想要的动起来的mp4文件了,我的视频大约1分半,用了约10分钟生成,生成效果如下(已经按第6步视频增强)。

4718_1711785136

5.生成的视频分辨率不够高,但相比之前自己使用的DID生成的数字人,真实度高了不少,DID生成的嘴巴明显是从另外找了一个,属于一眼假,DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊,用了一个手机上的app叫wink来视频增强

相关推荐
LgZhu(Yanker)4 小时前
27、企业维修保养(M&R)全流程管理:从预防性维护到智能运维的进阶之路
大数据·运维·人工智能·erp·设备·维修·保养
ModelWhale5 小时前
“大模型”技术专栏 | 和鲸 AI Infra 架构总监朱天琦:大模型微调与蒸馏技术的全景分析与实践指南(上)
人工智能·大模型·大语言模型
lxmyzzs7 小时前
【图像算法 - 08】基于 YOLO11 的抽烟检测系统(包含环境搭建 + 数据集处理 + 模型训练 + 效果对比 + 调参技巧)
人工智能·yolo·目标检测·计算机视觉
霖007 小时前
ZYNQ实现FFT信号处理项目
人工智能·经验分享·神经网络·机器学习·fpga开发·信号处理
F_D_Z7 小时前
【感知机】感知机(perceptron)模型与几何解释
学习·算法·支持向量机
GIS数据转换器8 小时前
AI 技术在智慧城市建设中的融合应用
大数据·人工智能·机器学习·计算机视觉·系统架构·智慧城市
竹子_238 小时前
《零基础入门AI:传统机器学习进阶(从拟合概念到K-Means算法)》
人工智能·算法·机器学习
上海云盾-高防顾问8 小时前
DDoS 防护的未来趋势:AI 如何重塑安全行业?
人工智能·安全·ddos
Godspeed Zhao8 小时前
自动驾驶中的传感器技术17——Camera(8)
人工智能·机器学习·自动驾驶·camera·cis
摆烂工程师8 小时前
GPT-5 即将凌晨1点进行发布,免费用户可以使用 GPT-5
前端·人工智能·程序员