sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处

https://arxiv.org/abs/2211.12194

使用方法

  1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片,这里添加的是航天之父戚发轫,respect。

  1. 再用ttsmaker文字转语音工具,将戚先生在剧本中要说的话转为语音,链接如下

https://ttsmaker.com/zh-cn

  1. 生成wav文件后,上传到colab中的/examples/driven_audio文件夹,并在代码部分进行名称替换

  2. 接下来只需要按步骤运行demo,就能在result文件夹下生成想要的动起来的mp4文件了,我的视频大约1分半,用了约10分钟生成,生成效果如下(已经按第6步视频增强)。

4718_1711785136

5.生成的视频分辨率不够高,但相比之前自己使用的DID生成的数字人,真实度高了不少,DID生成的嘴巴明显是从另外找了一个,属于一眼假,DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊,用了一个手机上的app叫wink来视频增强

相关推荐
人工智能训练3 小时前
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
运维·前端·人工智能·python·ai编程·cuda·vllm
源于花海4 小时前
迁移学习相关的期刊和会议
人工智能·机器学习·迁移学习·期刊会议
微露清风4 小时前
系统性学习Linux-第二讲-基础开发工具
linux·运维·学习
阳光九叶草LXGZXJ5 小时前
达梦数据库-学习-48-DmDrs控制台命令(同步之Manager、CPT模块)
linux·运维·数据库·sql·学习
DisonTangor5 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
薛定谔的猫19825 小时前
二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
人工智能·自然语言处理·大模型 训练 调优
发哥来了5 小时前
《AI视频生成技术原理剖析及金管道·图生视频的应用实践》
人工智能
biuyyyxxx5 小时前
Python自动化办公学习笔记(一) 工具安装&教程
笔记·python·学习·自动化
数智联AI团队6 小时前
AI搜索引领开源大模型新浪潮,技术创新重塑信息检索未来格局
人工智能·开源
不懒不懒6 小时前
【线性 VS 逻辑回归:一篇讲透两种核心回归模型】
人工智能·机器学习