sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处

https://arxiv.org/abs/2211.12194

使用方法

  1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片,这里添加的是航天之父戚发轫,respect。

  1. 再用ttsmaker文字转语音工具,将戚先生在剧本中要说的话转为语音,链接如下

https://ttsmaker.com/zh-cn

  1. 生成wav文件后,上传到colab中的/examples/driven_audio文件夹,并在代码部分进行名称替换

  2. 接下来只需要按步骤运行demo,就能在result文件夹下生成想要的动起来的mp4文件了,我的视频大约1分半,用了约10分钟生成,生成效果如下(已经按第6步视频增强)。

4718_1711785136

5.生成的视频分辨率不够高,但相比之前自己使用的DID生成的数字人,真实度高了不少,DID生成的嘴巴明显是从另外找了一个,属于一眼假,DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊,用了一个手机上的app叫wink来视频增强

相关推荐
K姐研究社23 分钟前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu43 分钟前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
辰海Coding1 小时前
MiniSpring框架学习笔记-解决循环依赖的简化IoC容器
笔记·学习
晓梦林1 小时前
cp520靶场学习笔记
android·笔记·学习
传说故事1 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
北京耐用通信2 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区2 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤2 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
心中有国也有家2 小时前
cann-recipes-infer:昇腾 NPU 推理的“菜谱集合”
经验分享·笔记·学习·算法
前端若水2 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js