sadtalker学习用于风格化音频驱动单图像说话人脸动画的真实 3D 运动系数的应用

论文出处

https://arxiv.org/abs/2211.12194

使用方法

  1. 打开项目的colab链接

https://colab.research.google.com/github/Winfredy/SadTalker/blob/main/quick_demo.ipynb#scrollTo=fAjwGmKKYl_I

在examples/source_image文件夹中添加希望动起来说话的图片,这里添加的是航天之父戚发轫,respect。

  1. 再用ttsmaker文字转语音工具,将戚先生在剧本中要说的话转为语音,链接如下

https://ttsmaker.com/zh-cn

  1. 生成wav文件后,上传到colab中的/examples/driven_audio文件夹,并在代码部分进行名称替换

  2. 接下来只需要按步骤运行demo,就能在result文件夹下生成想要的动起来的mp4文件了,我的视频大约1分半,用了约10分钟生成,生成效果如下(已经按第6步视频增强)。

4718_1711785136

5.生成的视频分辨率不够高,但相比之前自己使用的DID生成的数字人,真实度高了不少,DID生成的嘴巴明显是从另外找了一个,属于一眼假,DID链接如下D-ID | The #1 Choice for AI Generated Video Creation Platform

这次不用DID的另一个原因是生成的视频有水印了。

6.最后可以看到生成的视频较为模糊,用了一个手机上的app叫wink来视频增强

相关推荐
强化学习与机器人控制仿真6 分钟前
字节最新开源模型 DA3(Depth Anything 3)使用教程(一)从任意视角恢复视觉空间
人工智能·深度学习·神经网络·opencv·算法·目标检测·计算机视觉
机器之心21 分钟前
如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
人工智能·openai
Elastic 中国社区官方博客22 分钟前
Elasticsearch:如何创建知识库并使用 AI Assistant 来配置 slack 连接器
大数据·人工智能·elasticsearch·搜索引擎·全文检索·信息与通信
Baihai_IDP23 分钟前
分享一名海外独立开发者的 AI 编程工作流
人工智能·llm·ai编程
油炸小波26 分钟前
02-AI应用开发平台Dify
人工智能·python·dify·coze
机器之心28 分钟前
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
人工智能·openai
烤麻辣烫36 分钟前
23种设计模式(新手)-7迪米特原则 合成复用原则
java·开发语言·学习·设计模式·intellij-idea
菠菠萝宝1 小时前
【Java手搓RAGFlow】-1- 环境准备
java·开发语言·人工智能·llm·openai·rag
AndrewHZ1 小时前
【图像处理基石】如何从动漫参考图中提取色彩风格?
图像处理·人工智能·opencv·pillow·聚类算法·色彩风格·色彩分布
阿里云大数据AI技术1 小时前
PAI Physical AI Notebook详解3:基于仿真的导航模型训练
人工智能