照片也能说话了?嘴型表情全同步,AI数字人时代要来了

SadTalker是一款先进的人工智能模型,它通过从音频中学习生成3D运动系数,并使用全新的三维面部渲染器来生成头部运动,只需传入一张照片和一段音频,就能生成高质量的AI数字人视频

工作原理

1、显式地对音频和不同类型的运动系数之间的联系进行单独建模

2、通过蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情

3、通过条件VAE设计PoseVAE来合成不同风格的头部运动

4、使用生成的三维运动系数映射到人脸渲染的无监督三维关键点空间,合成最终视频

SadTalker生成后的人物头部运动规律,面部表情自然,口型也和音频的内容保持一致(小姐姐还会眨眼睛!)

最新中文版:

百度网盘: https://pan.baidu.com/s/1AMInL9l_LxfQ0g3j1TrWQA?pwd=8r4f

使用方法

1、上传人物图片和音频(音频可以是英文、中文、歌曲)

2、设置参数(下面会详细介绍)

3、点击"生成"按钮

参数说明

· 姿式风格:调节头部运动风格,默认0

· 表达量表:人物表情丰富程度,默认1

· 生成中的批量大小:生成视频的速度,默认1,显卡好可以适当拉大

· 预处理

crop:从图片中截取头部做视频

resize:拉伸图片,人物被压缩选择此项

full:全身照做视频

extcrop:加强版crop,主要聚焦头部

extfull:加强版全身

· 面部渲染:两种模式可自由尝试

· GFPGAN:让面部高清化

在控制台可以查看当前的处理进度,程序执行完毕会输出信息The generated video is named

生成的视频保存在SadTalker\results路径下,也可以在网页端下载

在操作界面下方的Examples中提供了部分图片和音频,请点击"图片源"选择使用

注意事项

①项目安装路径不要包含中文

②推荐使用GTX1060以上显存运行此项目

③使用过程中若不慎关闭软件后台,请重新打开,并刷新网页

相关推荐
寻星探路16 小时前
【深度长文】万字攻克网络原理:从 HTTP 报文解构到 HTTPS 终极加密逻辑
java·开发语言·网络·python·http·ai·https
SEO_juper1 天前
2026内容营销破局指南:告别流量内卷,以价值赢信任
人工智能·ai·数字营销·2026
七夜zippoe1 天前
脉向AI|当豆包手机遭遇“全网封杀“:GUI Agent是通向AGI的必经之路吗?
人工智能·ai·智能手机·agent·gui
JaguarJack1 天前
OpenClaw 最新保姆级飞书对接指南教程 搭建属于你的 AI 助手
ai·clawdbot·openclaw
x-cmd1 天前
[260207] x-cmd 更新 v0.8.0:Kimi、豆包、智谱全集结!薅到摩尔线程试用后,帮你秒接入 Claude code!
ai·x-cmd·kimi·zhipu·摩尔线程·doubao·claude-code
xuhe21 天前
[全流程详细教程]Docker部署ClawBot, 使用GLM4.7, 接入TG Bot实现私人助理. 解决Docker Openclaw Permission Denied问题
linux·docker·ai·github·tldr
AI架构师小马1 天前
Hive调优手册:从入门到精通的完整指南
数据仓库·hive·hadoop·ai
数据架构师的AI之路1 天前
深入了解大数据领域Hive的HQL语言特性
大数据·hive·hadoop·ai
jackyrongvip1 天前
一个简单的羊毛claude-4.6最新版本的方法
ai·claude
蚕豆哥1 天前
【2026马年重启】我的 Primavera P6/Unifier 技术笔记,继续更新!
ai·oracle·项目管理·unifier·p6·进度管理·甲骨文