LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

分享一个最近还不错的数字人项目------LatentSync。该项目由字节开源,上传一段音频和视频,即可生成数字人视频。

我对该项目做了些更改,增加了批量和MAC版本的支持,用MAC的小伙伴再也不用遗憾了...

看下我生成的效果。

https://live.csdn.net/v/460345

简单介绍下如何使用

上传一段人物视频和你要生成人物说话的音频。

点击处理视频等待视频生成

https://live.csdn.net/v/460346

批量模式的使用也相同,支持上传多个文件。

批量模式下音频数量一定要和视频数量保持一致,如果缺少是会报错的。

配置需求

WIN

WindowsN卡需8G显存

如果整合包运行报错,需要安装cuda12.4

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

8G内存

这里MAC用户需注意📢

针对MAC版本我增加了运行模式,两者的区别在于所需要的内存、处理的速度不同。

默认是cpu执行,考虑到有低内存的小伙伴,该模式下8G内存就能跑,但是速度较慢。

MPS针对16G内存以及以上小伙伴,推荐选择该模式,可以达到一个较快的处理速度。

一些问题

该项目目前只在英文数据集上训练过,所以中文效果比较差,但是还是可以用的,没到完全不能看的地步。

关于中文效果不好,可以通过使用中文数据集来训练解决。目前syncnet可以在4090显卡上进行训练,unet则需要50G显存...

别的没啥啦,简单、好用。干就完事了!

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘:

https://pan.quark.cn/s/90d2784bc502

度度度盘:

https://pan.baidu.com/s/1HwN1k6v-975uLfI0d8N_zQ?pwd=gewd

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

相关推荐
JAVA学习通10 分钟前
发布自己的 jar 包到 Maven 中央仓库 ( mvnrepository.com )
人工智能·docker·自然语言处理·容器·rocketmq
文火冰糖的硅基工坊15 分钟前
[嵌入式系统-107]:语音识别的信号处理流程和软硬件职责
人工智能·语音识别·信号处理
lianyinghhh39 分钟前
瓦力机器人-舵机控制(基于树莓派5)
人工智能·python·自然语言处理·硬件工程
小殊小殊43 分钟前
超越CNN:GCN如何重塑图像处理
图像处理·人工智能·深度学习
康语智能1 小时前
科技赋能成长,小康AI家庭医生守护童真
人工智能·科技
WLJT1231231231 小时前
科技赋能塞上农业:宁夏从黄土地到绿硅谷的蝶变
大数据·人工智能·科技
墨风如雪1 小时前
微软MAI-Image-1:告别依赖,自研图像AI能否破局?
aigc
StarPrayers.1 小时前
旅行商问题(TSP)(2)(heuristics.py)(TSP 的两种贪心启发式算法实现)
前端·人工智能·python·算法·pycharm·启发式算法
koo3642 小时前
李宏毅机器学习笔记21
人工智能·笔记·机器学习
Bony-2 小时前
奶茶销售数据分析
人工智能·数据挖掘·数据分析·lstm