LatentSync 开源数字人视频对口型 懒人整合包

LatentSync

github地址:github.com/bytedance/L...

LatentSync ‌ 是开源唇形同步(Lip Sync)框架,基于 ‌**Stable Diffusion潜在扩散模型**‌,实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示(如 2D 特征点或 3D 人脸模型),直接在潜在空间中建模音频与视觉的跨模态关联,显著提升生成质量与效率。

核心特点

  • ‌**端到端架构**‌:输入音频,直接输出与之同步的唇部视频帧,简化传统多阶段流程。
  • 高分辨率支持 ‌:支持最高 ‌512×512‌ 分辨率视频生成,1.6 版本已大幅改善模糊问题。
  • 低显存需求 ‌:1.6 版本最低仅需 ‌8GB 显存‌,可在消费级 GPU 上运行。
  • 多语言优化‌:特别针对中文语音处理效果进行优化。
  • 广泛适用性‌:支持真人视频、动漫角色、虚拟主播等多种应用场景

本文懒人包为1.5版本

点击启动程序.bat,会弹出一个终端

等待终端执行加载,会自动弹出webui网页

选择视频,和选择对应的语音文件,点击生成视频

终端可以看到处理进度生成后右侧有视频结果,可以预览和下载

Tips

点击此处 网盘下载

建议显存8GB及以上使用

已开启送

相关推荐
MY_TEUCK9 小时前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
爱吃的小肥羊17 小时前
我整理了 14 种 GPT-Image-2 的神仙玩法,大家看看效果怎么样!
aigc·openai
刘 大 望18 小时前
RAG相关技术介绍及Spring AI中使用--第三期
java·人工智能·后端·spring·机器学习·ai·aigc
阿杰学AI19 小时前
AI核心知识132—大语言模型之 AI for Science(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ai for science·ai4s
用户51914958484520 小时前
Windows Hypervisor 分区漏洞利用与 IOCTL 通信测试工具
人工智能·aigc
用户6757049885021 天前
【AI开发实战】从想法到上线,我用AI全栈开发了一款记账微信小程序
后端·aigc·ai编程
用户6757049885021 天前
全网都在推 Claude Code,但只有这篇文章教你如何“真正”能用
后端·aigc·claude
用户5191495848451 天前
Automad 2.0.0-alpha.4 存储型跨站脚本(XSS)漏洞利用
人工智能·aigc
民乐团扒谱机1 天前
基于ArkTS与端云协同的鸿蒙智慧校园助手——项目报告(AIGC预警⚠️)
华为·aigc·harmonyos
日光明媚1 天前
DMD 一步扩散核心原理:从符号定义到梯度推导
人工智能·机器学习·计算机视觉·ai作画·stable diffusion·aigc