LatentSync 开源数字人视频对口型 懒人整合包

LatentSync

github地址:github.com/bytedance/L...

LatentSync ‌ 是开源唇形同步(Lip Sync)框架,基于 ‌**Stable Diffusion潜在扩散模型**‌,实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示(如 2D 特征点或 3D 人脸模型),直接在潜在空间中建模音频与视觉的跨模态关联,显著提升生成质量与效率。

核心特点

  • ‌**端到端架构**‌:输入音频,直接输出与之同步的唇部视频帧,简化传统多阶段流程。
  • 高分辨率支持 ‌:支持最高 ‌512×512‌ 分辨率视频生成,1.6 版本已大幅改善模糊问题。
  • 低显存需求 ‌:1.6 版本最低仅需 ‌8GB 显存‌,可在消费级 GPU 上运行。
  • 多语言优化‌:特别针对中文语音处理效果进行优化。
  • 广泛适用性‌:支持真人视频、动漫角色、虚拟主播等多种应用场景

本文懒人包为1.5版本

点击启动程序.bat,会弹出一个终端

等待终端执行加载,会自动弹出webui网页

选择视频,和选择对应的语音文件,点击生成视频

终端可以看到处理进度生成后右侧有视频结果,可以预览和下载

Tips

点击此处 网盘下载

建议显存8GB及以上使用

已开启送

相关推荐
不爱洗脚的小滕11 小时前
【RAG】召回(Retrieval)与重排(Rerank)核心技术要点汇总
langchain·aigc·ai编程·rag
win4r12 小时前
MiniMax M3 深度体验:这可能是国产模型里最接近“全能工程师”的一次
aigc·ai编程·claude
后端小肥肠16 小时前
效率狂飙9000%!Codex + HyperFrames 让一篇文章 5 分钟变视频
人工智能·aigc·agent
DigitalOcean17 小时前
AI推理成本砍半:DigitalOcean 批量推理服务正式上线
aigc·agent
程序员海军1 天前
我用了 8 个月 Codex CLI,总结出这套 AI 编程工作流
前端·后端·aigc
宝桥南山1 天前
Microsoft Agent Framework(MAF) - 如何将workflow或者A2A client转换成一个AI Agent
microsoft·ai·微软·aigc·.net·.netcore
kuntli1 天前
React范式:思考与行动的循环
aigc
向量引擎1 天前
告别多源向量API适配噩梦:一套通用中转层的设计与实践
人工智能·gpt·aigc·agi·api调用
十正1 天前
Claude code源码精读之上下文压缩
ai·aigc·agent·claude code
向量引擎2 天前
向量引擎API中转站深度测评:如何实现低成本、高并发的向量检索
人工智能·gpt·aigc·api·ai编程