LatentSync 开源数字人视频对口型懒人整合包

evan20202026-04-01 21:45

LatentSync

github地址：github.com/bytedance/L...

LatentSync ‌ 是开源唇形同步（Lip Sync）框架，基于 ‌**Stable Diffusion 的潜在扩散模型**‌，实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示（如 2D 特征点或 3D 人脸模型），直接在潜在空间中建模音频与视觉的跨模态关联，显著提升生成质量与效率。

核心特点

‌**端到端架构**‌：输入音频，直接输出与之同步的唇部视频帧，简化传统多阶段流程。
‌高分辨率支持 ‌：支持最高 ‌512×512‌ 分辨率视频生成，1.6 版本已大幅改善模糊问题。
‌低显存需求 ‌：1.6 版本最低仅需 ‌8GB 显存‌，可在消费级 GPU 上运行。
‌多语言优化‌：特别针对中文语音处理效果进行优化。
‌广泛适用性‌：支持真人视频、动漫角色、虚拟主播等多种应用场景

本文懒人包为1.5版本

点击启动程序.bat,会弹出一个终端

等待终端执行加载，会自动弹出webui网页

选择视频，和选择对应的语音文件，点击生成视频

终端可以看到处理进度生成后右侧有视频结果，可以预览和下载

Tips

点击此处网盘下载

建议显存8GB及以上使用

已开启送

上一篇：SoulX-FlashHead 实时图片数字人生成器 8GB显存可用一键懒人整合包下载

下一篇：IOPaint 开源ai去水印去除背景懒人整合包

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08全面体验 Grok API 中转站（2025 · Grok 4 系列最新版）092026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 10几个好用的ip纯净度检测网站