LatentSync本地部署教程:基于音频精准生成唇形高度同步视频

LatentSync 是字节跳动联合北京交通大学推出的一个端到端的唇形同步框架,以下是对其的详细介绍:

一、技术基础

LatentSync 基于音频条件的潜在扩散模型,无需任何中间的 3D 表示或 2D 特征点。它利用了 Stable Diffusion 的强大生成能力,能够捕捉复杂的视听关联,并生成动态逼真的说话视频。

二、核心特点

  1. 唇形同步生成 :根据输入的音频,LatentSync 能够生成与之匹配的唇部运动,使视频中的人物嘴唇与音频同步。这一特点使其适用于配音、虚拟头像等场景。
  2. 高分辨率视频生成 :LatentSync 能够生成高分辨率的视频,克服了传统扩散模型在像素空间进行扩散时对硬件要求高的限制。
  3. 动态逼真效果 :生成的视频具有动态逼真的效果,能够捕捉到与情感语调相关的细微表情,使人物的说话更加自然生动。
  4. 时间一致性增强 :为了解决扩散模型在不同帧间扩散过程不一致导致的时间一致性问题,LatentSync 引入了 Temporal REPresentation Alignment(TREPA)方法。该方法使用大规模自监督视频模型提取时间表示,增强生成帧与真实帧的时间一致性,同时保持唇同步的准确性。

三、技术创新

  1. 端到端框架 :LatentSync 采用端到端的方式,无需中间运动表示,能够直接建模复杂的音频与视觉之间的关系。
  2. TREPA 机制 :通过 TREPA 机制,LatentSync 能够增强时间一致性,确保生成的视频在口型同步准确性的同时,能够在时间上保持连贯。
  3. SyncNet 优化 :LatentSync 解决了 SyncNet 的收敛问题,并显著提高了唇同步的准确性。这一优化经验也可应用于其他利用 SyncNet 的唇部同步和音频驱动的肖像动画方法。

四、项目地址

github地址:

https://github.com/bytedance/LatentSync

五、部署

1.设置环境

安装所需的软件包并通过以下方式下载检查点:

source setup_env.sh

如果下载成功,检查点应如下所示:

复制代码
./checkpoints/
|-- latentsync_unet.pt
|-- latentsync_syncnet.pt
|-- whisper
|   -- tiny.pt 
|-- auxiliary 
|   |-- 2DFAN4-cd938726ad.zip 
|   |-- i3d_torchscript.pt 
|   |-- koniq_pretrained.pkl 
|   |-- s3fd-619a316812.pth 
|   |-- sfd_face.pth 
|   |-- syncnet_v2.model 
|   |-- vgg16-397923af.pth 
|   -- vit_g_hybrid_pt_1200e_ssv2_ft.pth

这些已经包括 latentsync 训练和推理所需的所有检查点。如果您只想尝试推理,您只需从 HuggingFace 存储库下载 latentsync_unet.pttiny.pt

2.推理

运行脚本进行推理,这需要大约 6.5 GB 的 GPU 内存。

复制代码
./inference.sh

您可以将参数更改为 1.5 以提高口型同步精度。

相关推荐
YMWM_15 分钟前
深度学习中模型的推理和训练
人工智能·深度学习
中二病码农不会遇见C++学姐30 分钟前
文明6-mod制作-游戏素材AI生成记录
人工智能·游戏
九尾狐ai1 小时前
从九尾狐AI案例拆解企业AI培训的技术实现与降本增效架构
人工智能
2501_948120151 小时前
基于RFID技术的固定资产管理软件系统的设计与开发
人工智能·区块链
(; ̄ェ ̄)。1 小时前
机器学习入门(十五)集成学习,Bagging,Boosting,Voting,Stacking,随机森林,Adaboost
人工智能·机器学习·集成学习
杀生丸学AI1 小时前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
vlln1 小时前
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式
人工智能·语言模型·自然语言处理
春日见1 小时前
如何避免代码冲突,拉取分支
linux·人工智能·算法·机器学习·自动驾驶
龙腾AI白云1 小时前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·数据挖掘
人工智能培训2 小时前
大模型训练数据版权与知识产权问题的解决路径
人工智能·大模型·数字化转型·大模型算法·大模型应用工程师