【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
XLYcmy1 小时前
三篇物联网漏洞挖掘综述
论文阅读·物联网·网络安全·静态分析·漏洞挖掘·动态分析·固件
__如果11 小时前
论文阅读--Qwen2&2.5技术报告
论文阅读·qwen
好评笔记12 小时前
AIGC视频生成模型:Stability AI的SVD(Stable Video Diffusion)模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
zenpluck12 小时前
GS论文阅读--GeoTexDensifier
论文阅读
feifeikon19 小时前
大模型GUI系列论文阅读 DAY2续2:《使用指令微调基础模型的多模态网页导航》
论文阅读
墨绿色的摆渡人19 小时前
论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(一)
论文阅读
好评笔记2 天前
AIGC视频生成模型:ByteDance的PixelDance模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·aigc·transformer
feifeikon2 天前
大模型GUI系列论文阅读 DAY2:《ScreenAgent:一种基于视觉语言模型的计算机控制代理》
论文阅读·人工智能·语言模型
lovep12 天前
Data Filtering Network 论文阅读和理解
论文阅读·数据质量·大模型算法
Eastmount2 天前
[论文阅读] (36)C&S22 MPSAutodetect:基于自编码器的恶意Powershell脚本检测模型
论文阅读·系统安全·powershell·自编码器·恶意代码检测