【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
红苕稀饭66618 小时前
LongVU论文阅读
论文阅读
ZhiqianXia20 小时前
论文阅读 (2) :Reducing Divergence in GPGPU Programs with Loop Merging
论文阅读
EEPI20 小时前
【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control
论文阅读
zzfive1 天前
Ovi-音视频生成模型
论文阅读·人工智能·深度学习·音视频
Che_Che_2 天前
论文阅读-IDFUZZ: Intelligent Directed Grey-box Fuzzing
论文阅读·网络安全·模糊测试·定向模糊测试
闲看云起3 天前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
闲看云起3 天前
论文阅读《LIMA:Less Is More for Alignment》
论文阅读·人工智能·语言模型·自然语言处理
0x2113 天前
[论文阅读]Progent: Programmable Privilege Control for LLM Agents
论文阅读
红苕稀饭6663 天前
DyCoke论文阅读
论文阅读
飞机火车巴雷特3 天前
【论文阅读】DSPy-based neural-symbolic pipeline to enhance spatial reasoning in LLMs
论文阅读·大模型·空间推理·答案集编程