【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
0x21110 小时前
[论文阅读]Attacking Open-domain Question Answering by Injecting Misinformation
论文阅读
黄雪超10 小时前
Flink介绍——实时计算核心论文之S4论文详解
大数据·论文阅读·flink
Matrix_1117 小时前
论文阅读:GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring
论文阅读·人工智能·计算摄影
s1ckrain20 小时前
【论文阅读】LongDiff:Training-Free Long Video Generation in One Go
论文阅读·人工智能·计算机视觉
水深00安东尼20 小时前
R-GCN-Modeling Relational Data with GraphConvolutional Networks(论文笔记)
论文阅读·神经网络·知识图谱
钟屿1 天前
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring论文阅读
论文阅读·图像处理·人工智能·深度学习·计算机视觉·图像去模糊·图像恢复
零澪灵2 天前
【论文阅读】Co2l: Contrastive continual learning
论文阅读
0x2113 天前
[论文阅读]Homeopathic Poisoning of RAG Systems
论文阅读
钟屿3 天前
AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion 论文阅读 ECCV
论文阅读·图像处理·人工智能·深度学习·计算机视觉
寻丶幽风3 天前
论文阅读笔记——ST-4DGS,WideRange4D
论文阅读·人工智能·笔记·深度学习·3dgs·4dgs