【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
m0_650108247 小时前
WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架
论文阅读·自动驾驶·高保真·时空一致性·4d驾驶场景合成·生成式与重建式融合·4d高斯
小明_GLC8 小时前
Timer-XL: Long-Context Transformers For Unified Time Series Forecasting 时序论文阅读
论文阅读
小明_GLC9 小时前
Improving Time Series Forecasting via Instance-aware Post-hoc Revision时序论文阅读
论文阅读
小明_GLC9 小时前
Timer : Transformers for Time Series Analysis at Scale 时序论文阅读
论文阅读
EEPI9 小时前
【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning
论文阅读
学海一叶12 小时前
论文精读-《ReAct: Synergizing Reasoning and Acting in Language Models》,2022
论文阅读·人工智能·语言模型·动态规划·agent
EEPI1 天前
【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
论文阅读
一碗白开水一1 天前
【论文阅读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
论文阅读·数码相机
m0_650108241 天前
Gaussian Splatting SLAM:单目实时高保真 3D 重建的突破性进展
论文阅读·单目slam·3d 高斯溅射·解析雅可比位姿优化·统一的3d高斯表示·实时高保真单目3d重建
MoonOutCloudBack1 天前
CAGrad:保证收敛到平均损失最小的多任务梯度算法
论文阅读·人工智能·深度学习·机器学习·多任务